CN111191028A - 样本标注方法、装置、计算机设备和存储介质 - Google Patents
样本标注方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111191028A CN111191028A CN201911291033.5A CN201911291033A CN111191028A CN 111191028 A CN111191028 A CN 111191028A CN 201911291033 A CN201911291033 A CN 201911291033A CN 111191028 A CN111191028 A CN 111191028A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- target
- code
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title abstract description 37
- 238000013528 artificial neural network Methods 0.000 claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 53
- 230000015654 memory Effects 0.000 claims description 33
- 230000002457 bidirectional effect Effects 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 15
- 230000007787 long-term memory Effects 0.000 claims description 12
- 230000006403 short-term memory Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种样本标注方法、装置、计算机设备和存储介质。涉及互联网技术领域。所述方法包括:获取目标文本对应的文本向量;将该文本向量输入至神经网络,得到该神经网络输出的特征向量,将该神经网络输出的特征向量作为待处理文本编码;获取已标注文本编码集合,该已标注文本编码集合包括多个参考文本编码,每个该参考文本编码均与文本类别相对应,每个该参考文本编码均是根据该预设编码方式进行编码后得到的;从该已标注文本编码集合中确定目标参考文本编码,并将该目标参考文本编码对应的文本类别确定为该目标文本对应的文本类别,该目标参考文本编码与该待处理文本编码的相似度大于预设相似度阈值。采用本方法能够缩短样本标注的用时。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及一种样本标注方法、装置、计算机设备和存储介质。
背景技术
随着互联网技术的发展,网络上存在的文本越来越多,这些文本中包含着大量有用信息,若能对这些文本进行准确的样本标注(也即是分类),那么就可以对文本中包含的有用信息进行合理利用。因此出现了相关的利用关键词搜索进行样本标注的技术。
相关的利用关键词搜索进行样本标注的技术,通过预先制定关键词和关键词对应的类别,然后搜索未标注的文本中是否包含预先制定的关键词,和,预先制定的关键词在未标注文本中的占比,来判断未标注的文本所属的类别,进而达到对未标注的文本进行样本标注。
然而,相关的利用关键词搜索进行样本标注的技术中,在面对大量的未标注的文本时,需要预先制定大量关键词,这就出现了标注样本用时过长的缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种能够缩短样本标注用时的样本标注方法、装置、计算机设备和存储介质。
第一方面,提供一种样本标注方法,该方法包括:
获取目标文本对应的文本向量;
将该文本向量输入至神经网络,得到该神经网络输出的特征向量,将该神经网络输出的特征向量作为待处理文本编码;
获取已标注文本编码集合,该已标注文本编码集合包括多个参考文本编码,每个该参考文本编码均与文本类别相对应,每个该参考文本编码均是根据该预设编码方式进行编码后得到的;
从该已标注文本编码集合中确定目标参考文本编码,并将该目标参考文本编码对应的文本类别确定为该目标文本对应的文本类别,该目标参考文本编码与该待处理文本编码的相似度大于预设相似度阈值。
在其中一个实施例中,该获取目标文本对应的文本向量,包括:
根据词典将该目标文本包含的文字映射为数字序列,按照预设长度值截取该数字序列,获得初始文本向量,该词典中存储有文字与数字的对应关系;
利用词嵌入向量映射方法对该初始文本向量进行映射,得到映射后的初始文本向量,将该映射后的初始文本向量作为该文本向量,该文本向量的维数大于该初始文本向量的维数。
在其中一个实施例中,该神经网络是双向长短期记忆神经网络,该将该文本向量输入至神经网络,得到该神经网络输出的特征向量,包括:
利用该双向长短期记忆神经网络对该文本向量进行双向语义抽取,得到该双向长短期记忆神经网络输出的特征向量。
在其中一个实施例中,该根据词典将该目标文本包含的文字映射为数字序列之前,该方法还包括:
对该目标文本进行归一化处理。
在其中一个实施例中,该对该目标文本进行归一化处理,包括:
将该目标文本包含的文字统一为全角格式或半角格式;以及,
将该目标文本包含的英文统一为大写格式或小写格式。
在其中一个实施例中,该从该已标注文本编码集合中确定目标参考文本编码,包括:
计算该待处理文本编码与该已标注文本编码集合中各该参考文本编码之间的余弦相似度;
将与该待处理文本编码之间的该余弦相似度大于该预设相似度阈值的参考文本编码确定为该目标文本编码。
第二方面,提供一种样本标注装置,该装置包括:
第一获取模块,用于获取目标文本对应的文本向量;
输入模块,用于将该文本向量输入至神经网络,得到该神经网络输出的特征向量,将该神经网络输出的特征向量作为待处理文本编码;
第二获取模块,用于获取已标注文本编码集合,该已标注文本编码集合包括多个参考文本编码,每个该参考文本编码均与文本类别相对应,每个该参考文本编码均是根据该预设编码方式进行编码后得到的;
确定模块,用于从该已标注文本编码集合中确定目标参考文本编码,并将该目标参考文本编码对应的文本类别确定为该目标文本对应的文本类别,该目标参考文本编码与该待处理文本编码的相似度大于预设相似度阈值。
在其中一个实施例中,该第一获取模块具体用于,根据词典将该目标文本包含的文字映射为数字序列,按照预设长度值截取该数字序列,获得初始文本向量,该词典中存储有文字与数字的对应关系;
利用词嵌入向量映射方法对该初始文本向量进行映射,得到映射后的初始文本向量,将该映射后的初始文本向量作为该文本向量,该文本向量的维数大于该初始文本向量的维数。
在其中一个实施例中,该神经网络是双向长短期记忆神经网络,该输入模块具体用于,利用该双向长短期记忆神经网络对该文本向量进行双向语义抽取,得到该双向长短期记忆神经网络输出的特征向量。
在其中一个实施例中,该装置还包括归一化处理模块,该归一化处理模块用于,对该目标文本进行归一化处理。
在其中一个实施例中,该归一化处理模块具体用于,将该目标文本包含的文字统一为全角格式或半角格式;以及,
将该目标文本包含的英文统一为大写格式或小写格式。
在其中一个实施例中,该确定模块具体用于,计算该待处理文本编码与该已标注文本编码集合中各该参考文本编码之间的余弦相似度;
将与该待处理文本编码之间的该余弦相似度大于该预设相似度阈值的参考文本编码确定为该目标文本编码。
第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该计算机程序时实现上述第一方面任一所述的方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面任一所述的方法。
上述样本标注方法、装置、计算机设备和存储介质,通过首先获取目标文本对应的文本向量;接着将该文本向量输入至神经网络,得到该神经网络输出的特征向量,将该神经网络输出的特征向量作为待处理文本编码;然后获取已标注文本编码集合,该已标注文本编码集合包括多个参考文本编码,每个该参考文本编码均与文本类别相对应,每个该参考文本编码均是根据该预设编码方式进行编码后得到的;最后从该已标注文本编码集合中确定目标参考文本编码,并将该目标参考文本编码对应的文本类别确定为该目标文本对应的文本类别,该目标参考文本编码与该待处理文本编码的相似度大于预设相似度阈值。因为本申请提供的样本标注方法,在面对大量未标注样本时,只需要在每个文本类别下标注少量的文本得到已标注文本编码集合,然后将未标注的目标文本对应的待处理文本编码与参考文本编码进行相似度计算和筛选就可以完成对未标注文本的样本标注工作,因此,本申请提供的样本标注方法一定程度上缩短了样本标注的用时。
附图说明
图1为一个实施例中样本标注方法的应用场景图;
图2为一个实施例中样本标注方法的流程示意图;
图3为一个实施例中获取目标文本对应的文本向量的流程示意图;
图4为一个实施例中确定目标参考文本编码的流程示意图;
图5为一个实施例中样本标注装置的结构框图;
图6为另一个实施例中样本标注装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着互联网的发展,网络上存在的文本越来越多。例如用户现在可以很方便的在网络上用文本表达自己的想法,这些文本中包含大量用户对人物、事件、产品等的评论信息。如果可以对这些文本进行准确地样本标注(也即是分类),例如喜、怒、哀、乐、批评或赞扬等,那么就可以准确掌握用户的需求,进而根据用户的需求对产品进行调整。相关的,可以利用关键词搜索来进行样本标注。
相关的利用关键词搜索进行样本标注的技术。需要预先制定关键词和关键词对应的类别,然后对于未标注的文本,搜索未标注的文本中是否包含预先制定的关键词,以及,预先制定的关键词在未标注的文本中所占的比重。若未标注文本中包含某个关键词,并且,该关键词在文标注文本中所占的比重超过了预设的比重值,那么就可以将该未标注的文本标注为该关键词对应的类别。从而完成对未标注的文本进行样本标注的全过程。
然而,相关的利用关键词搜索进行样本标注的技术中,在面对大量未标注文本时,因为该大量未标注文本中通常包含大量不同类别,并且,类别之间会变得不容易区分,也就是说,不同的类别之间很有可能包含相同的关键词。这时,为了准确进行样本标注,就需要为每个类别制定多个关键词,以此更好的区分各个类别。所以,就造成了面对大量未标注样本时,会因为制定大量关键词而造成的标注样本用时过长的缺陷。
本申请实施例提供的样本标注方法,可以应用于如图1所示的应用环境中。其中,服务器101可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在本申请实施例中,如图2所示,提供了一种样本标注方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤201,服务器获取目标文本对应的文本向量。
文本向量指的是文本对应的数字的组合。
本步骤中,在对目标文本进行相似度计算和标注之前,需要先将目标文本转换成数字编码的形式便于后续的数学计算。在转换成本申请实施例可以使用的数字编码的形式时,可以先将目标文本转换成文本向量。具体的,可以先利用词典将目标文本初步映射为数字序列的形式,然后对于目标文本对应的数字序列做进一步的操作得到目标文本的文字向量。可选的,上述进一步的操作可以包括对目标文本对应的数字序列进行长度变换和向量映射等。其中,将会在下文实施例中对上述长度变换和向量映射的操作过程做具体说明。
步骤202,服务器将该文本向量输入至神经网络,得到该神经网络输出的特征向量,将该神经网络输出的特征向量作为待处理文本编码。
在上述步骤的基础上,对于获得的文本向量,利用神经网络对该文本向量进行语义抽取,也可以理解为特征抽取,然后得到特征向量。目标文本对应的文本向量经过神经网络的语义抽取后,变成了特征向量的形式,该特征向量即为本申请在计算相似度时可以直接利用的数字编码的形式。
本步骤中,通过将目标文本转换成文本向量,并且利用神经网络对文本向量进行语义抽取得到特征向量,因为经过神经网络的语义抽取,所以该特征向量能较为准确地体现该目标文本所包含的语义信息。同时便于后续计算相似度过程中,服务器对该特征向量的使用。
步骤203,服务器获取已标注文本编码集合。
该已标注文本编码集合包括多个参考文本编码,每个该参考文本编码均与文本类别相对应,每个该参考文本编码均是根据上述步骤进行编码后得到的。
本步骤中,在面对大量未标注文本时,可以根据需要,预先标注一部分文本,然后对这些已标注的文本进行编码,得到已标注的文本编码,也即是,得到带有类别标识的文本编码。这些带有类别标识的文本编码可以作为参考文本编码,在后续操作中可以用于相似度的计算。
步骤204,服务器从该已标注文本编码集合中确定目标参考文本编码,并将该目标参考文本编码对应的文本类别确定为该目标文本对应的文本类别。
该目标参考文本编码与该待处理文本编码的相似度大于预设相似度阈值。
相似度指的是,两个文本编码之间的相关性。可以通过数学计算的方式得到该相关性的值。在实际应用中,相似度的值可以用来描述两个文本包含的文字内容和语义信息之间的相同程度。
本步骤中,对于未标注的目标文本,可以在已标注的文本编码集合中确定一个参考文本编码,然后把该参考文本编码对应的类别作为自己的类别。具体的,可以通过相似度的值来确定该参考文本编码。当两个文本编码之间的相似度的值超过预设相似度阈值时,表示这两个文本编码分别对应的文本所包含的文字信息和语义信息之间具有较强的相似性,也可以理解为,这两条文本所传达的信息的相同的,那么就可以将这两条文本归为同一类。
上述样本标注方法中,通过首先获取目标文本对应的文本向量;接着将该文本向量输入至神经网络,得到该神经网络输出的特征向量,将该神经网络输出的特征向量作为待处理文本编码;然后获取已标注文本编码集合,该已标注文本编码集合包括多个参考文本编码,每个该参考文本编码均与文本类别相对应,每个该参考文本编码均是根据该预设编码方式进行编码后得到的;最后从该已标注文本编码集合中确定目标参考文本编码,并将该目标参考文本编码对应的文本类别确定为该目标文本对应的文本类别,该目标参考文本编码与该待处理文本编码的相似度大于预设相似度阈值。因为本申请提供的样本标注方法,在面对大量未标注样本时,只需要在每个文本类别下标注少量的文本得到已标注文本编码集合,然后将未标注的目标文本对应的待处理文本编码与参考文本编码进行相似度计算和筛选就可以完成对未标注文本的样本标注工作,因此,本申请提供的样本标注方法一定程度上缩短了样本标注的用时。
在本申请实施例中,请参考图3,提供了一种获取目标文本对应的文本向量的方法,该方法包括:
步骤301,服务器根据词典将该目标文本包含的文字映射为数字序列,按照预设长度值截取该数字序列,获得初始文本向量。
该词典中存储有文字与数字的对应关系。具体的,可以预先给每个文字指定一个对应的数字,不同的文字对应不同的数字,然后把这些文字和数字的对应关系存入一个词典中。例如,对于一个文字列表,按照顺序对文字列表中的文字进行编号,然后将每个文字的编号作为该文字对应的数字,然后将带有数字编号的文字列表作为一个词典。
实际应用时,对于一条文本,可以在词典中查找该文本中每个文字所对应的数字,然后将该文本由文字序列转换成数字序列的形式。再根据需要,设置一个长度值来截取数字序列,对于长度不满足该长度值的数字序列,在该数字序列末尾用0补齐。
为了便于理解,现对上述获得初始文本向量的过程进行举例说明。例如,对于“我今天下午还”这句话,在词典中查找得到“我”对应数字“2”、“今”对应数字“3”、“天”对应数字“1”、“下”对应数字“9”、“午”对应数字“11”、“还”对应数字“7”,那么“我今天下午还”这句话可以转换成[2,3,1,9,11,7]这样的数字序列的形式。假设预设的长度值为32位,但该数字序列的长度值为6位,不满足32位。此时可以用0将该数字序列补齐至32位,那么最终得到的初始文本向量就是[2,3,1,9,11,7,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]。
步骤302,计算机设备利用词嵌入向量映射方法对该初始文本向量进行映射,得到映射后的初始文本向量,将该映射后的初始文本向量作为该文本向量。
该文本向量的维数大于该初始文本向量的维数。
本步骤中,词嵌入向量映射法(英文:word embedding)操作可以将低维离散的向量映射为高维连续的向量。具体的,可以给初始文本向量乘一个矩阵,得到文本向量,该矩阵的列数可以根据需要调整。例如,初始文本向量是一个1行32列的向量,可以给该初始文本向量乘上一个32行128列的矩阵,使得该初始文本向量变成一个1行128列的向量。其中,给该初始文本向量乘上一个32行128列的矩阵的操作可以被称为词嵌入向量映射法,128可以是其他比32大的数字。
本申请实施例中,通过将目标文本转换为长度统一的初始文本向量,便于后续的统一处理。然后利用词嵌入向量映射法,将初始文本向量转换成高维连续向量。得到的高维连续向量相对于初始文本向量来说,可以更好的刻画目标文本包含的文本信息。使得后续的确定目标参考文本的过程更加严格准确。
在本申请实施例中,该神经网络是双向长短期记忆神经网络,该将该文本向量输入至神经网络,得到该神经网络输出的特征向量,包括:
服务器利用该双向长短期记忆神经网络对该文本向量进行双向语义抽取,得到该双向长短期记忆神经网络输出的特征向量。
双向长短期记忆神经网络(英文:Bi-LSTM)语义抽取的原理是,对于一个文本向量,首先从前到后学习一次,得到一个预测结果,然后再从后到前学习一次,得到一个预测结果,然后把两次学习所得的预测结果组合起来作为最后的预测结果,并输出该最后的预测结果。该双向长短期记忆神经网络适用于对上下文有紧密联系的文本进行预测。
在本申请实施例中,可选的,该神经网络还可以是长短期记忆神经网络(英文:LSTM)或递归神经网络(英文:GRU)。
本申请实施例中,通过使用双向长短期记忆神经网络,对文本向量进行语义抽取,因为该双向长短期记忆神经网络特有的语义抽取方式,使得本申请中得到的特征向量可以更好的刻画文本中所包含的语义信息,进一步的,使得最后的确定目标参考文本编码更加准确。
在本申请实施例中,在根据词典将该目标文本包含的文字映射为数字序列之前,服务器需要对该目标文本进行归一化处理。
本申请实施例中,在得到目标文本对应的文本向量之前,有必要对目标文本进行归一化处理,归一化处理的目的是为了让所有目标文本的格式是统一的。例如目标文本中的字体大小、文本长度、大小写格式等。
本申请实施例中,通过对目标文本进行归一化处理,使得目标文本的格式统一,便于服务器对目标文本进行转化成初始文本向量的操作。
在本申请实施例中,对该目标文本进行归一化处理,包括:
服务器将该目标文本包含的文字统一为全角格式或半角格式;以及,将该目标文本包含的英文统一为大写格式或小写格式。
全角格式表示一个文字需要占两个字符,半角格式表示一个文字需要占一个字符。
本申请实施例中,有必要对目标文本进行归一化操作,目标文本经过归一化操作之后,在格式上是统一的,在服务器对目标文本进行转换时,可以按照统一的标准来操作,不至于因为格式不统一而导致处理过程中出现失误。
在其中一个实施例中,请参考图4,提供了一种确定目标参考文本编码的方法,该方法包括:
步骤401,服务器计算该待处理文本编码与该已标注文本编码集合中各该参考文本编码之间的余弦相似度。
余弦相似度可以通过计算待处理文本编码和已标注文本编码之间的余弦值来得到。余弦值越大,证明两个文本之间的相似度越高,也可以说,两个文本有很大可能表示的是同一个意思。
本步骤中,可选的,该余弦相似度还可以是欧式距离、皮尔逊相关系数、修正余弦相似度、汉明距离或曼哈顿距离。
步骤402,服务器将与该待处理文本编码之间的该余弦相似度大于该预设相似度阈值的参考文本编码确定为该目标文本编码。
本步骤中,可以预设一个相似度阈值作为判断该参看文本编码是否是目标参考编码。例如预设相似度阈值为0.5,对于A类文本集合中的“我明天下午还”这句话,通过余弦相似度计算得出“我下午还”、“我下午三点还”、“下午六点还”、“我马上就还了”、“我已经还了”和“过两天还”这五条文本和“我下午还”这句话之间的相似度分别为“0.7736388”、“0.6210587”、“0.47409034”、“0.3945159”、“0.24523148”和“0.20019808”。然后可以对相似度超过0.5的“我下午还”和“我下午三点还”这两句话自动标注为A类。
本申请实施例中,通过利用计算待处理文本编码与参考文本编码之间的相似度和设置相似度阈值,可以简便快速的确定目标参考文本编码,并对未标注文本准确标注。
应该理解的是,虽然图2至图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在本申请实施例中,如图5所示,提供了一种样本标注装置500,包括:第一获取模块501、输入模块502、第二获取模块503和确定模块504,其中:
第一获取模块501,用于获取目标文本对应的文本向量;
输入模块502,用于将该文本向量输入至神经网络,得到该神经网络输出的特征向量,将该神经网络输出的特征向量作为待处理文本编码;
第二获取模块503,用于获取已标注文本编码集合,该已标注文本编码集合包括多个参考文本编码,每个该参考文本编码均与文本类别相对应,每个该参考文本编码均是根据该预设编码方式进行编码后得到的;
确定模块504,用于从该已标注文本编码集合中确定目标参考文本编码,并将该目标参考文本编码对应的文本类别确定为该目标文本对应的文本类别,该目标参考文本编码与该待处理文本编码的相似度大于预设相似度阈值。
在本申请实施例中,该第一获取模块501具体用于,根据词典将该目标文本包含的文字映射为数字序列,按照预设长度值截取该数字序列,获得初始文本向量,该词典中存储有文字与数字的对应关系;
利用词嵌入向量映射方法对该初始文本向量进行映射,得到映射后的初始文本向量,将该映射后的初始文本向量作为该文本向量,该文本向量的维数大于该初始文本向量的维数。
在本申请实施例中,该神经网络是双向长短期记忆神经网络,该输入模块502具体用于,利用该双向长短期记忆神经网络对该文本向量进行双向语义抽取,得到该双向长短期记忆神经网络输出的特征向量。
在本申请实施例中,提供了另一种样本标注装置600,该样本标注装置600除了包括该样本标注装置500包括的各模块外,可选的,该样本标注装置600还包括归一化处理模块505。
在本申请实施例中,该归一化处理模块505用于,对该目标文本进行归一化处理。
在本申请实施例中,该归一化处理模块505具体用于,将该目标文本包含的文字统一为全角格式或半角格式;以及,将该目标文本包含的英文统一为大写格式或小写格式。
在本申请实施例中,该却确定模块504具体用于,计算该待处理文本编码与该已标注文本编码集合中各该参考文本编码之间的余弦相似度;
将与该待处理文本编码之间的该余弦相似度大于该预设相似度阈值的参考文本编码确定为该目标文本编码。
关于样本标注装置的具体限定可以参见上文中对于样本标注方法的限定,在此不再赘述。上述样本标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本标注数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种样本标注方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本申请实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取目标文本对应的文本向量;
将该文本向量输入至神经网络,得到该神经网络输出的特征向量,将该神经网络输出的特征向量作为待处理文本编码;
获取已标注文本编码集合,该已标注文本编码集合包括多个参考文本编码,每个该参考文本编码均与文本类别相对应,每个该参考文本编码均是根据该预设编码方式进行编码后得到的;
从该已标注文本编码集合中确定目标参考文本编码,并将该目标参考文本编码对应的文本类别确定为该目标文本对应的文本类别,该目标参考文本编码与该待处理文本编码的相似度大于预设相似度阈值。
在本申请实施例中,处理器执行计算机程序时还实现以下步骤:
根据词典将该目标文本包含的文字映射为数字序列,按照预设长度值截取该数字序列,获得初始文本向量,该词典中存储有文字与数字的对应关系;
利用词嵌入向量映射方法对该初始文本向量进行映射,得到映射后的初始文本向量,将该映射后的初始文本向量作为该文本向量,该文本向量的维数大于该初始文本向量的维数。
在本申请实施例中,该神经网络是双向长短期记忆神经网络,处理器执行计算机程序时还实现以下步骤:
利用该双向长短期记忆神经网络对该文本向量进行双向语义抽取,得到该双向长短期记忆神经网络输出的特征向量。
在本申请实施例中,处理器执行计算机程序时还实现以下步骤:
对该目标文本进行归一化处理。
在本申请实施例中,处理器执行计算机程序时还实现以下步骤:
将该目标文本包含的文字统一为全角格式或半角格式;以及,
将该目标文本包含的英文统一为大写格式或小写格式。
在本申请实施例中,处理器执行计算机程序时还实现以下步骤:
计算该待处理文本编码与该已标注文本编码集合中各该参考文本编码之间的余弦相似度;
将与该待处理文本编码之间的该余弦相似度大于该预设相似度阈值的参考文本编码确定为该目标文本编码。
在本申请实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标文本对应的文本向量;
将该文本向量输入至神经网络,得到该神经网络输出的特征向量,将该神经网络输出的特征向量作为待处理文本编码;
获取已标注文本编码集合,该已标注文本编码集合包括多个参考文本编码,每个该参考文本编码均与文本类别相对应,每个该参考文本编码均是根据该预设编码方式进行编码后得到的;
从该已标注文本编码集合中确定目标参考文本编码,并将该目标参考文本编码对应的文本类别确定为该目标文本对应的文本类别,该目标参考文本编码与该待处理文本编码的相似度大于预设相似度阈值。
在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:
根据词典将该目标文本包含的文字映射为数字序列,按照预设长度值截取该数字序列,获得初始文本向量,该词典中存储有文字与数字的对应关系;
利用词嵌入向量映射方法对该初始文本向量进行映射,得到映射后的初始文本向量,将该映射后的初始文本向量作为该文本向量,该文本向量的维数大于该初始文本向量的维数。
在本申请实施例中,该神经网络是双向长短期记忆神经网络,计算机程序被处理器执行时还实现以下步骤:
利用该双向长短期记忆神经网络对该文本向量进行双向语义抽取,得到该双向长短期记忆神经网络输出的特征向量。
在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:
对该目标文本进行归一化处理。
在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:
将该目标文本包含的文字统一为全角格式或半角格式;以及,
将该目标文本包含的英文统一为大写格式或小写格式。
在本申请实施例中,计算机程序被处理器执行时还实现以下步骤:
计算该待处理文本编码与该已标注文本编码集合中各该参考文本编码之间的余弦相似度;
将与该待处理文本编码之间的该余弦相似度大于该预设相似度阈值的参考文本编码确定为该目标文本编码。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种样本标注方法,其特征在于,所述方法包括:
获取目标文本对应的文本向量;
将所述文本向量输入至神经网络,得到所述神经网络输出的特征向量,将所述神经网络输出的特征向量作为待处理文本编码;
获取已标注文本编码集合,所述已标注文本编码集合包括多个参考文本编码,每个所述参考文本编码均与文本类别相对应,每个所述参考文本编码均是根据所述预设编码方式进行编码后得到的;
从所述已标注文本编码集合中确定目标参考文本编码,并将所述目标参考文本编码对应的文本类别确定为所述目标文本对应的文本类别,所述目标参考文本编码与所述待处理文本编码的相似度大于预设相似度阈值。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文本对应的文本向量,包括:
根据词典将所述目标文本包含的文字映射为数字序列,按照预设长度值截取所述数字序列,获得初始文本向量,所述词典中存储有文字与数字的对应关系;
利用词嵌入向量映射方法对所述初始文本向量进行映射,得到映射后的初始文本向量,将所述映射后的初始文本向量作为所述文本向量,所述文本向量的维数大于所述初始文本向量的维数。
3.根据权利要求1所述的方法,其特征在于,所述神经网络是双向长短期记忆神经网络,所述将所述文本向量输入至神经网络,得到所述神经网络输出的特征向量,包括:
利用所述双向长短期记忆神经网络对所述文本向量进行双向语义抽取,得到所述双向长短期记忆神经网络输出的特征向量。
4.根据权利要求2所述的方法,其特征在于,所述根据词典将所述目标文本包含的文字映射为数字序列之前,所述方法还包括:
对所述目标文本进行归一化处理。
5.根据权利要求4所述的方法,其特征在于,所述对所述目标文本进行归一化处理,包括:
将所述目标文本包含的文字统一为全角格式或半角格式;以及,
将所述目标文本包含的英文统一为大写格式或小写格式。
6.根据权利要求1所述的方法,其特征在于,所述从所述已标注文本编码集合中确定目标参考文本编码,包括:
计算所述待处理文本编码与所述已标注文本编码集合中各所述参考文本编码之间的余弦相似度;
将与所述待处理文本编码之间的所述余弦相似度大于所述预设相似度阈值的参考文本编码确定为所述目标文本编码。
7.一种样本标注装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标文本对应的文本向量;
输入模块,用于将所述文本向量输入至神经网络,得到所述神经网络输出的特征向量,将所述神经网络输出的特征向量作为待处理文本编码;
第二获取模块,用于获取已标注文本编码集合,所述已标注文本编码集合包括多个参考文本编码,每个所述参考文本编码均与文本类别相对应,每个所述参考文本编码均是根据所述预设编码方式进行编码后得到的;
确定模块,用于从所述已标注文本编码集合中确定目标参考文本编码,并将所述目标参考文本编码对应的文本类别确定为所述目标文本对应的文本类别,所述目标参考文本编码与所述待处理文本编码的相似度大于预设相似度阈值。
8.根据权利要求7所述的方法,其特征在于,所述第一获取模块具体用于:
根据词典将所述目标文本包含的文字映射为数字序列,按照预设长度值截取所述数字序列,获得初始文本向量,所述词典中存储有文字与数字的对应关系;
利用词嵌入向量映射方法对所述初始文本向量进行映射,得到映射后的初始文本向量,将所述映射后的初始文本向量作为所述文本向量,所述文本向量的维数大于所述初始文本向量的维数。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911291033.5A CN111191028A (zh) | 2019-12-16 | 2019-12-16 | 样本标注方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911291033.5A CN111191028A (zh) | 2019-12-16 | 2019-12-16 | 样本标注方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111191028A true CN111191028A (zh) | 2020-05-22 |
Family
ID=70707337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911291033.5A Pending CN111191028A (zh) | 2019-12-16 | 2019-12-16 | 样本标注方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191028A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127607A (zh) * | 2021-06-18 | 2021-07-16 | 贝壳找房(北京)科技有限公司 | 文本数据标注方法、装置、电子设备及可读存储介质 |
CN113360791A (zh) * | 2021-06-29 | 2021-09-07 | 北京百度网讯科技有限公司 | 电子地图的兴趣点查询方法、装置、路侧设备及车辆 |
CN114417882A (zh) * | 2022-01-04 | 2022-04-29 | 马上消费金融股份有限公司 | 一种数据标注方法、装置、电子设备及可读存储介质 |
CN114676774A (zh) * | 2022-03-25 | 2022-06-28 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831246A (zh) * | 2012-09-17 | 2012-12-19 | 中央民族大学 | 藏文网页分类方法和装置 |
CN106503184A (zh) * | 2016-10-24 | 2017-03-15 | 海信集团有限公司 | 确定目标文本所属业务类别的方法及装置 |
CN108334891A (zh) * | 2017-12-15 | 2018-07-27 | 北京奇艺世纪科技有限公司 | 一种任务型意图分类方法及装置 |
CN108829671A (zh) * | 2018-06-04 | 2018-11-16 | 北京百度网讯科技有限公司 | 基于调查数据的决策的方法、装置、存储介质和终端设备 |
CN109522546A (zh) * | 2018-10-12 | 2019-03-26 | 浙江大学 | 基于上下文相关的医学命名实体识别方法 |
CN109885686A (zh) * | 2019-02-20 | 2019-06-14 | 延边大学 | 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法 |
CN110110800A (zh) * | 2019-05-14 | 2019-08-09 | 长沙理工大学 | 自动图像标注方法、装置、设备及计算机可读存储介质 |
CN110209806A (zh) * | 2018-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、文本分类装置及计算机可读存储介质 |
CN110362684A (zh) * | 2019-06-27 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及计算机设备 |
CN110442677A (zh) * | 2019-07-04 | 2019-11-12 | 平安科技(深圳)有限公司 | 文本匹配度检测方法、装置、计算机设备和可读存储介质 |
-
2019
- 2019-12-16 CN CN201911291033.5A patent/CN111191028A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102831246A (zh) * | 2012-09-17 | 2012-12-19 | 中央民族大学 | 藏文网页分类方法和装置 |
CN106503184A (zh) * | 2016-10-24 | 2017-03-15 | 海信集团有限公司 | 确定目标文本所属业务类别的方法及装置 |
CN108334891A (zh) * | 2017-12-15 | 2018-07-27 | 北京奇艺世纪科技有限公司 | 一种任务型意图分类方法及装置 |
CN108829671A (zh) * | 2018-06-04 | 2018-11-16 | 北京百度网讯科技有限公司 | 基于调查数据的决策的方法、装置、存储介质和终端设备 |
CN110209806A (zh) * | 2018-06-05 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、文本分类装置及计算机可读存储介质 |
CN109522546A (zh) * | 2018-10-12 | 2019-03-26 | 浙江大学 | 基于上下文相关的医学命名实体识别方法 |
CN109885686A (zh) * | 2019-02-20 | 2019-06-14 | 延边大学 | 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法 |
CN110110800A (zh) * | 2019-05-14 | 2019-08-09 | 长沙理工大学 | 自动图像标注方法、装置、设备及计算机可读存储介质 |
CN110362684A (zh) * | 2019-06-27 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及计算机设备 |
CN110442677A (zh) * | 2019-07-04 | 2019-11-12 | 平安科技(深圳)有限公司 | 文本匹配度检测方法、装置、计算机设备和可读存储介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113127607A (zh) * | 2021-06-18 | 2021-07-16 | 贝壳找房(北京)科技有限公司 | 文本数据标注方法、装置、电子设备及可读存储介质 |
CN113360791A (zh) * | 2021-06-29 | 2021-09-07 | 北京百度网讯科技有限公司 | 电子地图的兴趣点查询方法、装置、路侧设备及车辆 |
CN113360791B (zh) * | 2021-06-29 | 2023-07-18 | 北京百度网讯科技有限公司 | 电子地图的兴趣点查询方法、装置、路侧设备及车辆 |
CN114417882A (zh) * | 2022-01-04 | 2022-04-29 | 马上消费金融股份有限公司 | 一种数据标注方法、装置、电子设备及可读存储介质 |
CN114676774A (zh) * | 2022-03-25 | 2022-06-28 | 北京百度网讯科技有限公司 | 数据处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446514B (zh) | 新闻实体识别模型的构建方法、装置和计算机设备 | |
CN110765265B (zh) | 信息分类抽取方法、装置、计算机设备和存储介质 | |
CN108874928B (zh) | 简历数据信息解析处理方法、装置、设备及存储介质 | |
CN110674319B (zh) | 标签确定方法、装置、计算机设备及存储介质 | |
CN111581229B (zh) | Sql语句的生成方法、装置、计算机设备及存储介质 | |
CN111191028A (zh) | 样本标注方法、装置、计算机设备和存储介质 | |
CN109858010B (zh) | 领域新词识别方法、装置、计算机设备和存储介质 | |
CN111444723B (zh) | 信息抽取方法、计算机设备和存储介质 | |
CN111191457B (zh) | 自然语言语义识别方法、装置、计算机设备和存储介质 | |
CN110909137A (zh) | 基于人机交互的信息推送方法、装置和计算机设备 | |
CN110569500A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN114139551A (zh) | 意图识别模型的训练方法及装置、意图识别的方法及装置 | |
CN112766319B (zh) | 对话意图识别模型训练方法、装置、计算机设备及介质 | |
CN110750965A (zh) | 英文文本序列标注方法、系统及计算机设备 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN113849648B (zh) | 分类模型训练方法、装置、计算机设备和存储介质 | |
CN111400340B (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN113449489B (zh) | 标点符号标注方法、装置、计算机设备和存储介质 | |
CN112580329B (zh) | 文本噪声数据识别方法、装置、计算机设备和存储介质 | |
CN113673225A (zh) | 中文句子相似性判别方法、装置、计算机设备和存储介质 | |
CN110705211A (zh) | 文本重点内容标记方法、装置、计算机设备及存储介质 | |
CN113076404B (zh) | 一种文本相似度计算方法、装置、计算机设备和存储介质 | |
CN113051920A (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
US11481389B2 (en) | Generating an executable code based on a document | |
CN113408291B (zh) | 中文实体识别模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200522 |