CN112347775A - 一种数据处理方法、装置和用于数据处理的装置 - Google Patents
一种数据处理方法、装置和用于数据处理的装置 Download PDFInfo
- Publication number
- CN112347775A CN112347775A CN201910730444.3A CN201910730444A CN112347775A CN 112347775 A CN112347775 A CN 112347775A CN 201910730444 A CN201910730444 A CN 201910730444A CN 112347775 A CN112347775 A CN 112347775A
- Authority
- CN
- China
- Prior art keywords
- text
- word segmentation
- extraction model
- label
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 32
- 238000003672 processing method Methods 0.000 title claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims abstract description 289
- 238000000605 extraction Methods 0.000 claims abstract description 150
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000003062 neural network model Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 216
- 230000015654 memory Effects 0.000 claims description 21
- 238000004891 communication Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000000717 retained effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000036961 partial effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种数据处理方法、装置和用于数据处理的装置。其中的方法具体包括:对文本进行分词,以得到所述文本对应的分词结果;将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。本发明实施例可以提高推荐的准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据处理方法、装置和用于数据处理的装置。
背景技术
随着互联网技术的发展,人们可以通过检索系统或者推荐系统获取各种网络信息。
在进行检索或者推荐的过程中,标签扮演着重要的角色。目前主要通过如下方式获取网络内容对应的标签:首先可以建立实体词表,其中可以包括美食类、经济类等常用的实体词;然后对网络内容进行识别,如果其中包含实体词表中的实体词,再将该网络内容打上该实体词相对应的标签。
然而,这样获取的标签可能存在语义不够准确或者存在歧义的情况,例如,对于标签“李白”,由于该标签较短,语义不够丰富,可能会引起歧义,该标签可以指王者荣耀的李白,也可以指历史上的诗人李白。由此,将会进一步影响检索或者推荐的准确性。
发明内容
本发明实施例提供一种数据处理方法、装置和用于数据处理的装置,可以提高推荐的准确性。
为了解决上述问题,本发明实施例公开了一种数据处理方法,所述方法包括:
对文本进行分词,以得到所述文本对应的分词结果;
将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;
通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
另一方面,本发明实施例公开了一种数据处理装置,所述装置包括:
分词模块,用于对文本进行分词,以得到所述文本对应的分词结果;
输入模块,用于将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;
提取输出模块,用于通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对文本进行分词,以得到所述文本对应的分词结果;
将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;
通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如前述一个或多个所述的数据处理方法。
本发明实施例包括以下优点:
本发明实施例首先对文本进行分词,以得到所述文本对应的分词结果;并且将所述分词结果输入标签提取模型,以通过所述标签提取模型对所述分词结果进行标签提取,得到所述分词结果对应的短语标签。由于短语标签相对于现有的实体词标签,可以具有更丰富的语义信息,因此可以解决实体词标签带来的语义歧义的问题,使得短语标签与推荐内容之间的关联关系更加准确,进而可以提高推荐的准确性。
此外,本发明实施例的短语标签是通过标签提取模型提取得到,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型,所述样本数据对包括:样本文本、所述样本文本对应的短语标签,因此,根据大量样本数据训练得到的标签提取模型,能够提高提取短语标签的准确性。而且,通过标签提取模型提取短语标签,无需更新已有的实体词表,可以减少操作成本。
再者,由于短语通常具有长度较短的特征,因此短语标签具有查询快、冗余小且节省存储空间等优势。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一种数据处理方法实施例的步骤流程图;
图2是本发明实施例的一种通过预置编码模型编码得到文本向量序列的示意图;
图3是本发明实施例的一种通过预置编码模型进行编码以及通过标签提取模型进行解码的流程示意图;
图4是本发明的一种数据处理装置实施例的结构框图;
图5是本发明实施例的一种用于数据处理的装置800的框图;及
图6是本发明的一些实施例中服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
方法实施例
参照图1,示出了本发明的一种数据处理方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101、对文本进行分词,以得到所述文本对应的分词结果;
步骤102、将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;
步骤103、通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
本发明实施例的数据处理方法可用于提取文本中的短语标签,短语是由句法、语义和语用三个层面上能够搭配的语言单位组合起来的没有句调的语言单位,又叫词组,它是大于词而又不成句的语法单位。因此,短语标签相对于现有的实体词标签,可以具有更丰富的语义信息,例如,短语标签“诗人李白”,由于语义更加丰富,可以解决实体词标签“李白”带来的语义歧义的问题,使得短语标签与推荐内容之间的关联关系更加准确,进而可以提高推荐的准确性。
此外,本发明实施例的短语标签是通过标签提取模型提取得到,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型。所述样本数据对包括:样本文本、所述样本文本对应的短语标签。因此,根据大量样本数据训练得到的标签提取模型,能够提高提取短语标签的准确性。而且,通过标签提取模型提取短语标签,无需更新已有的实体词表,可以减少操作成本。
再者,由于短语通常具有长度较短的特征,因此短语标签具有查询快、冗余小且节省存储空间等优势。
本发明实施例的数据处理方法可运行于电子设备,所述电子设备包括但不限于:服务器、智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
可以理解,本发明实施例对所述文本的具体来源不加以限制,例如,所述文本可以为网页中的文本、或者可以为用户本地存储的文档中的文本、或者还可以为用户通过即时通讯应用发送或者接收的文本等。
在本发明的一种可选实施例中,所述对文本进行分词,以得到所述文本对应的分词结果,具体可以包括:
步骤S11、对所述文本进行分词,以得到所述文本中的各分词;
步骤S12、确定所述文本中的各分词对应的分词向量;
步骤S13、对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;
步骤S14、将所述文本向量序列作为所述文本对应的分词结果。
本发明实施例需要提取文本中的短语标签,因此,首先对文本进行分词处理,以得到所述文本中的各分词。例如,对于文本“美联储会议决定9月20日加息25个基点”,分词后为“美联储/会议/决定/9月/20日/加息/25个/基点”。
在对文本分词之后,可以对每个分词进行低维向量化表示,比如某文本包含100分词,将每个分词表示为一个50维的向量,则该文本包含100个50维的向量。
接下来,可以对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列。具体地,可以将所述文本中的各分词对应的分词向量编码为一个N维向量,N为大于或等于1的整数,并且将该N维向量作为所述文本对应的分词结果,输入标签提取模型,以提取短语标签。由此,本发明实施例将100个50维的向量,压缩为一个N维向量,可以降低数据处理的维度,以提高数据处理的效率。
在本发明的一种可选实施例中,所述对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列,具体可以包括:
通过预置编码模型,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;或者
利用所述分词向量的平均值,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列。
可以理解,本发明实施例依据所述文本包括的各分词对应的分词向量,将所述文本编码为N维的文本向量序列的具体方式不加以限制。具体地,可以通过预置编码模型,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列。例如,可以将上述100个50维的分词向量输入预置编码模型,该预置编码模型可以为深度编码模型,如LSTM(Long Short-Term Memory,长短时记忆)编码模型、BiLSTM(Bi-directional LongShort-Term Memory,前向与后向长短时记忆)编码模型、Transformer编码模型等。
参照图2,示出了本发明实施例的一种通过预置编码模型编码得到文本向量序列的示意图。如图2所示,假设该预置编码模型为LSTM编码模型,x1至xn为输入LSTM编码模型的n个分词向量。仍以上述包含100分词的文本为例,假设n=100,也即,将100个分词对应的分词向量输入LSTM编码模型,且每一个分词向量为50维。如图2所示,LSTM编码模型的输出值为对输入的n个分词向量进行编码,得到的编码结果,也即output1至outputn。可以获取最后一个输出值outputn作为该文本的文本向量序列。当然,在实际应用中,也可以将全部的输出值或者部分输出值组成的序列作为该文本的文本向量序列。如果使用全部的输出值,则可以捕捉更多的文本信息,但是可能会降低编码效率;如果使用部分输出值,可以提高编码效率,但是可能会损失部分的文本信息。可以理解,本领域技术人员可以根据实际需求灵活选取LSTM编码模型的输出值,本发明实施例对此不加以限制。
或者,本发明实施例还可以通过对分词向量求平均值,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列。例如,对于上述100个50维的分词向量,可以对每个50维分词向量中的每一个维度求平均值,得到50维的向量平均值;再将这100个50维的向量平均值组成的序列作为所述文本对应的文本向量序列。再如,还可以先将100个50维的分词向量乘以一个矩阵,以改变分词向量的维度。具体的,100个50维的分词向量可以表示为100×50维矩阵,假设将100×50维矩阵乘以一个N维的矩阵(如50×N),可以得到结果为100×N的向量,该向量的维度从50维变为N维,然后再对这N维向量中的每一个维度求平均值。
在本发明的一种可选实施例中,步骤102中所述将所述分词结果输入标签提取模型之前,所述方法还可以包括:在所述文本向量序列的第一个向量之前添加所述文本向量序列对应的起始标志符。
所述将所述分词结果输入标签提取模型,具体可以包括:将包含所述起始标志符的文本向量序列输入所述标签提取模型。
所述通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签,具体可以包括:在所述标签提取模型接收到所述起始标志符的情况下,对输入的所述文本向量序列包括的向量依次进行解码,以得到所述文本向量序列中每一个向量的解码结果,并且将当前向量的解码结果作为解码下一个向量的输入;在最后一个向量解码完成后,根据所述文本向量序列中各向量的解码结果,得到所述分词结果对应的短语标签。
在本发明实施例中,可以将文本中各分词对应的分词向量输入预置编码模型进行编码,将预置编码模型的最后一个输出值,作为该文本的文本向量序列。在获取文本的文本向量序列之后,本发明实施例在所述文本向量序列的第一个向量之前添加所述文本向量序列对应的起始标志符,用于指示标签提取模型可以开始进行解码。本发明实施例将包含所述起始标志符的文本向量序列输入标签提取模型,通过标签提取模型逐步预测文本向量序列中每一个向量最可能的解码结果,最终得到该文本的短语标签。
所述标签提取模型可以是融合了多种神经网络的分类模型。所述神经网络包括但不限于以下的至少一种或者至少两种的组合、叠加、嵌套:CNN(Convolutional NeuralNetwork,卷积神经网络)、LSTM网络、RNN(Simple Recurrent Neural Network,循环神经网络)、注意力神经网络等。可以理解,本发明实施例对所述标签提取模型的类型不加以限制。
参照图3,示出了本发明实施例的一种通过预置编码模型进行编码以及通过标签提取模型进行解码的流程示意图。如图3所示,预置编码模型和标签提取模型可以均为包含LSTM网络的深度神经网络模型。具体地,可以将文本包含的x1至xn的n个分词向量输入预置编码模型,以得到output1至outputn的n个输出值,假设将最后一个输出值outputn作为该文本的文本向量序列,且假设outputn为[y1,y2,y3,…,ym],则可以在outputn的第一个向量之前添加起始标志符,得到[go,y1,y2,..,ym]。
本发明实施例将包含起始标志符的文本向量序列[go,y1,y2,..,ym]输入标签提取模型。标签提取模型接收到起始标志符之后,对输入的所述文本向量序列中的向量依次进行解码。
具体地,标签提取模型在接收到起始标志符之后,假设接收到的起始标志符为go,则首先对“go”进行解码,得到“go”的解码结果,也即输出“go”下一个出现概率最大的K(K为大于或等于1的整数)个词;然后,将输出的概率最大的这K个词,作为解码下一个向量(y1)的输入,参与y1的解码过程,对y1进行解码,可以输出概率最大的K个词,因此,y1的解码结果包括K×K个输出;接下来,在这K×K个输出中,选出概率最大的K个词,作为解码下一个向量(y2)的输入,直到最后一个向量解码完成,标签提取模型可以输出END结束标志符,表示当前文本向量序列的解码已经结束。此时,标签提取模型输出的解码结果即为提取得到的短语标签。例如,将文本“美联储/会议/决定/9月/20日/加息/25个/基点”对应的文本向量序列[go,y1,y2,..,ym]输入标签提取模型,标签提取模型的输出结果为:[yo1,yo2,yo3,…,ym,END],该输出结果对应的短语标签为“美联储加息”。
在本发明实施例中,在对文本进行分词,得到文本中的各分词之后,可以对各分词进行向量化表示,以及对分词向量进行编码得到文本向量序列,进而可以将文本向量序列作为文本对应的分词结果,输入标签提取模型以提取文本的短语标签。此外,本发明实施例在对文本进行分词,得到文本中的各分词之后,还可以直接将各分词作为文本对应的分词结果,输入标签提取模型以提取文本的短语标签,以简化提取短语标签的操作过程,提高提取短语标签的效率。
在本发明的一种可选实施例中,所述对文本进行分词,以得到所述文本对应的分词结果,具体可以包括:
步骤S21、对所述文本进行分词,以得到所述文本中的各分词;
步骤S22、将所述各分词作为所述文本对应的分词结果。
所述将所述分词结果输入标签提取模型,具体可以包括:将所述文本中的各分词依次输入标签提取模型。
所述通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签,具体可以包括:
步骤S31、通过所述标签提取模型对依次输入的每一个分词进行分类,以得到每个当前输入的分词的分类结果,并根据所述分类结果确定是否保留所述当前输入的分词;
步骤S32、在确定是否保留最后一个输入的分词之后,根据所述文本中所有保留的分词,得到所述分词结果对应的短语标签。
具体的,本申请实施例里,将分词结果包括的所有分词依次输入所述标签提取模型,例如,先输入第一个分词,得到该分词的分类结果,依据所述分类结果确定是否保留所述第一个输入的分词;然后输入第二个分词,得到该分词的分类结果,依据所述分类结果确定是否保留所述第二个输入的分词;依次类推,直到输入最后一个分词,得到该分词的分类结果,依据所述分类结果确定是否保留所述最后一个输入的分词之后,依据所有保留下来的分词,得到所述分词结果对应的短语标签。
具体地,在对文本进行分词,得到文本中的各分词之后,可以将所述各分词作为所述文本对应的分词结果,依次输入标签提取模型。例如,对于文本“美联储会议决定9月20日加息25个基点”,可以将分词结果“美联储/会议/决定/9月/20日/加息/25个/基点”中的各分词,依次输入标签提取模型。
标签提取模型对输入的当前分词进行分类,以得到所述当前分词的分类结果,例如,标签提取模型在接收到第一个分词“美联储”之后,可以对该分词进行分类,以得到“美联储”的分类结果,所述分类结果可以为一个概率值,如果该概率值大于预设阈值,则说明该分词作为该文本的短语标签的概率较高,则保留该分词,如果该概率值小于预设阈值,则舍弃该分词。用同样的方式,计算下一个分词的分类结果,在得到该文本中最后一个分词的分类结果,并且根据最后一个分词的分类结果,确定是否保留所述最后一个分词之后,可以根据该文本“美联储会议决定9月20日加息25个基点”中所有保留的分词,得到所述分词结果对应的短语标签。
例如,标签提取模型在接收到第一个分词“美联储”之后,对该分词进行分类,假设根据分类结果,确定保留“美联储”;则再对分词“会议”进行分类,假设根据分类结果,确定舍弃“会议”;以此类推,直到对分词“基点”的分类完成,根据保留的分词,可以得到短语标签为“美联储加息”。
在本发明的一种可选实施例中,所述方法还可以包括:
步骤S41、对收集的样本文本进行分词;其中,所述样本文本至少包括如下任意一种:网页中的文本、用户本地存储的文本、用户通过即时通讯应用发送或者接收的文本;
步骤S42、对所述样本文本中的分词进行分析,以确定所述样本文本对应的短语标签;
步骤S43、根据所述样本文本与其对应的短语标签组成的样本数据对,训练所述标签提取模型。
本发明实施例可以收集大量的文本数据作为样本文本,所述样本文本至少包括如下任意一种:网页中的文本、用户本地存储的文本、用户通过即时通讯应用发送或者接收的文本。例如可以收集网页中的文本数据、用户本地存储的文档中的文本数据、用户通过即时通讯应用发送或者接收的即时消息中的文本数据等。并且对收集的样本文本进行分词,得到样本文本中包括的各个分词,通过人工分析的方式,从样本文本包括的各个分词中归纳出短语标签,进而可以将样本文本与其对应的短语标签组成样本数据对,根据大量的样本数据对,训练标签提取模型。
参照表1,示出了本发明实施例的一种样本数据对的具体示意。如表1所示,其中包括三个样本数据对。
表1
文本 | 短语标签 |
美联储会议决定9月20日加息25个基点 | 美联储加息 |
娜扎27岁生日姐姐为其庆生,姐妹同框颜值爆表 | 娜扎生日 |
五一最重要的安排 | 五一放假安排 |
在获取样本数据对之后,可以根据样本数据对训练标签提取模型。例如,首先构建并初始化标签提取模型,设置初始模型的模型参数;然后,将所述样本文本进行分词,以得到样本文本对应的分词结果;接下来,将样本文本对应的分词结果输入初始模型,根据输出结果与样本数据对中样本文本对应的短语标签之间的差异,以及梯度下降算法对该初始模型进行迭代优化,调整模型参数,直到优化的模型达到预设条件时,停止迭代优化,将最后一次优化得到的模型作为训练完成的标签提取模型。
可以理解,上述训练标签提取模型的过程仅作为本发明的一种应用示例,本发明实施例对所述标签提取模型的网络结构以及训练方式均不加以限制。
本发明实施例通过训练的标签提取模型提取文本中的短语标签,不用受限于现有的标签库,具有较好的扩展性。此外,随着深度模型的不断研发,可以不断对标签提取模型进行优化,进而可以不断提高标签提取模型提取短语标签的准确性。
综上,本发明实施例首先对文本进行分词,以得到所述文本对应的分词结果;并且将所述分词结果输入标签提取模型,以通过所述标签提取模型对所述分词结果进行标签提取,得到所述分词结果对应的短语标签。由于短语标签相对于现有的实体词标签,可以具有更丰富的语义信息,因此可以解决实体词标签带来的语义歧义的问题,使得短语标签与推荐内容之间的关联关系更加准确,进而可以提高推荐的准确性。
此外,本发明实施例的短语标签是通过标签提取模型提取得到,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型,所述样本数据对包括:样本文本、所述样本文本对应的短语标签,因此,根据大量样本数据训练得到的标签提取模型,能够提高提取短语标签的准确性。而且,通过标签提取模型提取短语标签,无需更新已有的实体词表,可以减少操作成本。
再者,由于短语通常具有长度较短的特征,因此短语标签具有查询快、冗余小且节省存储空间等优势。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
装置实施例
参照图4,示出了本发明的一种数据处理装置实施例的结构框图,所述装置具体可以包括:
分词模块401,用于对文本进行分词,以得到所述文本对应的分词结果;
输入模块402,用于将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;
提取输出模块403,用于通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
可选地,所述分词模块401,具体可以包括:
分词子模块,用于对所述文本进行分词,以得到所述文本中的各分词;
向量表示子模块,用于确定所述文本中的各分词对应的分词向量;
向量编码子模块,用于对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;
第一向量确定子模块,用于将所述文本向量序列作为所述文本对应的分词结果。
可选地,所述装置还可以包括:
标志添加模块,用于在所述文本向量序列的第一个向量之前添加所述文本向量序列对应的起始标志符;
所述输入模块,具体用于将包含所述起始标志符的文本向量序列输入所述标签提取模型;
所述提取输出模块,具体用于在所述标签提取模型接收到所述起始标志符的情况下,对输入的所述文本向量序列包括的向量依次进行解码,以得到所述文本向量序列中每一个向量的解码结果,并且将当前向量的解码结果作为解码下一个向量的输入;在最后一个向量解码完成后,根据所述文本向量序列中各向量的解码结果,得到所述分词结果对应的短语标签。
可选地,所述向量编码子模块,具体可以包括:
第一编码单元,用于通过预置编码模型,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;或者
第二编码单元,用于利用所述分词向量的平均值,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列。
可选地,所述分词模块401,具体可以包括:
分词子模块,对所述文本进行分词,以得到所述文本中的各分词;
第二向量确定子模块,用于将所述各分词作为所述文本对应的分词结果;
所述输入模块402,具体可以包括:
第二输入子模块,用于将所述文本中的各分词依次输入标签提取模型;
所述提取输出模块403,具体可以包括:
分类子模块,用于通过所述标签提取模型对依次输入的每一个分词进行分类,以得到每个当前输入的分词的分类结果,并根据所述分类结果确定是否保留所述当前输入的分词;
结果确定子模块,用于在确定是否保留最后一个输入的分词之后,根据所述文本中所有保留的分词,得到所述分词结果对应的短语标签。
可选地,所述装置还可以包括:
样本分词子模块,用于对收集的样本文本进行分词;
标签确定子模块,用于对所述样本文本中的分词进行分析,以确定所述样本文本对应的短语标签;
模型训练子模块,用于根据所述样本文本与其对应的短语标签组成的样本数据对,训练所述标签提取模型。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例提供了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:对文本进行分词,以得到所述文本对应的分词结果;将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
图5是根据一示例性实施例示出的一种用于数据处理的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图5,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音信息处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频信息处理(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图6是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行图1所示的数据处理方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(服务器或者终端)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:对文本进行分词,以得到所述文本对应的分词结果;将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
本发明实施例公开了A1、一种数据处理方法,包括:
对文本进行分词,以得到所述文本对应的分词结果;
将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;
通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
A2、根据A1所述的方法,所述对文本进行分词,以得到所述文本对应的分词结果,包括:
对所述文本进行分词,以得到所述文本中的各分词;
确定所述文本中的各分词对应的分词向量;
对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;
将所述文本向量序列作为所述文本对应的分词结果。
A3、根据A2所述的方法,所述将所述分词结果输入标签提取模型之前,所述方法还包括:在所述文本向量序列的第一个向量之前添加所述文本向量序列对应的起始标志符;
所述将所述分词结果输入标签提取模型,包括:将包含所述起始标志符的文本向量序列输入所述标签提取模型;
所述通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签,包括:
在所述标签提取模型接收到所述起始标志符的情况下,对输入的所述文本向量序列包括的向量依次进行解码,以得到所述文本向量序列中每一个向量的解码结果,并且将当前向量的解码结果作为解码下一个向量的输入;在最后一个向量解码完成后,根据所述文本向量序列中各向量的解码结果,得到所述分词结果对应的短语标签。
A4、根据A2所述的方法,所述对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列,包括:
通过预置编码模型,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;或者
利用所述分词向量的平均值,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列。
A5、根据A1所述的方法,所述对文本进行分词,以得到所述文本对应的分词结果,包括:对所述文本进行分词,以得到所述文本中的各分词;将所述各分词作为所述文本对应的分词结果;
所述将所述分词结果输入标签提取模型,包括:将所述文本中的各分词依次输入标签提取模型;
所述通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签,包括:通过所述标签提取模型对依次输入的每一个分词进行分类,以得到每个当前输入的分词的分类结果,并根据所述分类结果确定是否保留所述当前输入的分词;在确定是否保留最后一个输入的分词之后,根据所述文本中所有保留的分词,得到所述分词结果对应的短语标签。
A6、根据A1所述的方法,所述方法还包括:
对收集的样本文本进行分词;对所述样本文本中的分词进行分析,以确定所述样本文本对应的短语标签;
根据所述样本文本与其对应的短语标签组成的样本数据对,训练所述标签提取模型。
本发明实施例公开了B7、一种数据处理装置,包括:
分词模块,用于对文本进行分词,以得到所述文本对应的分词结果;
输入模块,用于将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;
提取输出模块,用于通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
B8、根据B7所述的装置,所述分词模块,包括:
分词子模块,用于对所述文本进行分词,以得到所述文本中的各分词;
向量表示子模块,用于确定所述文本中的各分词对应的分词向量;
向量编码子模块,用于对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;
第一向量确定子模块,用于将所述文本向量序列作为所述文本对应的分词结果。
B9、根据B8所述的装置,所述装置还包括:
标志添加模块,用于在所述文本向量序列的第一个向量之前添加所述文本向量序列对应的起始标志符;
所述输入模块,具体用于将包含所述起始标志符的文本向量序列输入所述标签提取模型;
所述提取输出模块,具体用于在所述标签提取模型接收到所述起始标志符的情况下,对输入的所述文本向量序列包括的向量依次进行解码,以得到所述文本向量序列中每一个向量的解码结果,并且将当前向量的解码结果作为解码下一个向量的输入;在最后一个向量解码完成后,根据所述文本向量序列中各向量的解码结果,得到所述分词结果对应的短语标签。
B10、根据B8所述的装置,所述向量编码子模块,包括:
第一编码单元,用于通过预置编码模型,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;或者
第二编码单元,用于利用所述分词向量的平均值,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列。
B11、根据B7所述的装置,所述分词模块,包括:
分词子模块,对所述文本进行分词,以得到所述文本中的各分词;
第二向量确定子模块,用于将所述各分词作为所述文本对应的分词结果;
所述输入模块,包括:
第二输入子模块,用于将所述文本中的各分词依次输入标签提取模型;
所述提取输出模块,包括:
分类子模块,用于通过所述标签提取模型对依次输入的每一个分词进行分类,以得到每个当前输入的分词的分类结果,并根据所述分类结果确定是否保留所述当前输入的分词;
结果确定子模块,用于在确定是否保留最后一个输入的分词之后,根据所述文本中所有保留的分词,得到所述分词结果对应的短语标签。
B12、根据B7所述的装置,所述装置还包括:
样本分词子模块,用于对收集的样本文本进行分词;
标签确定子模块,用于对所述样本文本中的分词进行分析,以确定所述样本文本对应的短语标签;
模型训练子模块,用于根据所述样本文本与其对应的短语标签组成的样本数据对,训练所述标签提取模型。
本发明实施例公开了C13、一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对文本进行分词,以得到所述文本对应的分词结果;
将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;
通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
C14、根据C13所述的装置,所述对文本进行分词,以得到所述文本对应的分词结果,包括:
对所述文本进行分词,以得到所述文本中的各分词;
确定所述文本中的各分词对应的分词向量;
对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;
将所述文本向量序列作为所述文本对应的分词结果。
C15、根据C14所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
在所述文本向量序列的第一个向量之前添加所述文本向量序列对应的起始标志符;
所述将所述分词结果输入标签提取模型,包括:
将包含所述起始标志符的文本向量序列输入所述标签提取模型;
所述通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签,包括:
在所述标签提取模型接收到所述起始标志符的情况下,对输入的所述文本向量序列包括的向量依次进行解码,以得到所述文本向量序列中每一个向量的解码结果,并且将当前向量的解码结果作为解码下一个向量的输入;在最后一个向量解码完成后,根据所述文本向量序列中各向量的解码结果,得到所述分词结果对应的短语标签。
C16、根据C14所述的装置,所述对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列,包括:
通过预置编码模型,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;或者
利用所述分词向量的平均值,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列。
C17、根据C13所述的装置,所述对文本进行分词,以得到所述文本对应的分词结果,包括:
对所述文本进行分词,以得到所述文本中的各分词;
将所述各分词作为所述文本对应的分词结果;
所述将所述分词结果输入标签提取模型,包括:
将所述文本中的各分词依次输入标签提取模型;
所述通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签,包括:通过所述标签提取模型对依次输入的每一个分词进行分类,以得到每个当前输入的分词的分类结果,并根据所述分类结果确定是否保留所述当前输入的分词;在确定是否保留最后一个输入的分词之后,根据所述文本中所有保留的分词,得到所述分词结果对应的短语标签。
C18、根据C13所述的装置,所述装置还经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对收集的样本文本进行分词;
对所述样本文本中的分词进行分析,以确定所述样本文本对应的短语标签;
根据所述样本文本与其对应的短语标签组成的样本数据对,训练所述标签提取模型。
本发明实施例公开了D19、一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如A1至A6中一个或多个所述的数据处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种数据处理方法、一种数据处理装置和一种用于数据处理的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
对文本进行分词,以得到所述文本对应的分词结果;
将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;
通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
2.根据权利要求1所述的方法,其特征在于,所述对文本进行分词,以得到所述文本对应的分词结果,包括:
对所述文本进行分词,以得到所述文本中的各分词;
确定所述文本中的各分词对应的分词向量;
对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;
将所述文本向量序列作为所述文本对应的分词结果。
3.根据权利要求2所述的方法,其特征在于,所述将所述分词结果输入标签提取模型之前,所述方法还包括:在所述文本向量序列的第一个向量之前添加所述文本向量序列对应的起始标志符;
所述将所述分词结果输入标签提取模型,包括:将包含所述起始标志符的文本向量序列输入所述标签提取模型;
所述通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签,包括:
在所述标签提取模型接收到所述起始标志符的情况下,对输入的所述文本向量序列包括的向量依次进行解码,以得到所述文本向量序列中每一个向量的解码结果,并且将当前向量的解码结果作为解码下一个向量的输入;在最后一个向量解码完成后,根据所述文本向量序列中各向量的解码结果,得到所述分词结果对应的短语标签。
4.根据权利要求2所述的方法,其特征在于,所述对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列,包括:
通过预置编码模型,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;或者
利用所述分词向量的平均值,对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列。
5.根据权利要求1所述的方法,其特征在于,所述对文本进行分词,以得到所述文本对应的分词结果,包括:对所述文本进行分词,以得到所述文本中的各分词;将所述各分词作为所述文本对应的分词结果;
所述将所述分词结果输入标签提取模型,包括:将所述文本中的各分词依次输入标签提取模型;
所述通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签,包括:通过所述标签提取模型对依次输入的每一个分词进行分类,以得到每个当前输入的分词的分类结果,并根据所述分类结果确定是否保留所述当前输入的分词;在确定是否保留最后一个输入的分词之后,根据所述文本中所有保留的分词,得到所述分词结果对应的短语标签。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对收集的样本文本进行分词;对所述样本文本中的分词进行分析,以确定所述样本文本对应的短语标签;
根据所述样本文本与其对应的短语标签组成的样本数据对,训练所述标签提取模型。
7.一种数据处理装置,其特征在于,所述装置包括:
分词模块,用于对文本进行分词,以得到所述文本对应的分词结果;
输入模块,用于将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;
提取输出模块,用于通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
8.根据权利要求7所述的装置,其特征在于,所述分词模块,包括:
分词子模块,用于对所述文本进行分词,以得到所述文本中的各分词;
向量表示子模块,用于确定所述文本中的各分词对应的分词向量;
向量编码子模块,用于对所述各分词对应的分词向量进行编码,以得到所述文本对应的文本向量序列;
第一向量确定子模块,用于将所述文本向量序列作为所述文本对应的分词结果。
9.一种用于数据处理的装置,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
对文本进行分词,以得到所述文本对应的分词结果;
将所述分词结果输入标签提取模型,所述标签提取模型为根据收集的样本数据对训练得到的深度神经网络模型;其中,所述样本数据对包括:样本文本、所述样本文本对应的短语标签;
通过所述标签提取模型对所述分词结果进行标签提取,以得到所述分词结果对应的短语标签。
10.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至6中一个或多个所述的数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910730444.3A CN112347775A (zh) | 2019-08-08 | 2019-08-08 | 一种数据处理方法、装置和用于数据处理的装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910730444.3A CN112347775A (zh) | 2019-08-08 | 2019-08-08 | 一种数据处理方法、装置和用于数据处理的装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112347775A true CN112347775A (zh) | 2021-02-09 |
Family
ID=74366703
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910730444.3A Pending CN112347775A (zh) | 2019-08-08 | 2019-08-08 | 一种数据处理方法、装置和用于数据处理的装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112347775A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930314A (zh) * | 2016-04-14 | 2016-09-07 | 清华大学 | 基于编码-解码深度神经网络的文本摘要生成系统及方法 |
CN106980683A (zh) * | 2017-03-30 | 2017-07-25 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
CN108121700A (zh) * | 2017-12-21 | 2018-06-05 | 北京奇艺世纪科技有限公司 | 一种关键词提取方法、装置及电子设备 |
CN108268449A (zh) * | 2018-02-10 | 2018-07-10 | 北京工业大学 | 一种基于词项聚类的文本语义标签抽取方法 |
CN108304364A (zh) * | 2017-02-23 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
CN109299273A (zh) * | 2018-11-02 | 2019-02-01 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN109657051A (zh) * | 2018-11-30 | 2019-04-19 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN109933809A (zh) * | 2019-03-15 | 2019-06-25 | 北京金山数字娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN110069781A (zh) * | 2019-04-24 | 2019-07-30 | 北京奇艺世纪科技有限公司 | 一种实体标签的识别方法及相关设备 |
-
2019
- 2019-08-08 CN CN201910730444.3A patent/CN112347775A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105930314A (zh) * | 2016-04-14 | 2016-09-07 | 清华大学 | 基于编码-解码深度神经网络的文本摘要生成系统及方法 |
CN108304364A (zh) * | 2017-02-23 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
CN106980683A (zh) * | 2017-03-30 | 2017-07-25 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
CN108121700A (zh) * | 2017-12-21 | 2018-06-05 | 北京奇艺世纪科技有限公司 | 一种关键词提取方法、装置及电子设备 |
CN108268449A (zh) * | 2018-02-10 | 2018-07-10 | 北京工业大学 | 一种基于词项聚类的文本语义标签抽取方法 |
CN109299273A (zh) * | 2018-11-02 | 2019-02-01 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN109657051A (zh) * | 2018-11-30 | 2019-04-19 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN109933662A (zh) * | 2019-02-15 | 2019-06-25 | 北京奇艺世纪科技有限公司 | 模型训练方法、信息生成方法、装置、电子设备和计算机可读介质 |
CN109933809A (zh) * | 2019-03-15 | 2019-06-25 | 北京金山数字娱乐科技有限公司 | 一种翻译方法及装置、翻译模型的训练方法及装置 |
CN110069781A (zh) * | 2019-04-24 | 2019-07-30 | 北京奇艺世纪科技有限公司 | 一种实体标签的识别方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522424B (zh) | 数据的处理方法、装置、电子设备及存储介质 | |
CN111145756B (zh) | 一种语音识别方法、装置和用于语音识别的装置 | |
CN110008401B (zh) | 关键词提取方法、关键词提取装置和计算机可读存储介质 | |
US20170154104A1 (en) | Real-time recommendation of reference documents | |
CN107221330B (zh) | 标点添加方法和装置、用于标点添加的装置 | |
CN111612070B (zh) | 基于场景图的图像描述生成方法及装置 | |
CN110781305A (zh) | 基于分类模型的文本分类方法及装置,以及模型训练方法 | |
CN107564526B (zh) | 处理方法、装置和机器可读介质 | |
CN108304412B (zh) | 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置 | |
CN110069624B (zh) | 文本处理方法及装置 | |
CN111369978B (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN108345625B (zh) | 一种信息挖掘方法和装置、一种用于信息挖掘的装置 | |
CN107424612B (zh) | 处理方法、装置和机器可读介质 | |
CN113705210A (zh) | 一种文章大纲生成方法、装置和用于生成文章大纲的装置 | |
CN112328793A (zh) | 评论文本数据的处理方法、装置及存储介质 | |
CN112036195A (zh) | 机器翻译方法、装置及存储介质 | |
CN110232181B (zh) | 评论分析方法及装置 | |
CN111274389B (zh) | 一种信息处理方法、装置、计算机设备及存储介质 | |
CN112948565A (zh) | 人机对话方法、装置、电子设备及存储介质 | |
CN111538998A (zh) | 文本定密方法和装置、电子设备及计算机可读存储介质 | |
CN115730073A (zh) | 文本处理方法、装置及存储介质 | |
CN115718801A (zh) | 文本处理方法、模型的训练方法、装置、设备及存储介质 | |
CN114036937A (zh) | 场景布局预测网络的训练方法及场景布局的估计方法 | |
CN108073566B (zh) | 分词方法和装置、用于分词的装置 | |
CN112347775A (zh) | 一种数据处理方法、装置和用于数据处理的装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |