CN110826315A - 使用神经网络系统识别短文本时效性的方法 - Google Patents
使用神经网络系统识别短文本时效性的方法 Download PDFInfo
- Publication number
- CN110826315A CN110826315A CN201911061720.8A CN201911061720A CN110826315A CN 110826315 A CN110826315 A CN 110826315A CN 201911061720 A CN201911061720 A CN 201911061720A CN 110826315 A CN110826315 A CN 110826315A
- Authority
- CN
- China
- Prior art keywords
- text
- timeliness
- features
- short text
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 45
- 230000032683 aging Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims description 48
- 230000015654 memory Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000000699 topical effect Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000003679 aging effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种使用神经网络系统识别短文本时效性的方法,涉及互联网技术领域,用以解决现有技术中出现的识别文本时效性不准确的问题。该方法包括:获取待识别短文本的文本特征、与待识别短文本关联的时效性特征以及待识别短文本所属的话题特征;将待识别短文本的文本特征、与待识别短文本关联的时效性特征输入至深层网络,将待识别短文本所属的话题特征输入至浅层网络;以及输出待识别文本对应的各时效类型的概率。
Description
技术领域
本发明涉及互联网技术领域,具体地,涉及一种使用神经网络系统识别短文本时效性的方法。
背景技术
随着互联网的发展和信息的不断暴增,在很多网络社区中如知乎、悟空问答、今日头条以及新闻社区,网络社区的问题路由每日分发量巨大,包括很多热点、时效性不同的问题。其中,时效性分为短时效性如一周、长时效性如一个月和无时效性。短时效的内容如果不能得到及时曝光也不能快速地消失,就会给用户很强地迟滞感,而长时效的有价值的问题如果太快地被埋没了也比较可惜,为了能更精准地路由进而提高问题的回答率、优化社区讨论氛围,问题路由需要进一步根据问题的时效设置时效性标签,传统的文本时效性识别分类方法,一般采用人工运营经验判断,或者通过规则抓取文本中的粗细粒度的时间词语进行分类,传统文本识别的方法没有针对性、耗时较长且泛化能力较差往往效果不理想,从而导致文本的时效性不准确。
发明内容
本发明的实施例提供一种使用神经网络系统识别短文本时效性的方法,用以解决现有技术中出现的识别文本时效性不准确的问题。
为达到上述目的,本发明的实施例采用如下技术方案:
本发明实施例的第一方面,提供一种用于神经网络系统的训练方法,所述神经网络系统用于确定短文本的时效性并且包括深层网络和浅层网络,所述训练方法包括:从短文本中获取训练集,所述训练集包括:短文本的文本特征、与所述短文本关联的时效性特征以及所述短文本所属的话题特征;将所述短文本的文本特征、与所述短文本关联的时效性特征输入至深层网络训练深层网络的参数,将短文本所属的话题特征输入至浅层网络训练浅层网络的参数;以及当验证集中的损失值和调和均值满足设定条件时,停止训练,确定所述深层网络的参数和所述浅层网络的参数。
在一个实施例中,所述方法还包括:获取M个短文本;以及通过关键词替换将所述M个短文本扩展至N个短文本;所述N>M,且M和N为正整数。
在一个实施例中,所述短文本包括第一问题文本,所述方法还包括:判断所述第一问题文本中的词语是否存在于时效性相关的词语列表中;以及若存在,则在所述词语的位置处插入至少一个所述词语,得到第二问题文本;所述从短文本中获取训练集,包括:对所述第二问题文本进行分词,得到所述第二问题文本的文本特征和时效性特征。
在一个实施例中,所述短文本所属的话题特征是由问题发布者所标记的特征。
本发明实施例的第二方面,提供一种神经网络系统,所述神经网络系统由计算机实现,包括:特征构建层,用于获取短文本的文本特征、与所述短文本关联的时效性特征以及所述短文本所属的话题特征;学习层,所述学习层包括深层网络和浅层网络,所述深层网络用于接收所述短文本的文本特征、与所述短文本关联的时效性特征和用于产生深层特征,所述浅层网络用于接收所述短文本所属的话题特征和用于产生浅层特征;以及分类层,用于根据所述深层特征和所述浅层特征得到各类时效性的概率。
在一个实施例中,所述深层网络包括嵌入模型和双层transformer模型,所述浅层网络包括独热编码和线性模型。
本发明实施例的第三方面,提供一种使用神经网络系统识别短文本时效性的方法,所述神经网络系统包括深层网络和浅层网络,所述方法包括:获取待识别短文本的文本特征、与所述待识别短文本关联的时效性特征以及所述待识别短文本所属的话题特征;将所述待识别短文本的文本特征、与所述待识别短文本关联的时效性特征输入至所述深层网络,将所述待识别短文本所属的话题特征输入至所述浅层网络;以及输出所述待识别文本的对应的各时效类型的概率。
在一个实施例中,所述方法还包括:根据业务的需求设置阈值条件,将满足所述阈值条件的概率对应的时效性识别为短文本的时效性分类结果,所述时效性的类型包括长时效、短时效以及无时效。
本发明实施例的第四方面,提供一种使用神经网络系统识别短文本时效性的装置,所述神经网络系统包括深层网络和浅层网络,所述装置包括:获取模块,被配置为用于获取待识别短文本的文本特征、与所述待识别短文本关联的时效性特征以及所述待识别短文本所属的话题特征;输入模块,被配置为用于将所述待识别短文本的文本特征、与所述待识别短文本关联的时效性特征输入至所述深层网络,将所述待识别短文本所属的话题特征输入至所述浅层网络;以及输出模块,被配置为用于输出所述待识别文本对应的各时效类型的概率。
在一个实施例中,所述装置还包括:识别模块,被配置为用于根据业务的需求设置阈值条件,将满足所述阈值条件的概率对应的时效性识别为短文本的时效性分类结果,所述时效性的类型包括长时效、短时效以及无时效。
本发明实施例的第五方面,提供一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面或第三方面所述的方法。
本发明实施例的第六方面,提供一种计算机可读存储介质,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如第一方面或第三方面所述的方法。
相比于现有技术,本发明提供的使用神经网络系统识别短文本时效性的方法,首先,获取待识别短文本的文本特征、与待识别短文本关联的时效性特征以及待识别短文本所属的话题特征;其次,将待识别短文本的文本特征、与待识别短文本关联的时效性特征输入至深层网络,将待识别短文本所属的话题特征输入至浅层网络;最后,输出待识别文本对应的各时效类型的概率。由于本方案中所使用的神经网络系统是通过将训练集中的短文本的文本特征、与短文本关联的时效性特征输入至深层网络训练深层网络的参数,以及将短文本所属的话题特征输入至浅层网络训练浅层网络的参数,从而确定神经网络系统,在获得多类特征的同时,充分考虑到问题与问题所属话题相结合、记忆特征之间的组合和高阶特征的产生,泛化能力强,从而使得利用该神经网络系统识别出的待识别短文本的时效性的分类结果较为准确。
附图说明
本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解。应当明白的是附图不必按比例绘制。在附图中:
图1为本发明实施例提供的一种神经网络系统的结构示意图;
图2为本发明实施例基于图1提供的一种Transformer模型的结构示意图;
图3为本发明实施例基于图1提供的一种深层网络的结构示意图;
图4为本发明实施例提供一种用于神经网络系统的训练方法的流程图;
图5为本发明实施例提供的一种使用神经网络系统识别短文本时效性的方法的流程图;
图6为本发明实施例提供的一种使用神经网络系统识别短文本时效性的装置的结构示意图;
图7为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了便于清楚描述本发明实施例的技术方案,在本发明的实施例中,采用了“第一”、“第二”等字样对功能或作用基本相同的相同项或相似项进行区分,本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本文中术语“包括/包含”在本文使用时指特征、要素或组件的存在,但并不排除一个或更多个其它特征、要素或组件的存在或附加。
本发明提供的使用神经网络系统识别短文本时效性的方法,首先,获取待识别短文本的文本特征、与待识别短文本关联的时效性特征以及待识别短文本所属的话题特征;其次,将待识别短文本的文本特征、与待识别短文本关联的时效性特征输入至深层网络,将待识别短文本所属的话题特征输入至浅层网络;最后,输出待识别文本对应的各时效类型的概率。
根据本发明的实施例,由于本方案中所使用的神经网络系统是通过将训练集中的短文本的文本特征、与短文本关联的时效性特征输入至深层网络训练深层网络的参数,以及将短文本所属的话题特征输入至浅层网络训练浅层网络的参数,从而确定神经网络系统,在获得多类特征的同时,充分考虑到问题与问题所属话题相结合、记忆特征之间的组合和高阶特征的产生,泛化能力强,从而使得利用该神经网络系统识别出的待识别短文本的时效性的分类结果较为准确。以下将结合附图来详细描述本发明的实施例及其优点。
如图1所述,为本发明实施例提供的一种神经网络系统,该神经网络系统由计算机实现,包括:特征构建层,用于获取短文本的文本特征、与短文本关联的时效性特征以及短文本所属的话题特征;学习层,学习层包括深层网络和浅层网络,深层网络用于接收短文本的文本特征、与短文本关联的时效性特征和用于产生深层特征,浅层网络用于接收短文本所属的话题特征和用于产生浅层特征;以及分类层,用于根据深层特征和浅层特征得到各类时效性的概率。
如图1所示,上述的浅层网络包括独热编码(OneHotEncoder)和线性模型(Hidden-layer)。示例性的,该线性模型的计算公式为:
如图1所示,上述的深层网络包括嵌入模型(embedding)和转换器(transformer)模型,将短文本的文本特征和与短文本关联的时效性特征经过embedding向量转换后,输入至两层transformer构成的深度学习模型。
如图2所示,为本发明实施例基于图1提供的一种深层网络的结构示意图,每层transformer主要包含多头自注意力机制(multi-head self-attention)和全连接前馈神经网络(fully connected feed-forward network),其中,multi-head self-attention机制的数学表达式为:
MultiHead(Q,K,V)=Connat(head1,...,headh)W0 公式二
headi=Attention(QWi Q,KWi K,VWi V) 公式三
上述的multi-head self-attention是通过公式三将h个不同的线性变换对Q,K,V进行投影,最后通过公式二将不同的Attention结果拼接起来,与随机初始化的W0权值矩阵相乘得到multi-head self-attention机制的最终输出。
在multi-head self-attention机制之后,会经过一个fully connected feed-forward network,它是一种普通的非线性层,计算公式为:
FFN(Z)=max(0,ZW1+b1)W2+b2 公式四
其中,公式四中的输入向量Z为multi-head self-attention机制的输出。Transformer通过输入文本词嵌入向量不断进行这样的Attention机制层和普通的非线性层交替来得到最终的文本表达。
基于上述的图2中深层网络中的transformer模型和图1中的浅层网络,上述的图1中的分类层主要包括以下的内容:将左侧深层网络输出和右侧浅层网络输出hidden_outj进行connect拼接输入到全连接层,最后将全连接层的输出利用多分类器(例如,softmax)进行分类得到各类时效性的概率。如图3所示,为本发明实施例基于图1提供的一种深层网络的结构示意图,上述的深层网络还可以包括嵌入模型(embedding)、双向长短期记忆(long short-term memory:LSTM)模型和自注意力模型(self-Attention),其中,将短文本的文本特征和与短文本关联的时效性特征经过embedding向量转换后,输入到双向LSTM,每个单词对应得到前向和反向的隐向量i,j表示第i个样本的第j个词语。采用拼接的方式得到单词表示hij,hij输入到注意力层,注意力层能够计算出每个单词对最终语义的贡献权重,注意力层的计算过程如下:
sij=uTtanh(Whij+b) 公式五
基于上述的图3中深层网络和图1中的浅层网络,上述的图1中的分类层主要包括以下的内容:右侧浅层网络输出hidden_outj的与左侧深层网络输出至Full-connect层进行connect矩阵拼接(深层网络的特征尾部与浅层网络的特征头部进行拼接),再利用分类层的softmax对Full-connect层形成的矩阵进行分类,得到各类时效性的概率。
下面将基于图1对应的神经网络系统的实施例中的相关描述对本发明实施例提供的一种用于神经网络系统的训练方法进行介绍。以下实施例中与上述实施例相关的技术术语、概念等的说明可以参照上述的实施例。
如图4所示,为本发明实施例提供一种用于神经网络系统的训练方法的流程图,该神经网络系统用于确定短文本的时效性并且包括深层网络和浅层网络,该训练方法包括:401、从短文本中获取训练集。其中,上述的训练集包括:短文本的文本特征、与短文本关联的时效性特征以及短文本所属的话题特征。402、将短文本的文本特征、与短文本关联的时效性特征输入至深层网络训练深层网络的参数,将短文本所属的话题特征输入至浅层网络训练浅层网络的参数。403、当验证集中的损失值和调和均值满足设定条件时,停止训练,确定深层网络的参数和浅层网络的参数。
优选的,上述的短文本的文本特征包括词语特征和标点特征,该标点包括但不限于:问号和叹号,由于该问号和叹号能代表问题发布者的心情或者问题的紧迫程度,在进行利用训练集进行模型训练时,通过考虑到标点特征,会使得最终训练出的模型参数更为准确。
示例性的,上述的短文本所属的话题特征是由问题发布者所标记的特征。由于该话题特征是用户对问题短文本进行人工标记得到的,使得话题特征较为准确表达问题短文本的含义,在进行模型训练时,输入话题特征从而使得训练出的模型参数也较为准确。
在训练的过程中,将训练数据分为训练集,验证集以及测试集,先设置合理的数据迭代次数(epochs),一次训练过程的样本数(batch_size),早停(early_stopping)准则等参数。然后,输入训练集,用于训练模型内的各种参数。而验证集用于在模型训练过程中检验模型状态,收敛情况,以验证损失值(loss)和精确度和召回率的调和均值(f1)来决定模型哪组参数拥有最好的效果,并通过早停策略判断何时停止训练防止过拟合;最后,根据模型在测试集上的效果判断模型的分类性能,测试集用来评价模型泛化能力,即在之前模型使用验证集确定超参数,最后用测试集判断这个模型是否工作。
可选的,上述的方法还包括:获取M个短文本;以及通过关键词替换将所述M个短文本扩展至N个短文本;所述N>M,且M和N为正整数。通过关键词替换可以将一个短文本扩展为至少两个短文本,例如:我现在读高二,会考成绩是83,能上伦大预科IFP课程吗?—>我妹妹读高二,会考成绩是83,能上伦大预科IFP课程吗?这样就将一个短文本扩展后形成两个短文本,从而增加样本数量。由于在一个句子中起主要作用的词是谓语动词,而这里的进行关键词替换的词语主要涉及的是名词(主语和宾语),因为主语和宾语的更改不会改变句子的主要意思,这样在样本数量较少的情况下,需要构造多个样本时,通过关键词替换的方式使得增加的样本较为准确,且不是虚构的。
可选的,上述的方法还包括:获取短文本所属的话题特征,根据所述话题特征构建短文本,以增加样本数量。例如,在构造话题与问题短文本对时,如话题为:男朋友,国庆节,国庆旅游;提出的问题短文本可以为:国庆节和男朋友去哪里玩呀,坐标重庆?或者,国庆节和男朋友去哪了约会呀,坐标西安?这样就可以根据话题构建出多个短文本,从而增加样本数量。由于所构建出的短文本是基于话题特征进行构建的,使得所构建出的短文本较为准确且真实,不是虚构的,具有参考意义。
可选的,上述的短文本包括第一问题文本,该方法还包括:判断第一问题文本中的词语是否存在于时效性相关的词语列表中;以及若存在,则在词语的位置处插入至少一个词语,得到第二问题文本。通过遍历时效性相关的特征列表,对样本中含有时效性相关的词语进行增强,也就是将时效性相关的词语词输入两次,形成新的问题文本。例如:我现在上高二,增强后形成的问题文本为:我现在现在上高二。通过增加时效性词语的次数,来增强时效性特征,从而使得所训练出的模型较为准确,进而根据训练出的模型来判断短文本的时效性的结果也较为准确。进一步的,从短文本中获取训练集,包括:对第二问题文本进行分词,得到第二问题文本的文本特征和时效性特征。在得到增强后的短文本后,可以通过对文本进行分词从而得到文本特征和时效性特征。
如图5所示,为本发明实施例提供的一种使用神经网络系统识别短文本时效性的方法的流程图,其中,该神经网络系统包括深层网络和浅层网络,该方法包括:501、获取待识别短文本的文本特征、与待识别短文本关联的时效性特征以及待识别短文本所属的话题特征;502、将待识别短文本的文本特征、与待识别短文本关联的时效性特征输入至深层网络,将待识别短文本所属的话题特征输入至浅层网络;503、输出待识别文本对应的各时效类型的概率。
优选的,该方法还包括:根据业务的需求设置阈值条件,将满足阈值条件的概率对应的时效性识别为短文本的时效性分类结果,或者,输出待识别短文本的时效性,待识别短文本的时效性为最大概率对应的时效性,该时效性的类型包括长时效、短时效以及无时效。该长时效、短时效以及无时效的概率之和为100%。示例性的,这里的短时效性可以是一周以及长时效性可以是一个月。示例性的,这里的阈值条件可以为大于或等于80%,当上述的步骤503输出的长时效概率为90%,短时效概率无时效概率均为5%时,基于上述的阈值条件或者最大概率,最终确定出的短文问的时效性为长时效。通过该步骤能够根据企业自身业务或者用户自身需求来确定时效性分类结果,从而获得短文本的时效性。
可选的,上述的文本特征包括词语特征和标点特征,该标点包括但不限于:问号和叹号,由于该问号和叹号能代表问题发布者的心情或者问题的紧迫程度,在进行利用训练集进行模型训练时,通过考虑到标点特征,会使得最终训练出的模型参数更为准确。
下面将基于图5对应的使用神经网络系统识别短文本时效性的方法的实施例中的相关描述对本发明实施例提供的一种使用神经网络系统识别短文本时效性的装置进行介绍。以下实施例中与上述实施例相关的技术术语、概念等的说明可以参照上述的实施例。
如图6所示,为本发明实施例提供的一种使用神经网络系统识别短文本时效性的装置的结构示意图。该神经网络系统包括深层网络和浅层网路,该装置包括:获取模块,获取模块601,被配置为用于获取待识别短文本的文本特征、与待识别短文本关联的时效性特征以及待识别短文本所属的话题特征;输入模块602,被配置为用于将所述待识别短文本的文本特征、与待识别短文本关联的时效性特征输入至深层网络,将待识别短文本所属的话题特征输入至浅层网络;以及输出模块603,被配置为用于输出待识别文本对应的各时效类型的概率。
可选的,如图6所示,上述的装置还包括:识别模块604,被配置为用于根据业务的需求设置阈值条件,将满足阈值条件的概率对应的时效性识别为短文本的时效性分类结果;或者,被配置为用于输出待识别短文本的时效性,待识别短文本的时效性为最大概率对应的时效性。该时效性的类型包括长时效、短时效以及无时效。该长时效、短时效以及无时效的概率之和为100%。示例性的,这里的短时效性可以是一周以及长时效性可以是一个月。
相比于现有技术,本发明提供的使用神经网络系统识别短文本时效性的装置,首先,获取待识别短文本的文本特征、与待识别短文本关联的时效性特征以及待识别短文本所属的话题特征;其次,将待识别短文本的文本特征、与待识别短文本关联的时效性特征输入至深层网络,将待识别短文本所属的话题特征输入至浅层网络;最后,输出待识别文本对应的各时效类型的概率。由于本方案中所使用的神经网络系统是通过将训练集中的短文本的文本特征、与短文本关联的时效性特征输入至深层网络训练深层网络的参数,以及将短文本所属的话题特征输入至浅层网络训练浅层网络的参数,从而确定神经网络系统,在获得多类特征的同时,充分考虑到问题与问题所属话题相结合、记忆特征之间的组合和高阶特征的产生,泛化能力强,从而使得利用该神经网络系统识别出的待识别短文本的时效性的分类结果较为准确。
如图7所示,为本发明实施例提供的一种电子设备的结构示意图,包括:处理器(CPU)701、存储器(ROM)702以及存储在存储器上并可在处理器上运行的计算机程序,所述CPU 701执行所述程序时实现如图4或图5所示的方法。CPU 701可以根据存储在只读存储器ROM702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备700操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
本发明实施例提供一种计算机存储介质,包括计算机指令,当所述计算机指令在计算机上运行时,使得所述计算机执行如上所述的方法流程。示例性的,计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘,硬盘、磁带)、光介质(例如,DVD)或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种用于神经网络系统的训练方法,其特征在于,所述神经网络系统用于确定短文本的时效性并且包括深层网络和浅层网络,所述训练方法包括:
从短文本中获取训练集,所述训练集包括:短文本的文本特征、与所述短文本关联的时效性特征以及所述短文本所属的话题特征;
将所述短文本的文本特征、与所述短文本关联的时效性特征输入至深层网络训练深层网络的参数,将短文本所属的话题特征输入至浅层网络训练浅层网络的参数;以及
当验证集中的损失值和调和均值满足设定条件时,停止训练,确定所述深层网络的参数和所述浅层网络的参数。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取M个短文本;以及
通过关键词替换将所述M个短文本扩展至N个短文本;所述N>M,且M和N为正整数。
3.根据权利要求1所述的方法,其特征在于,所述短文本包括第一问题文本,所述方法还包括:
判断所述第一问题文本中的词语是否存在于时效性相关的词语列表中;以及
若存在,则在所述词语的位置处插入至少一个所述词语,得到第二问题文本;
所述从短文本中获取训练集,包括:
对所述第二问题文本进行分词,得到所述第二问题文本的文本特征和时效性特征。
4.根据权利要求1所述的方法,其特征在于,所述短文本所属的话题特征是由问题发布者所标记的特征。
5.一种神经网络系统,所述神经网络系统由计算机实现,其特征在于,包括:
特征构建层,用于获取短文本的文本特征、与所述短文本关联的时效性特征以及所述短文本所属的话题特征;
学习层,所述学习层包括深层网络和浅层网络,所述深层网络用于接收所述短文本的文本特征、与所述短文本关联的时效性特征和用于产生深层特征,所述浅层网络用于接收所述短文本所属的话题特征和用于产生浅层特征;以及
分类层,用于根据所述深层特征和所述浅层特征得到各类时效性的概率。
6.根据权利要求5所述的神经网络系统,其特征在于,所述深层网络包括嵌入模型和双层transformer模型,所述浅层网络包括独热编码和线性模型。
7.一种使用神经网络系统识别短文本时效性的方法,其特征在于,所述神经网络系统包括深层网络和浅层网络,所述方法包括:
获取待识别短文本的文本特征、与所述待识别短文本关联的时效性特征以及所述待识别短文本所属的话题特征;
将所述待识别短文本的文本特征、与所述待识别短文本关联的时效性特征输入至所述深层网络,将所述待识别短文本所属的话题特征输入至所述浅层网络;以及
输出所述待识别文本对应的各时效类型的概率。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据业务的需求设置阈值条件,将满足所述阈值条件的概率对应的时效性识别为短文本的时效性分类结果,所述时效性的类型包括长时效、短时效以及无时效。
9.一种电子设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4或7-8任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器执行如权利要求1-4或7-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911061720.8A CN110826315B (zh) | 2019-11-01 | 2019-11-01 | 使用神经网络系统识别短文本时效性的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911061720.8A CN110826315B (zh) | 2019-11-01 | 2019-11-01 | 使用神经网络系统识别短文本时效性的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110826315A true CN110826315A (zh) | 2020-02-21 |
CN110826315B CN110826315B (zh) | 2023-11-24 |
Family
ID=69551975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911061720.8A Active CN110826315B (zh) | 2019-11-01 | 2019-11-01 | 使用神经网络系统识别短文本时效性的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110826315B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666406A (zh) * | 2020-04-13 | 2020-09-15 | 天津科技大学 | 基于自注意力的单词和标签联合的短文本分类预测方法 |
CN112449025A (zh) * | 2020-12-10 | 2021-03-05 | 郑州埃文计算机科技有限公司 | 一种基于自注意力机制的ip场景预测方法 |
CN113254684A (zh) * | 2021-06-18 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 一种内容时效的确定方法、相关装置、设备以及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100169243A1 (en) * | 2008-12-27 | 2010-07-01 | Kibboko, Inc. | Method and system for hybrid text classification |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
CN110119786A (zh) * | 2019-05-20 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
CN110245348A (zh) * | 2019-05-17 | 2019-09-17 | 北京百度网讯科技有限公司 | 一种意图识别方法及系统 |
-
2019
- 2019-11-01 CN CN201911061720.8A patent/CN110826315B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100169243A1 (en) * | 2008-12-27 | 2010-07-01 | Kibboko, Inc. | Method and system for hybrid text classification |
CN109471937A (zh) * | 2018-10-11 | 2019-03-15 | 平安科技(深圳)有限公司 | 一种基于机器学习的文本分类方法及终端设备 |
CN110245348A (zh) * | 2019-05-17 | 2019-09-17 | 北京百度网讯科技有限公司 | 一种意图识别方法及系统 |
CN110119786A (zh) * | 2019-05-20 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 文本话题分类方法及装置 |
Non-Patent Citations (2)
Title |
---|
内容平台-张俊杰: "内容时效性识别,一条内容应该推荐多级合适?为什么?" * |
王惠: "微博热点话题分类与热度预测模型研究" * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111666406A (zh) * | 2020-04-13 | 2020-09-15 | 天津科技大学 | 基于自注意力的单词和标签联合的短文本分类预测方法 |
CN111666406B (zh) * | 2020-04-13 | 2023-03-31 | 天津科技大学 | 基于自注意力的单词和标签联合的短文本分类预测方法 |
CN112449025A (zh) * | 2020-12-10 | 2021-03-05 | 郑州埃文计算机科技有限公司 | 一种基于自注意力机制的ip场景预测方法 |
CN113254684A (zh) * | 2021-06-18 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 一种内容时效的确定方法、相关装置、设备以及存储介质 |
CN113254684B (zh) * | 2021-06-18 | 2021-10-29 | 腾讯科技(深圳)有限公司 | 一种内容时效的确定方法、相关装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110826315B (zh) | 2023-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444709B (zh) | 文本分类方法、装置、存储介质及设备 | |
Swathi et al. | An optimal deep learning-based LSTM for stock price prediction using twitter sentiment analysis | |
Capuano et al. | Sentiment analysis for customer relationship management: an incremental learning approach | |
Bhuvaneshwari et al. | Spam review detection using self attention based CNN and bi-directional LSTM | |
Guo et al. | Attention-based character-word hybrid neural networks with semantic and structural information for identifying of urgent posts in MOOC discussion forums | |
CN112256866B (zh) | 一种基于深度学习的文本细粒度情感分析算法 | |
Cai et al. | Intelligent question answering in restricted domains using deep learning and question pair matching | |
WO2022161470A1 (zh) | 内容的评价方法、装置、设备及介质 | |
CN110826315A (zh) | 使用神经网络系统识别短文本时效性的方法 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN113761190A (zh) | 文本识别方法、装置、计算机可读介质及电子设备 | |
CN112819024B (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
CN111563158A (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
Hao et al. | Sentiment recognition and analysis method of official document text based on BERT–SVM model | |
Wagle et al. | Explainable ai for multimodal credibility analysis: Case study of online beauty health (mis)-information | |
CN113378090B (zh) | 一种互联网网站相似度分析方法、装置以及可读存储介质 | |
Lhasiw et al. | A bidirectional LSTM model for classifying Chatbot messages | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN113704393A (zh) | 关键词提取方法、装置、设备及介质 | |
Zhang | Sentiment classification of news text data using intelligent model | |
CN109902174B (zh) | 一种基于方面依赖的记忆网络的情感极性检测方法 | |
CN112148994A (zh) | 信息推送效果评估方法、装置、电子设备及存储介质 | |
Drakopoulos et al. | Discovering sentiment potential in Twitter conversations with Hilbert–Huang spectrum | |
CN113051396B (zh) | 文档的分类识别方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |