CN110610001A - 短文本完整性识别方法、装置、存储介质及计算机设备 - Google Patents
短文本完整性识别方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN110610001A CN110610001A CN201910740545.9A CN201910740545A CN110610001A CN 110610001 A CN110610001 A CN 110610001A CN 201910740545 A CN201910740545 A CN 201910740545A CN 110610001 A CN110610001 A CN 110610001A
- Authority
- CN
- China
- Prior art keywords
- short text
- short
- integrity
- texts
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000012545 processing Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 41
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 66
- 238000004891 communication Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 description 10
- 230000004927 fusion Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种短文本完整性识别方法、装置、存储介质及计算机设备,涉及信息技术领域,主要目的在于能够提升短文本完整性的识别精确度,以及识别效率,所述方法包括:获取已有的短文本集,并收集海量文本;根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理;利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型;将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。本发明适用于短文本完整性的识别。
Description
技术领域
本发明涉及信息技术领域,特别是涉及一种短文本完整性识别方法、装置、存储介质及计算机设备。
背景技术
随着信息技术的不断发展,人工智能开始进入人们生活,人工智能的实现,离不开自然语言处理(Natural Language Processing,NLP)的建模和数据处理。在实际应用中,用于NLP建模的原始数据通常为短信、应用程序的系统推送消息,网络上的用户评论,文章摘要等短文本,然而,这些原始数据中存在大量被截断的非完整文本,这些非完整文本会严重影响NLP建模的效果,导致最终得到的数据处理模型的数据处理准确率较低。因此,提出一种文本完整性的识别方法已成为了人工智能技术领域亟待解决的技术问题。
目前,通常通过人工方式识别短文本的完整性,如通过人工直接识别短文本的完整性,或者通过人工配置的短文本集,识别短文本的完整性。然而,人力能够覆盖的短文本有限,且文本被截断的因素很多,若通过上述方式识别短文本完整性,会造成短文本完整性的识别精确度较低,以及识别效率较低。
发明内容
有鉴于此,本发明提供一种短文本完整性识别方法、装置、存储介质及计算机设备,主要目的在于能够提升短文本完整性的识别精确度,以及识别效率。
依据本发明第一方面,提供了一种短文本完整性识别方法,包括:
获取已有的短文本集,并收集海量文本;
根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理;
利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型;
将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
可选地,所述根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理,包括:
按照所述短文本集中被截断短文本的概率分布,对所述海量文本进行截断处理,并进行完整性类别标注;
将所述海量文本及其对应的完整性类别标签,融合到所述短文本集。
可选地,所述将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整,包括:
将待识别短文本输入到所述短文本完整性识别模型进行匹配;
将匹配短文本对应的完整性类别标签,确定为所述待识别短文本的完整性类别标签。
可选地,所述利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型,包括:
将增量后的短文本集中的短文本输入到预设词向量处理模型,得到所述短文本对应的词向量特征;
将所述词向量特征和所述短文本对应的完整性类别标签,输入到预设卷积神经网络模型中进行训练,得到短文本完整性识别模型。
可选地,所述所述将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整,包括:
将待识别短文本输入到所述预设词向量处理模型,得到所述待识别短文本的词向量;
将所述待识别短文本的词向量,输入到所述短文本完整性识别模型进行匹配;
若所述待识别短文本的词向量与被截断短文本的词向量的相似度大于或者等于预设阈值,则确定所述待识别短文本为被截断的短文本;
若所述待识别短文本的词向量与被截断短文本的词向量的相似度大于或者等于预设阈值,则确定所述待识别短文本为完整的短文本。
可选地,所述利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型,包括:
利用预设卷积神经网络算法,对增量后的短文本集中的短文本、短文本之间的前后顺序特征、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型;
所述将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整,包括:
获取与所述待识别短文本前后相邻的文本;
将待识别短文本,其对应的相邻文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
进一步地,所述待识别短文本为NPL建模的原始文本,所述方法还包括:
若所述待识别短文本为被截断的短文本,则将所述待识别短文本从所述原始文本中剔除。
依据本发明第二方面,提供了一种短文本完整性识别装置,包括:
获取单元,用于获取已有的短文本集,并收集海量文本;
处理单元,用于根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理;
训练单元,用于利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型;
识别单元,用于将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
可选地,所述处理单元包括:
处理模块,用于计算所述短文本集中被截断短文本的概率分布,并按照所述短文本集中被截断短文本的概率分布,对所述海量文本进行截断处理,并进行完整性类别标注;
融合模块,用于将所述海量文本及其对应的完整性类别标签,融合到所述短文本集。
可选地,所述识别单元,具体用于将待识别短文本输入到所述短文本完整性识别模型进行匹配;并将匹配短文本对应的完整性类别标签,确定为所述待识别短文本的完整性类别标签。
可选地,所述训练单元,具体用于将增量后的短文本集中的短文本输入到预设词向量处理模型,得到所述短文本对应的词向量特征;并将所述词向量特征和所述短文本对应的完整性类别标签,输入到预设卷积神经网络模型中进行训练,得到短文本完整性识别模型。
可选地,所述识别单元,具体用于将待识别短文本输入到所述预设词向量处理模型,得到所述待识别短文本的词向量;将所述待识别短文本的词向量,输入到所述短文本完整性识别模型进行匹配;若所述待识别短文本的词向量与被截断短文本的词向量的相似度大于或者等于预设阈值,则确定所述待识别短文本为被截断的短文本;若所述待识别短文本的词向量与被截断短文本的词向量的相似度大于或者等于预设阈值,则确定所述待识别短文本为完整的短文本。
可选地,所述训练单元,具体用于利用预设卷积神经网络算法,对增量后的短文本集中的短文本、短文本之间的前后顺序特征、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型;
所述识别单元,用于获取与所述待识别短文本前后相邻的文本;并将待识别短文本,其对应的相邻文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
进一步地,所述装置还包括:
剔除单元,用于若所述待识别短文本为NPL建模的原始文本,且为被截断的短文本,则将所述待识别短文本从所述原始文本中剔除。
依据本发明第三方面,提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:
获取已有的短文本集,并收集海量文本;
根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理;
利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型;
将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
依据本发明第四方面,提供了一种短文本完整性识别装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取已有的短文本集,并收集海量文本;
根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理;
利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型;
将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
本发明提供一种短文本完整性识别方法、装置、存储介质及计算机设备,与目前通过人工配置的短文本集,识别短文本的完整性相比,本发明通过预先获取已有的短文本集,收集海量文本,并根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理,能够实现自动增加短文本集的数据量,此外,通过利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型,能够自动确定所述待识别短文本是否完整,从而能够提升短文本的完整性识别覆盖面,能够提升短文本的完整性识别精确度,且从而能够提升短文本完整性的识别效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种短文本完整性识别方法的流程示意图;
图2示出了本发明实施例提供的另一种短文本完整性识别方法的流程示意图;
图3示出了本发明实施例提供的一种短文本完整性识别装置的结构示意图;
图4示出了本发明实施例提供的另一种短文本完整性识别装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如背景技术所述,目前,通常通过人工方式识别短文本的完整性,如通过人工直接识别短文本的完整性,或者通过人工配置的短文本完整性识别集,识别短文本的完整性。然而,人力能够覆盖的短文本有限,且文本被截断的因素很多,若通过上述方式识别短文本完整性,会造成短文本完整性的识别精确度较低,以及识别效率较低。
为了解决上述技术问题,本发明实施例提供了一种短文本完整性识别方法,如图1所示,所述方法包括:
101、获取已有的短文本集,并收集海量文本;
其中,所述已有的短文本集可以为人工已标注完整性类别的短文本集,所述完整性类别可以为完整的类别以及被截断的类别,被截断的类别可以为非完整的类别,所述海量文本可以为没有做截断处理的完整文本,所述海量文本可以为电子书籍、网络信息中的文本。具体地,所述海量文本可以为中文文本。
102、根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理。
其中,所述概率分布可以为被截断短文本在所述短文集中的占比,也可以为被截断短文本的截断分割符对完整短文本的分割比例,例如,1000条短文本,其中有300条被截断短文本,被截断短文本的概率分布可以为300条/1000条=30%,或者这300条被截断短文本被分割符分割的位置占整个文本长度的比例,如一个被截断短文本总长为10个字,分割符处于短文本的第3个字符,被截断短文本的概率分布可以为3/10=30%。对于本发明实施例,可以按照所述短文本集中被截断短文本的概率分布对所述海量文本进行截断处理,并根据截断结果对海量文本进行完整性标注。如可以按照30%的概率对海量文本中的句子进行截断。
103、利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型。
需要说明的是,所述预设卷积神经网络算法可以通过组合底层特征形成更加抽象的高层表示属性类别或者特征,在本发明实施例中,预设卷积神经网络算法可以建立所述短文本和其对应的完整性类别标签之间的映射关系,并根据所述映射关系构建所述短文本完整性识别模型,建立的上述映射关系可以为非线性关系。其中,训练得到的短文本完整性识别模型可以包括输入层、隐藏层和输出层,输入层对应于输入的待识别短文本,所述隐藏层可以计算层,计算层可以用于根据待识别短文本和所述映射关系进行计算,得到待识别短文本的完整性类别标签;所述输出层用于将计算得到的完整性标签进行输出。
104、将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
进一步的,为了更好的说明上述短文本完整性识别方法的过程,作为对上述实施例的细化和扩展,本发明实施例提供了几种可选实施例,但不限于此,具体如下所示:
对于本发明的一个可选实施例,为了实现自动获取增量后的短文本集,克服已有的短文本集覆盖面较窄,以及人工方式增加短文本样本量的缺陷,所述步骤102具体可以包括:计算所述短文本集中被截断短文本的概率分布;按照所述短文本集中被截断短文本的概率分布,对所述海量文本进行截断处理,并进行完整性类别标注;将所述海量文本及其对应的完整性类别标签,融合到所述短文本集。需要说明的是,对海量文本进行截断处理的方式可以为:将文本的句子分割符向前移或者向后移。例如,文本为“你吃饭了么?我要去吃饭了。”对文本的句子进行截断处理方式可以为:将分割符“?”向前移或者向后移,变成文本“你吃饭了么我要?去吃饭了。”
对于本发明的另一个可选实施例,为了确定待识别短文本是否完整,所述步骤104具体可以包括:将待识别短文本输入到所述短文本完整性识别模型进行匹配;将匹配短文本对应的完整性类别标签,确定为所述待识别短文本的完整性类别标签。
对于本发明的又一个可选实施例,为了进一步提升短文本完整性识别精确度,训练所述短文本完整性识别模型的过程具体可以包括:将增量后的短文本集中的短文本输入到预设词向量处理模型,得到所述短文本对应的词向量特征;将所述词向量特征和所述短文本对应的完整性类别标签,输入到预设卷积神经网络模型中进行训练,得到短文本完整性识别模型。其中,所述预设词向量处理模型可以为bert模型,也可以为word2vec模型。所述预设卷积神经网络模型可以为textcnn模型。需要说明的是,利用所述预设词向量处理模型对短文本进行词向量处理的过程可以包括如下步骤:
1、对所述短文本进行分词处理,以提取所述短文本对应的关键词、关键分割符。所采用的分词方法可以为基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法,这些分词方法都具有较高的分词准确率和快速的分词系统,能够自动过滤掉中间词、助词、连词、感叹词等停顿词、保留名词、动词、形容词等指定词性的词,并将指定词性的词作为候选关键词对。
2、在所述预设词向量模型中查找关键词对应的词向量以及分割符对应向的,所述预设词向量模型可以为通过bert或者为word2vec训练得到的,bert或者为word2vec可以为一种生成词向量的神经网络模型,即在训练所述模型时,将词语作输入、输出一个低维度的词向量表示这个词语,然后用反向传播的方法不断优化参数。通过bert或者为word2vec可以训练能够表示语义关系的词向量。
相应地,短文本完整性识别的过程具体可以包括:将待识别短文本输入到所述预设词向量处理模型,得到所述待识别短文本的词向量;将所述待识别短文本的词向量,输入到所述短文本完整性识别模型进行匹配;若所述待识别短文本的词向量与被截断短文本的词向量的相似度大于或者等于预设阈值,则确定所述待识别短文本为被截断的短文本;若所述待识别短文本的词向量与被截断短文本的词向量的相似度大于或者等于预设阈值,则确定所述待识别短文本为完整的短文本。其中,所述预设阈值可以根据实际需求进行设置,例如,所述预设阈值可以为90%,95%,词向量之间的相似度可以通过词向量之间的余弦距离表示,所述余弦距离具体可以通过如下公式但不限于如下公式计算:
其中,θ表示词向量之间的夹角,x1k表示n维的所述词向量的特征值,x2k表示n维的词向量的特征值,n表示词向量空间的维度。通过计算词向量之间的距离,可以表示词与词之间的相似度。
对于本发明的再一个可选实施例,为了进一步提升短文本完整性识别精确度,在训练所述短文本完整性识别模型还可以考虑短文本之间的前后顺序特征,具体地,训练所述短文本完整性识别模型的过程具体可以包括:利用预设卷积神经网络算法,对增量后的短文本集中的短文本、短文本之间的前后顺序特征、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型。相应地,短文本完整性识别的过程具体可以包括:获取与所述待识别短文本前后相邻的文本;并将待识别短文本,其对应的相邻文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
对于本发明的又再一个可选实施例,当所述待识别短文本为NPL建模的原始文本时,为了减少被截断的文本对NPL建模的影响,提升NPL建模的准确性,所述方法还包括:若所述待识别短文本为被截断的短文本,则将所述待识别短文本从所述原始文本中剔除。
为了更好的理解本发明实施例,提供了另一种短文本完整性识别流程图,如图2所示:收集大规模中文语料;按照50比例(已有的短文本语料中的被截断文本的概率分布)选取部分句子做截断处理;将已有的短文本语料和截断处理后的短文本语料通过语料融合模块进行融合;将融合后的短文本语料输入到bert模型进行初步训练;然后将bert模型的输出结果输入到textcnn模型再进行训练,得到textcnn模型做联合调优训练,最终得到短文本截断识别模型;当存在待判别短文本语料时,将待判别短文本语料输入到textcnn短文本截断识别模型进行训练,最后根据短文本截断识别模型的输出结果,确定待判别短文本语料是否完整。
本发明实施例提供的一种短文本完整性识别方法,与目前通过人工配置的短文本集,识别短文本的完整性相比,本发明通过预先获取已有的短文本集,收集海量文本,并根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理,能够实现自动增加短文本集的数据量,此外,通过利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型,能够自动确定所述待识别短文本是否完整,从而能够提升短文本的完整性识别覆盖面,能够提升短文本的完整性识别精确度,且从而能够提升短文本完整性的识别效率。
进一步地,作为图1的具体实现,本发明实施例提供了一种短文本完整性识别装置,如图3所示,所述装置包括:获取单元21、处理单元22、训练单元23和识别单元24。
所述获取单元21,用于获取已有的短文本集,并收集海量文本。
所述处理单元22,用于根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理。
所述训练单元23,用于利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型。
所述识别单元24,用于将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
对于本发明实施例,为了获取增量后的短文本集,所述处理单元包括22:处理模块和融合模块。
所述处理模块,用于计算所述短文本集中被截断短文本的概率分布,并按照所述短文本集中被截断短文本的概率分布,对所述海量文本进行截断处理,并进行完整性类别标注;
所述融合模块,用于将所述海量文本及其对应的完整性类别标签,融合到所述短文本集。
对于本发明实施例,所述识别单元24,具体用于将待识别短文本输入到所述短文本完整性识别模型进行匹配;并将匹配短文本对应的完整性类别标签,确定为所述待识别短文本的完整性类别标签。
在具体应用场景中,所述训练单元23,具体用于将增量后的短文本集中的短文本输入到预设词向量处理模型,得到所述短文本对应的词向量特征;并将所述词向量特征和所述短文本对应的完整性类别标签,输入到预设卷积神经网络模型中进行训练,得到短文本完整性识别模型。
所述识别单元24,具体用于将待识别短文本输入到所述预设词向量处理模型,得到所述待识别短文本的词向量;将所述待识别短文本的词向量,输入到所述短文本完整性识别模型进行匹配;若所述待识别短文本的词向量与被截断短文本的词向量的相似度大于或者等于预设阈值,则确定所述待识别短文本为被截断的短文本;若所述待识别短文本的词向量与被截断短文本的词向量的相似度大于或者等于预设阈值,则确定所述待识别短文本为完整的短文本。
在具体应用场景中,为了进一步地提升短文本完整性的识别精确度,所述训练单元23,具体用于利用预设卷积神经网络算法,对增量后的短文本集中的短文本、短文本之间的前后顺序特征、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型。
相应地,所述识别单元24,用于获取与所述待识别短文本前后相邻的文本;并将待识别短文本,其对应的相邻文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
对于本发明实施例,为了保证NPL建模的准确性,所述装置还包括:剔除单元25,如图4所示。
所述剔除单元25,用于若所述待识别短文本为NPL建模的原始文本,且为被截断的短文本,则将所述待识别短文本从所述原始文本中剔除。
需要说明的是,本发明实施例提供的一种短文本完整性识别装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种提供了一种存储介质,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行以下步骤:获取已有的短文本集,并收集海量文本;根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理;利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型;将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备,如图5所示,处理器(processor)41、通信接口(Communications Interface)42、存储器(memory)43、以及通信总线44。其中:处理器41、通信接口42、以及存储器43通过通信总线44完成相互间的通信。通信接口44,用于与其它设备比如客户端或其它服务器等的网元通信。处理器41,用于执行程序,具体可以执行上述数据的转换方法实施例中的相关步骤。具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。处理器41可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific IntegratedCircuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
终端包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。存储器43,用于存放程序。存储器43可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。程序具体可以用于使得处理器41执行以下操作:获取已有的短文本集,并收集海量文本;根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理;利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型;将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
通过本发明的技术方案,通过预先获取已有的短文本集,收集海量文本,并根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理,能够实现自动增加短文本集的数据量,此外,通过利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型,能够自动确定所述待识别短文本是否完整,从而能够提升短文本的完整性识别覆盖面,能够提升短文本的完整性识别精确度,且从而能够提升短文本完整性的识别效率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的短文本完整性识别装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种短文本完整性识别方法,其特征在于,包括:
获取已有的短文本集,并收集海量文本;
根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理;
利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型;
将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
2.根据权利要求1所述的方法,其特征在于,所述根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理,包括:
计算所述短文本集中被截断短文本的概率分布;
按照所述短文本集中被截断短文本的概率分布,对所述海量文本进行截断处理,并进行完整性类别标注;
将所述海量文本及其对应的完整性类别标签,融合到所述短文本集。
3.根据权利要求1所述的方法,其特征在于,所述将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整,包括:
将待识别短文本输入到所述短文本完整性识别模型进行匹配;
将匹配短文本对应的完整性类别标签,确定为所述待识别短文本的完整性类别标签。
4.根据权利要求1所述的方法,其特征在于,所述利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型,包括:
将增量后的短文本集中的短文本输入到预设词向量处理模型,得到所述短文本对应的词向量特征;
将所述词向量特征和所述短文本对应的完整性类别标签,输入到预设卷积神经网络模型中进行训练,得到短文本完整性识别模型。
5.根据权利要求4所述的方法,其特征在于,所述所述将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整,包括:
将待识别短文本输入到所述预设词向量处理模型,得到所述待识别短文本的词向量;
将所述待识别短文本的词向量,输入到所述短文本完整性识别模型进行匹配;
若所述待识别短文本的词向量与被截断短文本的词向量的相似度大于或者等于预设阈值,则确定所述待识别短文本为被截断的短文本;
若所述待识别短文本的词向量与被截断短文本的词向量的相似度大于或者等于预设阈值,则确定所述待识别短文本为完整的短文本。
6.根据权利要求1所述的方法,其特征在于,所述利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型,包括:
利用预设卷积神经网络算法,对增量后的短文本集中的短文本、短文本之间的前后顺序特征、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型;
所述将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整,包括:
获取与所述待识别短文本前后相邻的文本;
将待识别短文本,其对应的相邻文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
7.根据权利要求1所述的方法,其特征在于,所述待识别短文本为NPL建模的原始文本,所述方法还包括:
若所述待识别短文本为被截断的短文本,则将所述待识别短文本从所述原始文本中剔除。
8.一种短文本完整性识别装置,其特征在于,包括:
获取单元,用于获取已有的短文本集,并收集海量文本;
处理单元,用于根据所述短文本集中被截断短文本的概率分布和所述海量文本,对所述短文本集进行增量处理;
训练单元,用于利用预设卷积神经网络算法,对增量后的短文本集中的短文本、及其对应的完整性类别标签进行训练,得到短文本完整性识别模型;
识别单元,用于将待识别短文本输入到所述短文本完整性识别模型进行识别,以确定所述待识别短文本是否完整。
9.一种存储介质,其上存储有计算机程序,所述存储介质中存储有至少一可执行指令,所述执行指令使处理器执行如权利要求1-7中任一项所述的短文本完整性识别方法对应的操作。
10.一种计算机设备,包括处理器、存储器、通信接口和通信总线所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信,所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的短文本完整性识别对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910740545.9A CN110610001B (zh) | 2019-08-12 | 2019-08-12 | 短文本完整性识别方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910740545.9A CN110610001B (zh) | 2019-08-12 | 2019-08-12 | 短文本完整性识别方法、装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110610001A true CN110610001A (zh) | 2019-12-24 |
CN110610001B CN110610001B (zh) | 2024-01-23 |
Family
ID=68889863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910740545.9A Active CN110610001B (zh) | 2019-08-12 | 2019-08-12 | 短文本完整性识别方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110610001B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113935329A (zh) * | 2021-10-13 | 2022-01-14 | 昆明理工大学 | 基于自适应特征识别与去噪的非对称文本匹配方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455581A (zh) * | 2013-08-26 | 2013-12-18 | 北京理工大学 | 基于语义扩展的海量短文本信息过滤方法 |
CN103959282A (zh) * | 2011-09-28 | 2014-07-30 | 谷歌公司 | 用于文本识别系统的选择性反馈 |
KR20150072007A (ko) * | 2013-12-19 | 2015-06-29 | 한국전자통신연구원 | 부정조작방지 장치 접근 방법 및 그 방법을 채용한 단말 장치 |
US20170200125A1 (en) * | 2014-09-25 | 2017-07-13 | Institute Of Software, Chinese Academy Of Sciences | Information visualization method and intelligent visual analysis system based on text curriculum vitae information |
CN108334487A (zh) * | 2017-07-14 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 缺失语意信息补全方法、装置、计算机设备和存储介质 |
CN108920622A (zh) * | 2018-06-29 | 2018-11-30 | 北京奇艺世纪科技有限公司 | 一种意图识别的训练方法、训练装置和识别装置 |
CN109979435A (zh) * | 2017-12-28 | 2019-07-05 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
-
2019
- 2019-08-12 CN CN201910740545.9A patent/CN110610001B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103959282A (zh) * | 2011-09-28 | 2014-07-30 | 谷歌公司 | 用于文本识别系统的选择性反馈 |
CN103455581A (zh) * | 2013-08-26 | 2013-12-18 | 北京理工大学 | 基于语义扩展的海量短文本信息过滤方法 |
KR20150072007A (ko) * | 2013-12-19 | 2015-06-29 | 한국전자통신연구원 | 부정조작방지 장치 접근 방법 및 그 방법을 채용한 단말 장치 |
US20170200125A1 (en) * | 2014-09-25 | 2017-07-13 | Institute Of Software, Chinese Academy Of Sciences | Information visualization method and intelligent visual analysis system based on text curriculum vitae information |
CN108334487A (zh) * | 2017-07-14 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 缺失语意信息补全方法、装置、计算机设备和存储介质 |
CN109979435A (zh) * | 2017-12-28 | 2019-07-05 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN108920622A (zh) * | 2018-06-29 | 2018-11-30 | 北京奇艺世纪科技有限公司 | 一种意图识别的训练方法、训练装置和识别装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113935329A (zh) * | 2021-10-13 | 2022-01-14 | 昆明理工大学 | 基于自适应特征识别与去噪的非对称文本匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110610001B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Niu et al. | Multi-modal multi-scale deep learning for large-scale image annotation | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
CN105095204B (zh) | 同义词的获取方法及装置 | |
CN109918560B (zh) | 一种基于搜索引擎的问答方法和装置 | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
CN106776503B (zh) | 文本语义相似度的确定方法及装置 | |
CN111046656B (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN110457689B (zh) | 语义处理方法及相关装置 | |
CN112270196B (zh) | 实体关系的识别方法、装置及电子设备 | |
CN108776901B (zh) | 基于搜索词的广告推荐方法及系统 | |
CN111488468B (zh) | 地理信息知识点抽取方法、装置、存储介质及计算机设备 | |
CN110502742B (zh) | 一种复杂实体抽取方法、装置、介质及系统 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN115048944B (zh) | 一种基于主题增强的开放域对话回复方法及系统 | |
CN109271624B (zh) | 一种目标词确定方法、装置及存储介质 | |
CN112800184B (zh) | 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法 | |
CN113569050A (zh) | 基于深度学习的政务领域知识图谱自动化构建方法和装置 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN111814476A (zh) | 一种实体关系的抽取方法和装置 | |
CN109657043B (zh) | 自动生成文章的方法、装置、设备及存储介质 | |
CN111475651A (zh) | 文本分类方法、计算设备及计算机存储介质 | |
CN112711666B (zh) | 期货标签抽取方法及装置 | |
CN104778232B (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN110929022A (zh) | 一种文本摘要生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |