CN106469192A - 一种文本相关性的确定方法及装置 - Google Patents

一种文本相关性的确定方法及装置 Download PDF

Info

Publication number
CN106469192A
CN106469192A CN201610779610.5A CN201610779610A CN106469192A CN 106469192 A CN106469192 A CN 106469192A CN 201610779610 A CN201610779610 A CN 201610779610A CN 106469192 A CN106469192 A CN 106469192A
Authority
CN
China
Prior art keywords
text
target
vector
pending
target domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610779610.5A
Other languages
English (en)
Other versions
CN106469192B (zh
Inventor
沈一
鲍昕平
蔡龙军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201610779610.5A priority Critical patent/CN106469192B/zh
Publication of CN106469192A publication Critical patent/CN106469192A/zh
Application granted granted Critical
Publication of CN106469192B publication Critical patent/CN106469192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种文本相关性的确定方法及装置,预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,并计算每一类的质心向量;所述方法包括:获得待处理目标文本对应的文本向量;根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,计算所述待处理目标文本与每一类质心的相关度;根据所述相关度,确定所述待处理目标文本与所述目标领域的相关性。应用本发明实施例提供的文本相关性的确定方法及装置,提高了目标文本和目标领域的相关性判定的速度。

Description

一种文本相关性的确定方法及装置
技术领域
本发明涉及互联网应用技术领域,特别涉及一种文本相关性的确定方法及装置。
背景技术
随着Web技术的不断发展,大数据时代已经到来,基于大数据的机器学习已经被应用在医疗、教育、交通、娱乐等众多领域。文本是最常见的数据类型,由若干个词组成,通常来自网络中的电子邮件、短信、微博、论坛的帖子等。目标文本与目标领域的相关性判定,是常见的文本数据处理方式。
以关键词进行文本抓取为例,如搜索与名称为《左耳》的影片相关的影评,可能会获得:“周末去影院看了《左耳》,非常好看”的相关文本、“我左耳朵不舒服,需要找耳科医生看看”的不相关文本。因此,要从结果中剔除相关性很低的噪声文本,现有技术通常采用将待处理的目标文本向量化以后与目标领域的相关文本的向量进行比较,得到目标文本与目标领域的相关度,由于相关文本的数量比较大,逐次比较花费的时间较长。
发明内容
本发明实施例的目的在于提供一种文本相关性的确定方法及装置,以提高目标文本和目标领域的相关性判定的速度。
为达到上述目的,本发明实施例公开了一种文本相关性的确定方法,预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,并计算每一类的质心向量;所述方法包括:
获得待处理目标文本对应的文本向量;
根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,计算所述待处理目标文本与每一类质心的相关度;
根据所述相关度,确定所述待处理目标文本与所述目标领域的相关性。
优选的,获得针对目标领域的文本样本中每一文本对应的文本向量,包括:
针对所述文本样本中每一文本,采用词嵌入技术,获得该文本对应的文本向量;
获得待处理目标文本对应的文本向量,包括:
针对所述待处理目标文本,采用词嵌入技术,获得该文本对应的文本向量。
优选的,所述将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,包括:
根据预设聚类算法,将所述文本样本中每一文本对应的文本向量聚类。
优选的,所述根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,计算所述待处理目标文本与每一类质心的相关度,包括:
根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,采用余弦相似度算法,计算所述待处理目标文本与每一类质心的相关度。
优选的,所述根据所述相关度,确定所述待处理目标文本与所述目标领域的相关性,包括:
获得所述待处理目标文本与每一类质心的相关度中的最大值;
当所述最大值不小于第一预设阈值时,确定所述待处理目标文本与所述目标领域相关;
当所述最大值不大于第二预设阈值时,确定所述待处理目标文本与所述目标领域不相关;
当所述最大值介于所述第二预设阈值与所述第一预设阈值之间时,利用自编码神经网络对所述待处理目标文本对应的文本向量进行训练;计算训练前的文本向量和训练后的文本向量的均方差;判断所述均方差是否大于第三预设阈值;如果是,确定所述待处理目标文本与所述目标领域相关;如果否,确定所述待处理目标文本与所述目标领域不相关,其中,所述第二预设阈值小于所述第一预设阈值。
优选的,在确定所述待处理目标文本与所述目标领域相关的情况下,所述方法还包括:
将所述待处理目标文本标记为所述目标领域的相关文本。
为达到上述目的,本发明实施例还公开了一种文本相关性的确定装置,所述装置包括:
聚类模块,用于预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,并计算每一类的质心向量;
获得模块,用于获得待处理目标文本对应的文本向量;
计算模块,用于根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,计算所述待处理目标文本与每一类质心的相关度;
确定模块,用于根据所述相关度,确定所述待处理目标文本与所述目标领域的相关性。
优选的,获得针对目标领域的文本样本中每一文本对应的文本向量,包括:
针对所述文本样本中每一文本,采用词嵌入技术,获得该文本对应的文本向量;
获得待处理目标文本对应的文本向量,包括:
针对所述待处理目标文本,采用词嵌入技术,获得该文本对应的文本向量。
优选的,所述将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,包括:
根据预设聚类算法,将所述文本样本中每一文本对应的文本向量聚类。
优选的,所述计算模块,具体用于:
根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,采用余弦相似度算法,计算所述待处理目标文本与每一类质心的相关度。
优选的,所述确定模块,具体用于:
获得所述待处理目标文本与每一类质心的相关度中的最大值;
当所述最大值不小于第一预设阈值时,确定所述待处理目标文本与所述目标领域相关;
当所述最大值不大于第二预设阈值时,确定所述待处理目标文本与所述目标领域不相关;
当所述最大值介于所述第二预设阈值与所述第一预设阈值之间时,利用自编码神经网络对所述待处理目标文本对应的文本向量进行训练;计算训练前的文本向量和训练后的文本向量的均方差;判断所述均方差是否大于第三预设阈值;如果是,确定所述待处理目标文本与所述目标领域相关;如果否,确定所述待处理目标文本与所述目标领域不相关,其中,所述第二预设阈值小于所述第一预设阈值。
优选的,所述装置还包括:标记模块,
所述标记模块,用于在确定所述待处理目标文本与所述目标领域相关的情况下,将所述待处理目标文本标记为所述目标领域的相关文本。
由上述的技术方案可见,本发明实施例提供的一种文本相关性的确定方法及装置,预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,并计算每一类的质心向量;所述方法包括:获得待处理目标文本对应的文本向量;根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,计算所述待处理目标文本与每一类质心的相关度;根据所述相关度,确定所述待处理目标文本与所述目标领域的相关性。
应用本发明实施例提供的技术方案,将目标领域的文本样本对应的向量采用聚类算法聚成若干类并计算对应的质心向量,计算待处理目标文本对应的向量与每一类质心向量相关度,然后根据相关度确定待处理目标文本与目标领域是否相关,避免了将待处理目标文本对应的向量与目标领域的每一个文本样本对应的向量进行相关度的计算,显著减少了计算量。因此,提高了目标文本和目标领域的相关性判定的速度。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本相关性的确定方法的流程示意图;
图2为本发明实施例提供的一种文本相关性的确定装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为解决现有技术问题,本发明实施例提供了一种文本相关性的确定方法及装置,以下分别进行详细说明。
需要说明的是,根据目标领域,可以获得大量的与目标领域相关的文本,即目标领域的文本样本。预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,并计算每一类的质心向量。本领域技术人员可以理解的是,为了减少计算量,将大量的目标领域的文本样本向量化后进行聚类,并计算每一类的质心向量。
具体的,获得针对目标领域的文本样本中每一文本对应的文本向量,可以根据针对所述文本样本中每一文本,采用词嵌入技术,获得该文本对应的文本向量。实际应用中,可以采用词嵌入技术,词嵌入技术考虑到了词的语义信息,如同义词、上下文语意等,而且相比现有技术采用的TF-IDF进行文本向量化还具有文本向量较短的优势。
具体的,将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,可以根据预设聚类算法,将所述文本样本中每一文本对应的文本向量聚类。预设的聚类算法可以是划分法、层次法,向量聚类为现有技术,本发明实施例在此不做赘述。假设,目标领域的文本样本为100个,根据聚类算法得到聚类数量为5类,得到对应的质心向量也为5个。实际应用中,具体某一类中文本样本的个数是由聚类算法本身决定的,一般情况下,每一类中的文本样本数都是不一样的。本发明实施例给出的目标领域的文本数量和聚类算法仅仅是示例性的,不构成对本发明实施例的限定。
图1为本发明实施例提供的一种文本相关性的确定方法的流程示意图,包括如下步骤:
S101,获得待处理目标文本对应的文本向量。
具体的,获得待处理目标文本对应的文本向量,可以根据针对所述待处理目标文本,采用词嵌入技术,获得该文本对应的文本向量。
S102,根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,计算所述待处理目标文本与每一类质心的相关度。
具体的,根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,计算所述待处理目标文本与每一类质心的相关度,可以根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,采用余弦相似度算法,计算所述待处理目标文本与每一类质心的相关度。
S103,根据所述相关度,确定所述待处理目标文本与所述目标领域的相关性。
具体的,根据所述相关度,确定所述待处理目标文本与所述目标领域的相关性,可以包括:获得所述待处理目标文本与每一类质心的相关度中的最大值;当所述最大值不小于第一预设阈值时,确定所述待处理目标文本与所述目标领域相关;当所述最大值不大于第二预设阈值时,确定所述待处理目标文本与所述目标领域不相关;当所述最大值介于所述第二预设阈值与所述第一预设阈值之间时,利用自编码神经网络对所述待处理目标文本对应的文本向量进行训练;计算训练前的文本向量和训练后的文本向量的均方差;判断所述均方差是否大于第三预设阈值;如果是,确定所述待处理目标文本与所述目标领域相关;如果否,确定所述待处理目标文本与所述目标领域不相关,其中,所述第二预设阈值小于所述第一预设阈值。
具体的,在确定所述待处理目标文本与所述目标领域相关的情况下,还可以将所述待处理目标文本标记为所述目标领域的相关文本。
实际应用中,将待判定是否为目标领域相关的文本称之为待处理目标文本,首先将其向量化。采用的词嵌入技术将目标文本向量化的过程是:将待处理目标文本分成n个词,每个词由一个m维的向量来表示,那么,目标文本将会由这n个m维的向量拼接组成,即每个词对应的m维相加后的向量来表示。文本分词和文本向量化为现有技术,本发明实施例在此不做赘述。
示例性的,判断待处理目标文本“我左耳朵不舒服,需要找耳科医生看看”是否为电影《左耳》的影评,待处理目标文本采用词嵌入进行向量化,获得对应的向量为b。假设,b由三个词组成,每个词用6维的向量表示,则b可以表示为:b=b10b11b20b21b30b31,实际应用中,词向量的维数通常要达到100-500维,本发明实施例仅仅是示例性的,不构成对本发明的限定;目标领域的文本对应的5个质心向量为:a1、a2、a3、a4、a5
本领域技术人员可以理解的是,经过聚类的质心向量中的每个向量值是所有被聚类的向量对应位置值的平均值。示例性的,对于质心向量a1,由5个文本向量聚类而成,a1=a10a11a12a13a14a15,以a10为例,是进行聚类的5个文本向量对应在a10位置的向量值的平均。计算向量值为现有技术,本发明实施例在此不做赘述。
通过计算目标文本对应的向量与每一类质心向量的相关度,即可反应目标文本与该类质心向量对应的文本的相关度,通常采用的计算方式为余弦相似度算法。示例性的,待处理目标文本的文本向量b与质心向量a1的相关度为:s=sim(b,a1),其中,余弦相似度算法sim表示两个向量的空间夹角的余弦数值。
本领域技术人员可以理解的是,根据待处理目标文本的文本向量与每一类质心向量的相关度,能够确定目标文本是否与目标领域相关。通常,在所有相关度中取最大值,将其确定为待处理目标文本与目标领域的相关度。假设,第一预设阈值为0.55、第二预设阈值为0.45、第三预设阈值为0.04;根据余弦相似度算法,获得待处理目标文本的文本向量与每一质心的相关度,分别为0.1、0.2、0.3、0.6、0.3、0.4,则待处理目标文本与目标领域的相关度为0.6,因为0.6>0.55,则确定待处理目标文本与目标领域为相关。
若相关度分别为0.3、0.2、0.1、0.4、0.3、0.4,则待处理目标文本与目标领域的相关度为0.4,因为0.4小于第二预设阈值0.45,则确定待处理目标文本与目标领域为不相关。
若相关度分别为0.5、0.2、0.45、0.5、0.3、0.4,则待处理目标文本与目标领域的相关度为0.5,因为0.45<0.5<0.55,将待处理目标文本的文本向量b输入自编码神经网络进行训练,输出训练后向量为b’。示例性的,b、b’对应的向量值分别为:b=(0.2,0.3,0.1,0.4,0.5,0.1)、b’=(0.1,0.1,0.1,0.1,0.1,0.1),获得b、b’的均方差为[(0.2-0.1)2+(0.3-0.1)2+(0.1-0.1)2+(0.4-0.1)2+(0.5-0.1)2+(0.1-0.1)2]/6=0.05。因为0.05大于第三预设阈值0.04,确定待处理目标文本为目标领域的相关文本。
将确定的相关文本进行标记后,可以将其作为目标领域的文本样本,以此不断的对目标领域的文本样本进行更新,能够提高待处理目标文本与目标领域相关性判定的准确性。
实际应用中,若待处理目标文本确定为目标领域的不相关文本,则将其作为自编码神经网络的训练文本向量。本领域技术人员可以理解的是,自编码神经网络中用来训练输入的文本向量的是一些目标领域的不相关文本对应向量的集合,将这些不相关文本对应的向量作为特征,训练一个自编码神经网络。对于这些不相关文本的对应向量,自编码神经网络学习出编码权重和解码权重,此时输出向量和输入是一致的。如果输入的是不相关文本对应的向量,那么通过两组权重还原后的输出向量和输入向量接近相等,即两个向量的均方差接近0。而均方差越大,说明其还原程度越差,则该文本属于目标领域的相关文本的可能性较大。自编码神经网络为现有技术,本发明实施例在此不做赘述。
可见,应用本发明图1所示的实施例,将目标领域的文本样本对应的向量采用聚类算法聚成若干类并计算对应的质心向量,计算待处理目标文本对应的向量与每一类质心向量相关度,然后根据相关度确定待处理目标文本与目标领域是否相关,避免了将待处理目标文本对应的向量与目标领域的每一个文本样本对应的向量进行相关度的计算,显著减少了计算量。因此,提高了目标文本和目标领域的相关性判定的速度。
图2为本发明实施例提供的一种文本相关性的确定装置的结构示意图,可以包括:聚类模块201、获得模块202、计算模块203、确定模块204。
聚类模块201,用于预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,并计算每一类的质心向量。
具体的,实际应用中,获得针对目标领域的文本样本中每一文本对应的文本向量,可以针对所述文本样本中每一文本,采用词嵌入技术,获得该文本对应的文本向量。
具体的,实际应用中,所述将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,可以根据预设聚类算法,将所述文本样本中每一文本对应的文本向量聚类。
获得模块202,用于获得待处理目标文本对应的文本向量。
具体的,实际应用中,获得待处理目标文本对应的文本向量,可以针对所述待处理目标文本,采用词嵌入技术,获得该文本对应的文本向量。
计算模块203,用于根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,计算所述待处理目标文本与每一类质心的相关度。
具体的,实际应用中,所述计算模块203,可以用于:
根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,采用余弦相似度算法,计算所述待处理目标文本与每一类质心的相关度。
确定模块204,用于根据所述相关度,确定所述待处理目标文本与所述目标领域的相关性。
具体的,实际应用中,所述确定模块204,可以用于:
获得所述待处理目标文本与每一类质心的相关度中的最大值;
当所述最大值不小于第一预设阈值时,确定所述待处理目标文本与所述目标领域相关;
当所述最大值不大于第二预设阈值时,确定所述待处理目标文本与所述目标领域不相关;
当所述最大值介于所述第二预设阈值与所述第一预设阈值之间时,利用自编码神经网络对所述待处理目标文本对应的文本向量进行训练;计算训练前的文本向量和训练后的文本向量的均方差;判断所述均方差是否大于第三预设阈值;如果是,确定所述待处理目标文本与所述目标领域相关;如果否,确定所述待处理目标文本与所述目标领域不相关,其中,所述第二预设阈值小于所述第一预设阈值。
具体的,实际应用中,所述装置还可以包括:标记模块(图中未示出),
标记模块,用于在确定所述待处理目标文本与所述目标领域相关的情况下,将所述待处理目标文本标记为所述目标领域的相关文本。
将确定的相关文本进行标记后,可以将其作为目标领域的文本样本,以此不断的对目标领域的文本样本进行更新,能够提高待处理目标文本与目标领域相关性判定的准确性。
可见,应用本发明图2所示的实施例,将目标领域的文本样本对应的向量采用聚类算法聚成若干类并计算对应的质心向量,计算待处理目标文本对应的向量与每一类质心向量相关度,然后根据相关度确定待处理目标文本与目标领域是否相关,避免了将待处理目标文本对应的向量与目标领域的每一个文本样本对应的向量进行相关度的计算,显著减少了计算量。因此,提高了目标文本和目标领域的相关性判定的速度。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (12)

1.一种文本相关性的确定方法,其特征在于,预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,并计算每一类的质心向量;所述方法包括:
获得待处理目标文本对应的文本向量;
根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,计算所述待处理目标文本与每一类质心的相关度;
根据所述相关度,确定所述待处理目标文本与所述目标领域的相关性。
2.根据权利要求1所述的方法,其特征在于,获得针对目标领域的文本样本中每一文本对应的文本向量,包括:
针对所述文本样本中每一文本,采用词嵌入技术,获得该文本对应的文本向量;
获得待处理目标文本对应的文本向量,包括:
针对所述待处理目标文本,采用词嵌入技术,获得该文本对应的文本向量。
3.根据权利要求1所述的方法,其特征在于,所述将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,包括:
根据预设聚类算法,将所述文本样本中每一文本对应的文本向量聚类。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,计算所述待处理目标文本与每一类质心的相关度,包括:
根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,采用余弦相似度算法,计算所述待处理目标文本与每一类质心的相关度。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述相关度,确定所述待处理目标文本与所述目标领域的相关性,包括:
获得所述待处理目标文本与每一类质心的相关度中的最大值;
当所述最大值不小于第一预设阈值时,确定所述待处理目标文本与所述目标领域相关;
当所述最大值不大于第二预设阈值时,确定所述待处理目标文本与所述目标领域不相关;
当所述最大值介于所述第二预设阈值与所述第一预设阈值之间时,利用自编码神经网络对所述待处理目标文本对应的文本向量进行训练;计算训练前的文本向量和训练后的文本向量的均方差;判断所述均方差是否大于第三预设阈值;如果是,确定所述待处理目标文本与所述目标领域相关;如果否,确定所述待处理目标文本与所述目标领域不相关,其中,所述第二预设阈值小于所述第一预设阈值。
6.根据权利要求5所述的方法,其特征在于,在确定所述待处理目标文本与所述目标领域相关的情况下,所述方法还包括:
将所述待处理目标文本标记为所述目标领域的相关文本。
7.一种文本相关性的确定装置,其特征在于,所述装置包括:
聚类模块,用于预先将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,并计算每一类的质心向量;
获得模块,用于获得待处理目标文本对应的文本向量;
计算模块,用于根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,计算所述待处理目标文本与每一类质心的相关度;
确定模块,用于根据所述相关度,确定所述待处理目标文本与所述目标领域的相关性。
8.根据权利要7所述的装置,其特征在于,获得针对目标领域的文本样本中每一文本对应的文本向量,包括:
针对所述文本样本中每一文本,采用词嵌入技术,获得该文本对应的文本向量;
获得待处理目标文本对应的文本向量,包括:
针对所述待处理目标文本,采用词嵌入技术,获得该文本对应的文本向量。
9.根据权利要求7所述的装置,其特征在于,所述将获得的针对目标领域的文本样本中每一文本对应的文本向量进行聚类,包括:
根据预设聚类算法,将所述文本样本中每一文本对应的文本向量聚类。
10.根据权利要求7所述的装置,其特征在于,所述计算模块,具体用于:
根据所述待处理目标文本对应的文本向量以及所述每一类的质心向量,采用余弦相似度算法,计算所述待处理目标文本与每一类质心的相关度。
11.根据权利要求7至10任一项所述的装置,其特征在于,所述确定模块,具体用于:
获得所述待处理目标文本与每一类质心的相关度中的最大值;
当所述最大值不小于第一预设阈值时,确定所述待处理目标文本与所述目标领域相关;
当所述最大值不大于第二预设阈值时,确定所述待处理目标文本与所述目标领域不相关;
当所述最大值介于所述第二预设阈值与所述第一预设阈值之间时,利用自编码神经网络对所述待处理目标文本对应的文本向量进行训练;计算训练前的文本向量和训练后的文本向量的均方差;判断所述均方差是否大于第三预设阈值;如果是,确定所述待处理目标文本与所述目标领域相关;如果否,确定所述待处理目标文本与所述目标领域不相关,其中,所述第二预设阈值小于所述第一预设阈值。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:标记模块,
所述标记模块,用于在确定所述待处理目标文本与所述目标领域相关的情况下,将所述待处理目标文本标记为所述目标领域的相关文本。
CN201610779610.5A 2016-08-30 2016-08-30 一种文本相关性的确定方法及装置 Active CN106469192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610779610.5A CN106469192B (zh) 2016-08-30 2016-08-30 一种文本相关性的确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610779610.5A CN106469192B (zh) 2016-08-30 2016-08-30 一种文本相关性的确定方法及装置

Publications (2)

Publication Number Publication Date
CN106469192A true CN106469192A (zh) 2017-03-01
CN106469192B CN106469192B (zh) 2021-07-30

Family

ID=58230308

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610779610.5A Active CN106469192B (zh) 2016-08-30 2016-08-30 一种文本相关性的确定方法及装置

Country Status (1)

Country Link
CN (1) CN106469192B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577708A (zh) * 2017-07-31 2018-01-12 北京北信源软件股份有限公司 基于SparkMLlib文档分类的类库构建方法及系统
CN107908783A (zh) * 2017-12-07 2018-04-13 百度在线网络技术(北京)有限公司 检索文本相关性的评估方法、装置、服务器和存储介质
CN108829807A (zh) * 2018-06-07 2018-11-16 武汉斗鱼网络科技有限公司 一种舆情归并方法、装置、服务器和存储介质
CN110287296A (zh) * 2019-05-21 2019-09-27 平安科技(深圳)有限公司 一种问题答案选取方法、装置、计算机设备及存储介质
CN110991161A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 相似文本确定方法、神经网络模型获得方法及相关装置
CN111177370A (zh) * 2019-12-03 2020-05-19 北京工商大学 一种自然语言处理的算法
CN112231471A (zh) * 2020-09-04 2021-01-15 大箴(杭州)科技有限公司 文本处理方法及装置、计算机设备、存储介质
CN116167336A (zh) * 2023-04-22 2023-05-26 拓普思传感器(太仓)有限公司 基于云计算的传感器数据加工方法、云服务器及介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0420999A (ja) * 1990-05-16 1992-01-24 Mitsubishi Electric Corp 標準話者選択装置
CN101742290A (zh) * 2008-11-12 2010-06-16 北京中星微电子有限公司 视频编、解码降噪方法和视频编、解码降噪装置
CN102137077A (zh) * 2010-01-26 2011-07-27 凹凸电子(武汉)有限公司 访问控制系统和采用计算机系统控制访问权限的方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
CN103246641A (zh) * 2013-05-16 2013-08-14 李营 一种文本语义信息分析系统和方法
CN103377221A (zh) * 2012-04-24 2013-10-30 富士通株式会社 消息整合装置、消息整合方法以及电子设备
CN103886077A (zh) * 2014-03-24 2014-06-25 广东省电信规划设计院有限公司 短文本的聚类方法和系统
CN104050449A (zh) * 2014-06-13 2014-09-17 无锡天脉聚源传媒科技有限公司 一种人脸识别方法及装置
CN104318573A (zh) * 2014-10-31 2015-01-28 广州超音速自动化科技有限公司 标签缺陷检测方法
CN104504007A (zh) * 2014-12-10 2015-04-08 成都品果科技有限公司 一种图像相似度的获取方法及系统
US9075825B2 (en) * 2011-09-26 2015-07-07 The University Of Kansas System and methods of integrating visual features with textual features for image searching
CN103020122B (zh) * 2012-11-16 2015-09-30 哈尔滨工程大学 一种基于半监督聚类的迁移学习方法
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN105378717A (zh) * 2013-03-12 2016-03-02 国际商业机器公司 用于对社交媒体的用户分类的方法、计算机程序和计算机
CN105718861A (zh) * 2016-01-15 2016-06-29 北京市博汇科技股份有限公司 一种识别视频流数据类别的方法及装置

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0420999A (ja) * 1990-05-16 1992-01-24 Mitsubishi Electric Corp 標準話者選択装置
CN101742290A (zh) * 2008-11-12 2010-06-16 北京中星微电子有限公司 视频编、解码降噪方法和视频编、解码降噪装置
CN102137077A (zh) * 2010-01-26 2011-07-27 凹凸电子(武汉)有限公司 访问控制系统和采用计算机系统控制访问权限的方法
CN102332012A (zh) * 2011-09-13 2012-01-25 南方报业传媒集团 基于类别之间相关性学习的中文文本分类方法
US9075825B2 (en) * 2011-09-26 2015-07-07 The University Of Kansas System and methods of integrating visual features with textual features for image searching
CN103377221A (zh) * 2012-04-24 2013-10-30 富士通株式会社 消息整合装置、消息整合方法以及电子设备
CN103020122B (zh) * 2012-11-16 2015-09-30 哈尔滨工程大学 一种基于半监督聚类的迁移学习方法
CN105378717A (zh) * 2013-03-12 2016-03-02 国际商业机器公司 用于对社交媒体的用户分类的方法、计算机程序和计算机
CN103246641A (zh) * 2013-05-16 2013-08-14 李营 一种文本语义信息分析系统和方法
CN103886077A (zh) * 2014-03-24 2014-06-25 广东省电信规划设计院有限公司 短文本的聚类方法和系统
CN104050449A (zh) * 2014-06-13 2014-09-17 无锡天脉聚源传媒科技有限公司 一种人脸识别方法及装置
CN104318573A (zh) * 2014-10-31 2015-01-28 广州超音速自动化科技有限公司 标签缺陷检测方法
CN104504007A (zh) * 2014-12-10 2015-04-08 成都品果科技有限公司 一种图像相似度的获取方法及系统
CN105005589A (zh) * 2015-06-26 2015-10-28 腾讯科技(深圳)有限公司 一种文本分类的方法和装置
CN105718861A (zh) * 2016-01-15 2016-06-29 北京市博汇科技股份有限公司 一种识别视频流数据类别的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
S. FURUI: "Unsupervised speaker adaptation method based on hierarchical spectral clustering", 《INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 *
王义国: "医学图像自动特征提取的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
绍洛姆·韦斯等: "《预测性文本挖掘基础》", 31 October 2012, 西安交通大学出版社 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577708A (zh) * 2017-07-31 2018-01-12 北京北信源软件股份有限公司 基于SparkMLlib文档分类的类库构建方法及系统
CN107908783A (zh) * 2017-12-07 2018-04-13 百度在线网络技术(北京)有限公司 检索文本相关性的评估方法、装置、服务器和存储介质
CN108829807A (zh) * 2018-06-07 2018-11-16 武汉斗鱼网络科技有限公司 一种舆情归并方法、装置、服务器和存储介质
CN110991161A (zh) * 2018-09-30 2020-04-10 北京国双科技有限公司 相似文本确定方法、神经网络模型获得方法及相关装置
CN110287296A (zh) * 2019-05-21 2019-09-27 平安科技(深圳)有限公司 一种问题答案选取方法、装置、计算机设备及存储介质
CN111177370A (zh) * 2019-12-03 2020-05-19 北京工商大学 一种自然语言处理的算法
CN111177370B (zh) * 2019-12-03 2023-08-11 北京工商大学 一种自然语言处理的算法
CN112231471A (zh) * 2020-09-04 2021-01-15 大箴(杭州)科技有限公司 文本处理方法及装置、计算机设备、存储介质
CN112231471B (zh) * 2020-09-04 2022-06-07 大箴(杭州)科技有限公司 文本处理方法及装置、计算机设备、存储介质
CN116167336A (zh) * 2023-04-22 2023-05-26 拓普思传感器(太仓)有限公司 基于云计算的传感器数据加工方法、云服务器及介质

Also Published As

Publication number Publication date
CN106469192B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN106469192A (zh) 一种文本相关性的确定方法及装置
CN112131366B (zh) 训练文本分类模型及文本分类的方法、装置及存储介质
CN106126669B (zh) 基于标签的用户协同过滤内容推荐方法及装置
CN110287479A (zh) 命名实体识别方法、电子装置及存储介质
US20190332672A1 (en) Methods, devices, and systems for constructing intelligent knowledge base
Serrano et al. A novel agent-based rumor spreading model in twitter
US20140249799A1 (en) Relational similarity measurement
CN111753076B (zh) 对话方法、装置、电子设备及可读存储介质
CN110795572B (zh) 一种实体对齐方法、装置、设备及介质
CN110291540A (zh) 批再归一化层
CN106844587A (zh) 一种用于对话交互系统的数据处理方法及装置
CN105528618B (zh) 一种基于社交网络的短图片文本识别方法及装置
Stemle et al. Using language learner data for metaphor detection
CN111222327B (zh) 一种词嵌入表示方法、装置及设备
JP2021093163A (ja) ディープラーニングに基づく文書類似度測定モデルを利用した重複文書探知方法およびシステム
CN111062209A (zh) 自然语言处理模型训练方法和自然语言处理模型
CN110442863B (zh) 一种短文本语义相似度计算方法及其系统、介质
CN113392640B (zh) 一种标题确定方法、装置、设备及存储介质
CN106547822A (zh) 一种文本相关性确定方法及装置
Sabetghadam et al. Which One to Choose: Random Walks or Spreading Activation?
TWI603320B (zh) 全域對話系統
Zhang et al. Determination of verb similarity in computational verb theory [J]
Si et al. 3D soft tissue warping dynamics simulation based on force asynchronous diffusion model
Crnjac Milić Synergy of mathematics, informatics, cybernetics and computing
Spiliopoulos et al. Mapping ontologies elements using features in a latent space

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant