CN105426354A - 一种句向量的融合方法和装置 - Google Patents

一种句向量的融合方法和装置 Download PDF

Info

Publication number
CN105426354A
CN105426354A CN201510727239.3A CN201510727239A CN105426354A CN 105426354 A CN105426354 A CN 105426354A CN 201510727239 A CN201510727239 A CN 201510727239A CN 105426354 A CN105426354 A CN 105426354A
Authority
CN
China
Prior art keywords
text
vector
word
sentence
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510727239.3A
Other languages
English (en)
Other versions
CN105426354B (zh
Inventor
吕志高
邹国平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Jiuyan Technology Co Ltd
Original Assignee
Hangzhou Jiuyan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Jiuyan Technology Co Ltd filed Critical Hangzhou Jiuyan Technology Co Ltd
Priority to CN201510727239.3A priority Critical patent/CN105426354B/zh
Publication of CN105426354A publication Critical patent/CN105426354A/zh
Application granted granted Critical
Publication of CN105426354B publication Critical patent/CN105426354B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种句向量的融合方法和装置。该方法包括:提取待处理文本中包括的文本词向量;在设定语料库中对所述文本词向量进行查找,生成第二词向量;根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量。本发明实施例所提供的技术方案,通过根据文本词向量与第二词向量之间的空间相似度,将文本中多组词向量融合为句向量,可以有效避免破坏单独词向量的内在语义信息,根据文本具体的应用场景,结合上下句的语义进行句向量融合,提升了句向量对待处理文本的表述能力。

Description

一种句向量的融合方法和装置
技术领域
本发明涉及网络安全技术领域,尤其涉及一种句向量的融合方法和装置。
背景技术
随着互联网及移动网络的迅速发展,借由网络传播消息的快捷性,越来越多的用户选择通过互联网平台与他人交流,共享信息,如可以通过网站或终端应用软件等方式。伴随而来也会产生许多不符合互联网安全使用环境,甚至是违反国家法律法规的内容,如政治敏感、淫秽色情的内容等等,导致相关的网站存在安全运营风险;某些商贩为了提升自身店铺/商品的曝光度,会在各互联网环境下,疯狂宣传自家产品,使得网站或应用软件的用户体验极差,甚至出现利用广告信息进行诈骗等不良现象,给互联网安全管理工作带来了非常大的压力。因此,为了保证网络环境的安全以及用户的良好体验,有必要采用技术手段对目标信息(典型的,广告类信息)进行识别。
文本作为信息传播的主要数据类型之一,对文本数据中的目标信息进行识别显得尤为重要,文本中目标信息的识别通常采用由词向量融合生成的句向量,作为文本特征,进行识别。
现有的句向量融合方法通常采用对文本词向量直接进行加权累加来实现,会破坏多个词向量的语义,其仅适用于较短的文本处理,当待处理的文本较长时,该方法会随着词向量数据的增加,生成的词向量分类辨析能力下降,对句向量对文本特征的表述能力产生较大影响。
发明内容
有鉴于此,本发明实施例提供一种句向量的融合方法和装置,以解决现有的句向量融合技术会破坏多个词向量的语义,影响对文本特征的表述能力的问题。
第一方面,本发明实施例提供了一种句向量的融合方法,包括:
提取待处理文本中包括的文本词向量;
在设定语料库中对所述文本词向量进行查找,生成第二词向量;
根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量。
第二方面,本发明实施例提供了一种句向量的融合装置,包括:
文本词向量提取模块,用于提取待处理文本中包括的文本词向量;
第二词向量生成模块,用于在设定语料库中对所述文本词向量进行查找,生成第二词向量;
文本句向量生成模块,用于根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量。
本发明实施例所提供的技术方案,通过根据文本词向量与第二词向量之间的空间相似度,将文本中多组词向量融合为句向量,可以有效避免破坏单独词向量的内在语义信息,实现了根据文本具体的应用场景,结合上下句的语义进行句向量融合的技术效果,提升了句向量对待处理文本的表述能力。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明实施例一提供的一种句向量的融合方法的流程图;
图2是本发明实施例二提供的一种句向量的融合装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
图1为本发明实施例一提供的一种句向量的融合方法的流程图。本实施例的方法具体可用于终端或服务器内对待处理文本进行句向量的融合,提取文本句向量的情况,还适用于对文本中目标信息的识别。本实施例的方法可以由句向量的融合装置来执行,该装置可独立的配置在终端或者服务器中,也可分布式配置在终端和服务器中,两者配合实现本实施例的方法。
本实施例的方法包括:
S110、提取待处理文本中包括的文本词向量;
一般来说,对文本特征最简单直接的表示就是单个的词,但由于文本数据中包含很多的词,而且有些词的出现频率很高,却与文本所传达信息并不相关,或者说是噪音数据,因此,提取文本词向量的目的是找出有用的词特征集,剔除无用的特征集,从而提高分类效率和分类精度。
其中,由于获取的文本数据量较大,而用于表示文本的特征理论上应该数量上尽量少,出现频率适中,冗余少,噪音少,且与其所属类别语义相关,含义尽量明确,因此,为了降低计算量,在提取文本中包括的文本词向量之前,优选是对待处理文本进行预处理,为文本词向量的提取做好准备。其中,预处理的方法可以包括文本排重,中文分词,去停用词等。
在本实施例中,可以采取各种方式提取待处理文本中包括的文本词向量,优选的,可以基于将单词转换成向量形式的word2vec工具,提取所述文本的词向量,通过上述工具进行词向量提取后,每条文本,分词后会有多个关键词,每个关键词会有一个词向量。
S120、在设定语料库中对所述文本词向量进行查找,生成第二词向量;
语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体。经过科学选材和标注、具有适当规模的语料库能够反映和记录语言的实际使用情况。人们通过语料库观察和把握语言事实,分析和研究语言系统的规律。
语料库根据采集的原则和方式的不同,可以分为:异质的(Heterogeneous):没有特定的语料收集原则,广泛收集并原样存储各种语料;同质的(Homogeneous):只收集同一类内容的语料;系统的(Systematic):根据预先确定的原则和比例收集语料,使语料具有平衡性和系统性,能够代表某一范围内的语言事实;专用的(Specialized):只收集用于某一特定用途的语料。除此之外,按照语料的语种,语料库也可以分成单语的(Monolingual)、双语的(Bilingual)和多语的(Multilingual)。按照语料的采集单位,语料库又可以分为语篇的、语句的、短语的等。
在本实施例中,可以根据提取的文本词向量的类型选择相应的语料库作为设定语料库,在设定语料库的总的词向量中对所述文本词向量进行查找,生成第二词向量。
S130、根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量。
向量空间上的相似度可以用来表示文本语义上的相似度。在本实施例的一个优选实施方式中,根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量优选是包括:
通过计算所述文本词向量中各个向量元素与所述第二词向量中各个向量元素之间的余弦距离,确定与所述文本词向量对应的文本句向量。
余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量;向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。当两个词向量的夹角余弦等于1时,表示这两个词向量完全重复;当两个词向量的夹角的余弦值接近于1时,表示这两个词向量相似;两个词向量的夹角的余弦越小,表示两个词向量的相似度越低。
采用计算余弦距离确定文本词向量与第二词向量之间的空间相似度,进而生成文本句向量,可以有效避免破坏单独词向量的内在语义信息,根据文本具体的应用场景,结合上下句的语义进行句向量融合,提升句向量对待处理文本的表述能力;上述技术方案,除了适用于短文本处理,尤其适用于对长文本进行处理,相对于现有技术,本实施例所提供的技术方案,具有更好的文本分类辨析力,可以更好的表述文本特征。
例如,假设某一语料库提取所述第一文本信息中包括的词向量后,产生N个词向量D={D1,D2,...,DN},且每一个词向量为M维,即Di={Vi1,Vi2,...,ViM},1≤i≤N;一条文本经过分词并搜寻词向量D后,有n个词在语料库中被找到,其词向量分别为d={d1,d2,...,dn},且每个词向量为M维,即dj={dj1,dj2,...,djM},1≤j≤n,同时每个词出现频率与逆向文件频率,分别为tf={tf1,tf2,...,tfn},idf={idf1,idf2,...,idfn};其中,逆向文件频率idf主要用于分析词的类别区分能力,如果包含设定词的文本越少,idf越大,则说明该设定词具有很好的类别区分能力,反之,就说明该设定词的类别区分能力相对较差。
通过对词向量每个维度进行加权求和生成M维的句向量为S={S1,S2,...,SM},取句向量中某一维Sk,1≤k≤M,其表述公式为:
S k = 1 n Σ j = 1 n ( tf k · idf k · d j k ) , 1 ≤ j ≤ n , 1 ≤ k ≤ M ;
由于每个词向量是单独的个体,具体数值具有语义信息,上述公式的缺陷在于,其会直接破坏多个词向量的语义,不能根据待识别文本数据的具体应用场景,结合上下句语义进行句向量融合,使得最终对文本特征的表述能力产生较大影响,为了解决该问题,在本优选实施方式中,通过所述文本词向量中各个向量元素与所述第二词向量中各个向量元素之间的余弦距离,确定与所述文本词向量对应的文本句向量具体包括:
根据公式:
S k = 1 n Σ j = 1 n ( tf k · idf k . d i s ( d j k , D k ) ) , 1 ≤ j ≤ n , 1 ≤ k ≤ N
计算第一句向量;其中:
d i s ( d j k , D k ) = < d j k , D k > | | d j k | | &CenterDot; | | D k | | , 1 &le; j &le; n , 1 &le; k &le; N
其中,
Dk为所述第一文本信息中包括的第一词向量的集合D中的元素,
djk为对词向量D通过语料库查找后所生成第二词向量的集合d中的元素,
n为d中第二词向量的个数,
N为语料库中的词向量的个数,
tfk为d中每个词出现的频率的集合tf中的元素,
idfk为d中每个词的逆向文件频率的集合idf中的元素。
由于每条文本会产生多个词向量,采用上述基于文本多组词向量融合为句向量的方法,所有词向量维度固定,而且可以使得每条文本信息转换为一条词向量,充分考虑到多词向量的语义。
通过上述方法得到的第一句向量Sk通常比较高维,试验时千万条用户文本语料信息,产生句向量维度可高达10万维,因此,,在上述实施例的基础上优选是还包括:对计算得到的所述文本句向量进行降维处理,以生成设定维度的句向量。
在上述实施例的基础上,在根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量之后,优选是还包括:
将得到句向量与设定的训练模型进行比对,并根据比对结果识别所述待处理文本中包括的目标信息。
在将得到的句向量与设定的训练模型进行比对之前,还包括:获取计算得到的句向量的相匹配的训练模型。训练模型是机器学习中所使用的模型,需要在具体的场景中,使用具体的数据,选择合适的模型,如回归,分类,概率估计等,通过学习训练的过程,得到相应模型的参数,让最终的模型能够最好的模拟场景,供预测,分类等。
示例性的,可以通过将得到的句向量与预先训练好的模型进行相关度计算,当计算结果超过一个设定的相关度阈值时,确定与所述目标特征向量对应的待识别数据中包含有目标信息。
综上,本发明实施例所提供的技术方案,通过根据文本词向量与第二词向量之间的空间相似度,将文本中多组词向量融合为句向量,可以有效避免破坏单独词向量的内在语义信息,实现了根据文本具体的应用场景,结合上下句的语义进行句向量融合的技术效果,提升句向量对待处理文本的表述能力,此外,本实施例的方法还可以应用于对文本中的目标信息进行识别。
实施例二
图2为本发明实施例二提供的一种句向量的融合装置的结构示意图。如图2所示,该装置包括:
文本词向量提取模块210,用于提取待处理文本中包括的文本词向量;
第二词向量生成模块220,用于在设定语料库中对所述文本词向量进行查找,生成第二词向量;
文本句向量生成模块230,用于根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量。
本发明实施例所提供的技术方案,通过根据文本词向量与第二词向量之间的空间相似度,将文本中多组词向量融合为句向量,可以有效避免破坏单独词向量的内在语义信息,实现了根据文本具体的应用场景,结合上下句的语义进行句向量融合的技术手段,提升了句向量对待处理文本的表述能力。
进一步的,文本句向量生成模块230用于:
通过计算所述文本词向量中各个向量元素与所述第二词向量中各个向量元素之间的余弦距离,确定与所述文本词向量对应的文本句向量。
具体的,文本句向量生成模块230进一步用于:
根据公式:
S k = 1 n &Sigma; j = 1 n ( tf k &CenterDot; idf k &CenterDot; d i s ( d j k , D k ) ) , 1 &le; j &le; n , 1 &le; k &le; N
计算第一句向量;其中:
d i s ( d j k , D k ) = < d j k , D k > | | d j k | | &CenterDot; | | D k | | , 1 &le; j &le; n , 1 &le; k &le; N
其中,
Dk为所述第一文本信息中包括的第一词向量的集合D中的元素,
djk为对词向量D通过语料库查找后所生成第二词向量的集合d中的元素,
n为d中第二词向量的个数,
N为语料库中的词向量的个数,
tfk为d中每个词出现的频率的集合tf中的元素,
idfk为d中每个词的逆向文件频率的集合idf中的元素。
在上述方案的基础上,该装置还包括:
句向量降维模块240,用于对计算得到的所述文本句向量进行降维处理,以生成设定维度的句向量。
此外,在上述方案的基础上,该装置可选是还包括:
目标信息识别模块250,用于在根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量之后,将得到句向量与设定的训练模型进行比对,并根据比对结果识别所述待处理文本中包括的目标信息。
本发明实施例所提供的句向量的融合装置可用于执行本发明实施例所提供的句向量的融合方法,具备相应的功能和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种句向量的融合方法,其特征在于,包括:
提取待处理文本中包括的文本词向量;
在设定语料库中对所述文本词向量进行查找,生成第二词向量;
根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量。
2.根据权利要求1所述的方法,其特征在于,根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量包括:
通过计算所述文本词向量中各个向量元素与所述第二词向量中各个向量元素之间的余弦距离,确定与所述文本词向量对应的文本句向量。
3.根据权利要求2所述的方法,其特征在于,通过所述文本词向量中各个向量元素与所述第二词向量中各个向量元素之间的余弦距离,确定与所述文本词向量对应的文本句向量具体包括:
根据公式:
S k = 1 n &Sigma; j = 1 n ( tf k &CenterDot; idf k &CenterDot; d i s ( d j k , D k ) ) , 1 &le; j &le; n , 1 &le; k &le; N
计算第一句向量Sk;其中:
d i s ( d j k , D k ) = < d j k , D k > | | d j k | | &CenterDot; | | D k | | , 1 &le; j &le; n , 1 &le; k &le; N
其中,
Dk为所述第一文本信息中包括的第一词向量的集合D中的元素,
djk为对词向量D通过语料库查找后所生成第二词向量的集合d中的元素,
n为d中第二词向量的个数,
N为语料库中的词向量的个数,
tfk为d中每个词出现的频率的集合tf中的元素,
idfk为d中每个词的逆向文件频率的集合idf中的元素。
4.根据权利要求3所述的方法,其特征在于,还包括:
对计算得到的所述文本句向量进行降维处理,以生成设定维度的句向量。
5.根据权利要求1-4任一项所述的方法,其特征在于,在根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量之后,还包括:
将得到句向量与设定的训练模型进行比对,并根据比对结果识别所述待处理文本中包括的目标信息。
6.一种句向量的融合装置,其特征在于,包括:
文本词向量提取模块,用于提取待处理文本中包括的文本词向量;
第二词向量生成模块,用于在设定语料库中对所述文本词向量进行查找,生成第二词向量;
文本句向量生成模块,用于根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量。
7.根据权利要求1所述的装置,其特征在于,文本句向量生成模块用于:
通过计算所述文本词向量中各个向量元素与所述第二词向量中各个向量元素之间的余弦距离,确定与所述文本词向量对应的文本句向量。
8.根据权利要求7所述的装置,其特征在于,文本句向量生成模块进一步用于:
根据公式:
S k = 1 n &Sigma; j = 1 n ( tf k &CenterDot; idf k &CenterDot; d i s ( d j k , D k ) ) , 1 &le; j &le; n , 1 &le; k &le; N
计算第一句向量Sk;其中:
d i s ( d j k , D k ) = < d j k , D k > | | d j k | | &CenterDot; | | D k | | , 1 &le; j &le; n , 1 &le; k &le; N
其中,
Dk为所述第一文本信息中包括的第一词向量的集合D中的元素,
djk为对词向量D通过语料库查找后所生成第二词向量的集合d中的元素,
n为d中第二词向量的个数,
N为语料库中的词向量的个数,
tfk为d中每个词出现的频率的集合tf中的元素,
idfk为d中每个词的逆向文件频率的集合idf中的元素。
9.根据权利要求8所述的装置,其特征在于,还包括:
句向量降维模块,用于对计算得到的所述文本句向量进行降维处理,以生成设定维度的句向量。
10.根据权利要求6-9任一项所述的装置,其特征在于,还包括:
目标信息识别模块,用于在根据所述文本词向量与所述第二词向量之间的空间相似度,确定与所述文本词向量对应的文本句向量之后,将得到句向量与设定的训练模型进行比对,并根据比对结果识别所述待处理文本中包括的目标信息。
CN201510727239.3A 2015-10-29 2015-10-29 一种句向量的融合方法和装置 Expired - Fee Related CN105426354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510727239.3A CN105426354B (zh) 2015-10-29 2015-10-29 一种句向量的融合方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510727239.3A CN105426354B (zh) 2015-10-29 2015-10-29 一种句向量的融合方法和装置

Publications (2)

Publication Number Publication Date
CN105426354A true CN105426354A (zh) 2016-03-23
CN105426354B CN105426354B (zh) 2019-03-22

Family

ID=55504568

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510727239.3A Expired - Fee Related CN105426354B (zh) 2015-10-29 2015-10-29 一种句向量的融合方法和装置

Country Status (1)

Country Link
CN (1) CN105426354B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN106709277A (zh) * 2016-11-21 2017-05-24 南京邮电大学 基于文本挖掘的g蛋白偶联受体药物靶标分子的向量生成方法
CN106776545A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN106874258A (zh) * 2017-02-16 2017-06-20 西南石油大学 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN107544956A (zh) * 2016-06-24 2018-01-05 科大讯飞股份有限公司 一种文本要点检测方法及系统
CN108024005A (zh) * 2016-11-04 2018-05-11 北京搜狗科技发展有限公司 信息处理方法、装置、智能终端、服务器和系统
CN108363692A (zh) * 2018-02-13 2018-08-03 成都智库二八六信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN110110199A (zh) * 2018-01-09 2019-08-09 北京京东尚科信息技术有限公司 信息输出方法和装置
CN110555093A (zh) * 2018-03-30 2019-12-10 华为技术有限公司 文本匹配方法、装置及设备
CN110767296A (zh) * 2019-10-09 2020-02-07 北京雅丁信息技术有限公司 一种基于语义相似性的手术操作编码方法
CN110874528A (zh) * 2018-08-10 2020-03-10 珠海格力电器股份有限公司 文本相似度的获取方法及装置
CN112115715A (zh) * 2020-09-04 2020-12-22 北京嘀嘀无限科技发展有限公司 自然语言文本处理方法、装置、存储介质和电子设备
WO2022160818A1 (zh) * 2021-01-27 2022-08-04 语联网(武汉)信息技术有限公司 垂直领域语料数据筛选方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001273293A (ja) * 2000-03-23 2001-10-05 Nippon Telegr & Teleph Corp <Ntt> 単語推定方法及び装置及び単語推定プログラムを格納した記録媒体
CN104391860A (zh) * 2014-10-22 2015-03-04 安一恒通(北京)科技有限公司 内容类别检测方法及装置
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001273293A (ja) * 2000-03-23 2001-10-05 Nippon Telegr & Teleph Corp <Ntt> 単語推定方法及び装置及び単語推定プログラムを格納した記録媒体
CN104391860A (zh) * 2014-10-22 2015-03-04 安一恒通(北京)科技有限公司 内容类别检测方法及装置
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104933183A (zh) * 2015-07-03 2015-09-23 重庆邮电大学 一种融合词向量模型和朴素贝叶斯的查询词改写方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王庆 等: "基于词共现矩阵的项目关键词词库和关键词语义网络", 《计算机应用》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544956B (zh) * 2016-06-24 2021-07-06 科大讯飞股份有限公司 一种文本要点检测方法及系统
CN107544956A (zh) * 2016-06-24 2018-01-05 科大讯飞股份有限公司 一种文本要点检测方法及系统
CN106484664B (zh) * 2016-10-21 2019-03-01 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN106484664A (zh) * 2016-10-21 2017-03-08 竹间智能科技(上海)有限公司 一种短文本间相似度计算方法
CN108024005B (zh) * 2016-11-04 2020-08-21 北京搜狗科技发展有限公司 信息处理方法、装置、智能终端、服务器和系统
CN108024005A (zh) * 2016-11-04 2018-05-11 北京搜狗科技发展有限公司 信息处理方法、装置、智能终端、服务器和系统
CN106709277A (zh) * 2016-11-21 2017-05-24 南京邮电大学 基于文本挖掘的g蛋白偶联受体药物靶标分子的向量生成方法
CN106776545B (zh) * 2016-11-29 2019-12-24 西安交通大学 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN106776545A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN106874258B (zh) * 2017-02-16 2020-04-07 西南石油大学 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN106874258A (zh) * 2017-02-16 2017-06-20 西南石油大学 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN110110199B (zh) * 2018-01-09 2024-02-06 北京京东尚科信息技术有限公司 信息输出方法和装置
CN110110199A (zh) * 2018-01-09 2019-08-09 北京京东尚科信息技术有限公司 信息输出方法和装置
CN108363692B (zh) * 2018-02-13 2021-04-02 成都智库二八六一信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN108363692A (zh) * 2018-02-13 2018-08-03 成都智库二八六信息技术有限公司 一种句子相似度的计算方法及基于该方法的舆情监督方法
CN110555093A (zh) * 2018-03-30 2019-12-10 华为技术有限公司 文本匹配方法、装置及设备
CN110555093B (zh) * 2018-03-30 2024-02-13 华为技术有限公司 文本匹配方法、装置及设备
CN110874528A (zh) * 2018-08-10 2020-03-10 珠海格力电器股份有限公司 文本相似度的获取方法及装置
CN110874528B (zh) * 2018-08-10 2020-11-10 珠海格力电器股份有限公司 文本相似度的获取方法及装置
CN110767296A (zh) * 2019-10-09 2020-02-07 北京雅丁信息技术有限公司 一种基于语义相似性的手术操作编码方法
CN112115715A (zh) * 2020-09-04 2020-12-22 北京嘀嘀无限科技发展有限公司 自然语言文本处理方法、装置、存储介质和电子设备
WO2022160818A1 (zh) * 2021-01-27 2022-08-04 语联网(武汉)信息技术有限公司 垂直领域语料数据筛选方法及系统

Also Published As

Publication number Publication date
CN105426354B (zh) 2019-03-22

Similar Documents

Publication Publication Date Title
CN105426354B (zh) 一种句向量的融合方法和装置
Rudra et al. Extracting and summarizing situational information from the twitter social media during disasters
Huston et al. Evaluating verbose query processing techniques
CN105426356B (zh) 一种目标信息识别方法和装置
CN107544988B (zh) 一种获取舆情数据的方法和装置
Sharma et al. Polarity detection at sentence level
CN103744953A (zh) 一种基于中文文本情感识别的网络热点挖掘方法
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN104967558A (zh) 一种垃圾邮件的检测方法及装置
Shawon et al. Website classification using word based multiple n-gram models and random search oriented feature parameters
Manke et al. A review on: opinion mining and sentiment analysis based on natural language processing
Haque et al. Opinion mining from bangla and phonetic bangla reviews using vectorization methods
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN109753646B (zh) 一种文章属性识别方法以及电子设备
CN107665442B (zh) 获取目标用户的方法及装置
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
CN110019814B (zh) 一种基于数据挖掘与深度学习的新闻信息聚合方法
Saralegi et al. Cross-lingual projections vs. corpora extracted subjectivity lexicons for less-resourced languages
Basharat et al. Comparative study of verse similarity for multi-lingual representations of the qur’an
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
Mahajani et al. Ranking-based sentence retrieval for text summarization
CN113761125A (zh) 动态摘要确定方法和装置、计算设备以及计算机存储介质
Krols et al. Profiling Irony & Stereotype: Exploring Sentiment, Topic, and Lexical Features
Alruily et al. Extracting information of future events from Arabic newspapers: an overview

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190322

Termination date: 20191029