CN104933183B - 一种融合词向量模型和朴素贝叶斯的查询词改写方法 - Google Patents

一种融合词向量模型和朴素贝叶斯的查询词改写方法 Download PDF

Info

Publication number
CN104933183B
CN104933183B CN201510385259.7A CN201510385259A CN104933183B CN 104933183 B CN104933183 B CN 104933183B CN 201510385259 A CN201510385259 A CN 201510385259A CN 104933183 B CN104933183 B CN 104933183B
Authority
CN
China
Prior art keywords
word
query
inquiry
search
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510385259.7A
Other languages
English (en)
Other versions
CN104933183A (zh
Inventor
唐贤伦
周家林
刘安静
周冲
彭永嘉
朱俊
张毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Magica Electronics Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201510385259.7A priority Critical patent/CN104933183B/zh
Publication of CN104933183A publication Critical patent/CN104933183A/zh
Application granted granted Critical
Publication of CN104933183B publication Critical patent/CN104933183B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/2448Query languages for particular applications; for extensibility, e.g. user defined types

Abstract

本发明提出一种融合词向量模型和朴素贝叶斯查询改写方法,涉及信息处理技术,该方法利用word2vec训练出向量模型并计算出与查询词最相似的前N个词构成初步的相关词库,然后进行相关度计算和分析得到对查询改写词库的候选词进行过滤,保留相关度高的词语,这种方法可有效提高查询结果的准确度和召回度,有效的解决了搜索查询无结果或者返回有效结果少的难题。

Description

一种融合词向量模型和朴素贝叶斯的查询词改写方法
技术领域
本发明涉及一种计算机信息处理技术领域,尤其涉及一种数据挖掘技术中的查询词改写方法。
背景技术
词向量模型是运用神经网络,将位于高维离散空间(维数为词典中词的数目)中的每一个词映射成低维连续空间的实数向量的技术(即词嵌入)。在自然语言处理任务中,词嵌入提供了更好的语义级别的词分布式特征表示,从而为文本处理任务带来了诸多便利。词嵌入表示的目标在于学习到每个词的向量表示,并将这种向量表示用于不同的文本处理任务。学习到的词向量既可以作为完全的词特征输入到某些特定任务的有监督学习算法中,也可以作为依赖于不同任务所特定提取特征的有益扩充。为获取有效的词嵌入表示,目前所用的机器学习方法包括基于神经网络的方法、基于受限玻尔兹曼机的方法以及基于单词与上下文相关性的方法。其中在神经网络模型中,Word2vec(神经网络)模型计算简单,并且已在一些任务中取得了良好的效果从而得到广泛的关注和应用。Word2vec采取两种模型:CBOW模型和Skip-Gram模型,在本发明中,我们使用基于Hierarchical Softmax算法的Skip-Gram模型。
朴素贝叶斯(Native Byes)算法是最广泛运用的词分类模型之一,它基于贝叶斯定理对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
采用Hierarchical Softmax算法的Skip-Gram模型做查询改写,其改写词只是从语义相关性去计算,而没有考虑查询词与搜索召回结果的上下文之间的联系,且语义上真正相关的词并不多,需要大量的预料才能有效的挖掘出来;而基于朴素贝叶斯的查询改写方法,则是从查询词与搜索召回结果的上下文之间的共现概率来挖掘改写词,尽管考虑了上下文之间的联系,然而查询词与改写词之间的语义相关性却较弱。因而更高效的查询改写方法,既需要考虑查询词与改写词之间的语义相关性,也要考虑查询词与搜索召回结果的上下文联系。
发明内容
本发明针对现有技术存在的上述缺陷,提出一种融合词向量模型和朴素贝叶斯查询改写方法,在利用Word2vec训练出词向量模型后,再计算出与查询词最相似的前N个词作为查询改写的候选词,通过朴素贝叶斯算法,对候选词进行过滤,只保留搜索相关度高的词语作为查询扩展的词语,从而提高查询的精确度和召回度。
本发明解决上述技术问题的技术方案是:利用Hierarchical Softmax算法的Skip-Gram模型完成词向量模型的训练,并计算出查询改写的候选词形成查询改写词库,再使用朴素贝叶斯算法对该查询改写词库进行优化和过滤,留下“真正”相关的候选词,使查询词能够找到相关度高的改写词。其中的优化依据是用户搜索日志,搜索查询日志是众多用户使用搜索引擎时的搜索行为历史,对它的分析相当于使用大量的用户反馈,在研究词与词的相关性过程中更有实际意义。采用Word2vec中基于Hierarchical Softmax算法的Skip-Gram模型,根据输入词来预测上下文词语即找到输入查询词的上下文相关词或同义词。
具体技术方案具体为:一种融合词向量模型和朴素贝叶斯的查询词改写方法,包括以下步骤:根据用户输入的当前查询词w,以及当前查询词的上下文contest(w)获取语料库建立词向量模型,根据词向量模型计算查询词的相关词,进行相关词筛选构成查询改写候选词库;根据用户查询日志,得到用户查询词以及搜索最终页的标题和文本标识,计算查询改写候选词库中每个候选词与查询词的相关度,根据相关度设定标准阀值,过滤器根据标准阈值过滤掉相关性弱的词,选取相关度强的词语作为查询扩展词,根据查询扩展词进一步搜索。如当输入一个用户查询词时,概率系数大于标准阈值的词为查询词的改写词,概率系数小于阈值的词则被过滤掉。所述相关度为在查询词出现时查询改写候选词库中该候选词也出现的概率系数;根据相关度标准阀值,筛选出大于标准阀值的相关词,得到查询扩展词构建新的查询改写候选词库。获得查询扩展词后,搜索引擎根据输入的关键词对应的查询扩展词进行扩展搜索。即可在搜索引擎中输入关键词时,根据查询扩展词对关键词的查询进行扩展,这样不但能够扩大召回,而且可以克服只基于关键词搜索时所遇到的“信息迷向”、“信息过载”、“词不匹配”等一系列缺点。
本发明的其中一个实施例进一步包括所述词向量模型为,以对数似然函数L为目标函数,根据当前查询词w,当前词的上下文标记contest(w),调用公式:确定目标函数,其中p为条件概率。根据公式对查询词w的向量v(w)迭代更新,训练出查询词的更新向量v'(w),再根据余弦相似度计算出查询词的相关词,其中,α为学习率,lw为词w所在哈弗曼树中的层次,θj为词w在第j层的参数估计。再根据余弦相似度计算出查询词的相关词。
确定目标函数进一步包括:每个词对应哈弗曼树中的一个叶节点,将叶节点上的每个词映射为词向量,路径对应唯一一个哈弗曼编码,根据词w的哈弗曼编码词w的当前词向量v(w),词w所在哈弗曼树中的层次lw,所在路径中第j-1层节点对应的编码根据公式建立条件概率函数p(Context(w)|w)。
进行相关词筛选包括:根据搜索日志统计查询词出现的次数N(qi),在搜索最终页的标题和内容中,统计出搜索日志中该查询词的每一个相关词出现的次数N(sij),根据公式:计算当输入查询词qi时搜索日志中出现候选词sij的概率P(sij|qi);根据公式:计算在含有查询词qi及其查询扩展词的查询语句中,同时含有另一查询词qk的概率,获得在查询词qi与候选词sij共现在搜索日志中时所有查询词qk相乘的概率根据公式计算当输入查询语句Q时,将查询语句Q中的词qi改写为词sij的条件概率。
进行相关词筛选的过程包括:根据搜索日志统计查询词出现的次数N(qi),然后在搜索最终页的标题和内容中,统计搜索日志中该查询词的每一个相关词出现的次数N(sij),根据公式:计算在查询出现查询词qi的情况下,搜索召回中出现相关词sij的概率P(sij|qi),其中,qi为查询句子分词后的第i个查询词,sij为第i个查询词qi的第j个相关词。根据公式:计算在含有查询词qi及其查询扩展词sij的搜索日志中,同时含有另一查询词qk的概率。又因为Q={q1,...,qn},其中n为查询句子中词的个数,那么获得在含有查询词qi及其查询扩展词sij在搜索日志中共现的情况下,查询句子为Q的概率,即
根据贝叶斯公式:即可算出当输入查询语句Q时,将查询词qi改写为词sij的概率系数。根据阈值过滤掉概率系数小的,保留大于概率系数的查询词作为查询改写词。
在搜索引擎中,当输入搜索关键词时,同时将关键词对应的扩展词相关的索引文档,返回到搜索的召回结果中,并将扩展词的相关性系数,作为召回文档排序的一个指标。
本发明以神经网络(word2vec)输出的近义词作为候选词,再根据用户搜索日志等物理量作为训练语料,用朴素贝叶斯算法计算搜索词和它的候选词在搜索中的共现频率,根据频率系数设定阈值,过滤掉相关性弱的词语,选取相关度强的词语作为查询的扩展词语,将word2vec输出的查询扩展候选词进行评估和筛选以得到精确度更高的查询扩展词,使得对于输入查询词进行查询扩展,从而在保证搜索精确度的同时,扩大了搜索的召回度,有效的解决了搜索无结果或者搜索有效结果少的难题,大大改善用户的搜索体验。
附图说明
图1融合词向量模型和朴素贝叶斯的查询词改写方法流程图。
具体实施方法
下面结合附图对本发明进行进一步说明:
建立word2vec词向量模型后与朴素贝叶斯算法相结合,具体实现步骤如下:
步骤1:根据获取的语料库建立并训练word2vec词向量模型,并计算查询改写的候选词。
采用word2vec中基于Hierarchical Softmax算法的Skip-gram模型,由输入的用户查询词根据模型预测出查询词的上下文相关词,例如,我们对于每一个输入的查询词,可用word2vec求出它的50个相关词。如将查询词的相关词设为50个,这些相关词与输入的查询词的相关度有大有小,有的甚至不相关,进一步使用朴素贝叶斯算法进行相关词筛选。筛选的标准可设定。
word2vec是生成词向量的工具。本文使用基于Hierarchical Softmax算法的Skip-gram模型为例对查询方法作具体说明。Skip-gram模型是在已知当前词w的情况下,对其上下文Context(w)中的词进行预测,建立目标函数为:
条件概率函数p(Context(w)|w)为:
u为上下文中的词,采用Hierarchical Softmax算法,可得:
其中,w为当前词,contest(w)为当前词的上下文,此处的上下文也是词,c为所有词,j为哈弗曼树中层次的第j层,通常设定窗口的宽度为5,那么就要计算该词上文的两个词和下文的两个词,L为对数似然函数,为词w的哈弗曼编码,v(w)为词w的当前词向量,lw为词w所在哈弗曼树中的层次,为所在路径中第j-1层节点对应的编码。每个词对应一个叶节点,可以通过一条路径找到该词,路径对应唯一一个哈弗曼编码。初始化时将叶节点上的每个词映射为一维向量,即词向量。词向量通过训练进行迭代更新获得更新后的词向量,更新公式为:
其中α为学习率,θj为词w在第j层的参数估计。
通过迭代更新词向量,即可训练出词的向量模型。再根据余弦相似度计算出与查询词最相关的50个词,并给出相关系数。
步骤2:根据查询日志,获得某一搜索引擎的用户查询日志,得到用户查询词以及搜索最终页的标题和文本内容,作为相关词筛选的语料数据。
步骤3:根据用户查询日志计算查询改写词库中每个搜索词的候选词在搜索中的共现频率,即候选词与查询词的相关性系数,为相关词筛选做准备。
例如,可利用朴素贝叶斯算法计算共现频率。朴素贝叶斯算法的定义为:对给定待分类项x={a1,a2,a3…an}求解在此项出现的条件下各个类别yi出现的概率,哪个P(yi|x)大,就把此待分类项归属哪个类别。
由于判定各个类别时考虑的是概率的相对大小,P(x)是确定的,进而可以通过式(6)近似计算。
P(yi|x)∝P(x|yi)P(yi) (6)
本发明中,定义查询语句的查询词集合Q={q1,q2,...,qk},其中,第i个查询词qi的查询扩展候选词为sij,它们的对应关系为:
qi→Si={si1,si2,...,sin} (7)
其中qi为查询词集合中的第i个查询词,Si为该查询词对应的相关词集合,共n个,这里取n=50。
由贝叶斯公式可得:
(8)式即可求出,当输入查询Q时,将Q中的词qi改写为词sij的条件概率。
按(6)式可以推出:
P(qi→sij|Q)∝P(qi→sij)P(Q|qi→sij) (9)
假设查询词集合Q中有k个词,则(9)式推出:
其中,P(qk|qi→sij)表示在查询词qi与候选词sij共现在搜索日志中时含有查询词qk的概率。
至此可知,P(qi→sij|Q)的大小可以通过的大小来表示。在本方法中,为了使运算简便,我们对其取对数进行运算。
P(qi→sij|Q)的计算过程包括:
(1)计算P(sij|qi),即当输入搜索词qi时,搜索日志中出现候选词sij的概率。根据用户搜索日志,统计查询词出现的次数N(qi),在搜索最终页的标题和内容中,统计出搜索日志中该查询词的每一个相关词出现的次数N(sij),则对其取对数。
(2)计算P(qk|qi→sij),即在查询词qi与候选词sij共现在搜索日志中时含有查询词qk的概率。在含有查询词qi及其查询扩展词的查询语句中,同时含有另一查询词qk的概率:
进而可求出:
朴素贝叶斯算法的特征在于,它基于贝叶斯定理,假设向量的所有分量之间是独立的,在本发明中,将用户搜索日志作为该算法中概率计算的基础,在计算候选词与查询词同时出现的概率时使用出现次数之比来表示,使得算法逻辑简单,易于实现。将概率的乘积运算通过取对数转化为计算机更为擅长的加法运算,使得本发明整个算法能够被计算机较为快速准确地运行,从而提高工作效率。
步骤4:设定一个相关度标准阀值,将低于该标准的相关词剔除出查询改写词库,在标准范围内的相关词留下形成最终的查询改写词。根据实验统计分析,最优可在满足80%的搜索词的改写词数大于2个,且相关性较强的原则来设定阈值。
另外,可以延生出一种新的既考虑改写词的语义信息也考虑改写词的上下文环境的查询改写方法。其原理简述如下:
同样,先建立查询词的向量模型。当输入查询语句Q={q1,q2,...,qk}时,计算查询语句的向量v(Q):
v(Q)=(v(q1)+v(q2)+...+v(qk))/k (13)
同样,按上文所述,根据词向量模型,按余弦相似度计算查询词qi的改写词候选集Si={si1,si2,...,sin}。为了对候选集合中的改写词进行筛选,计算将查询词qi改写为sij,从而新形成的查询语句的查询语句向量vnew(Q):
vnew(Qnew)=v(Q)-v(qi)/k+v(sij)/k (14)
计根据公式(15)计算两个句子的余弦相似度:
λ=cos<v(Q),vnew(Qnew)> (15)
其中λ为相关性系数,假如设定阈值为0.75,当λ≥0.75时,词sij则可以作为qi的改写词,当λ<0.75时,词sij被从候选集合中过滤掉。
以上结合附图对本发明的具体实施方式作了说明,但这些说明不能被理解为限制了本发明的范围,本发明的保护范围由随附的权利要求书限定,任何在本发明权利要求基础上的改动都是本发明的保护范围。

Claims (4)

1.一种融合词向量模型和朴素贝叶斯的查询词改写方法,其特征在于,包括以下步骤:根据用户输入的当前查询词w,以及当前查询词的上下文标记contest(w),获取语料库建立词向量模型,根据词向量模型计算查询词的相关词,进行相关词筛选构成查询改写候选词库;根据用户查询日志,得到用户查询词以及搜索最终页的标题和文本标识,计算查询改写候选词库中每个候选词与查询词的相关度,根据相关度设定标准阀值,过滤器根据标准阈值过滤掉相关性弱的词,选取相关度强的词作为查询扩展词,搜索引擎根据输入的关键词对应的查询扩展词进一步搜索;
进行相关词筛选包括:根据搜索日志统计查询词出现的次数N(qi),在搜索最终页的标题和内容中,统计搜索日志中该查询词的每一个相关词出现的次数N(sij),根据公式:计算当输入查询词qi时搜索日志中出现候选词sij的概率P(sij|qi);根据公式:计算在含有查询词qi及其查询扩展词的查询语句中,同时含有另一查询词qk的概率;根据公式计算当输入查询语句Q时,将查询语句Q中的查询词qi改写为词sij的条件概率。
2.根据权利要求1所述的方法,其特征在于,所述词向量模型为,以对数似然函数L为目标函数,根据当前查询词w,当前词的上下文标记contest(w),调用公式:确定目标函数对其上下文中的词进行预测,根据公式对查询词w的向量v(w)迭代更新,训练出查询词的更新词向量v‘(w),再根据余弦相似度计算出查询词的相关词,其中,α为学习率,lw为查询词w所在哈弗曼树中的层次,θj为词w在第j层的参数估计,c为所有词。
3.根据权利要求1所述的方法,其特征在于,所述相关度为在查询词出现时查询改写候选词库中该候选词也出现的概率系数;根据相关度标准阀值,筛选出大于标准阀值的相关词,得到查询扩展词构建新的查询改写候选词库。
4.根据权利要求2所述的方法,其特征在于,确定目标函数进一步包括:每个词对应哈弗曼树中的一个叶节点,将叶节点上的每个词映射为词向量,路径对应唯一一个哈弗曼编码,根据词w的哈弗曼编码词w的当前词向量v(w),词w所在哈弗曼树中的层次lw,所在路径中第j-1层节点对应的编码根据公式建立条件概率函数p(Context(w)|w),u为上下文中的词,j为第j层。
CN201510385259.7A 2015-07-03 2015-07-03 一种融合词向量模型和朴素贝叶斯的查询词改写方法 Active CN104933183B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510385259.7A CN104933183B (zh) 2015-07-03 2015-07-03 一种融合词向量模型和朴素贝叶斯的查询词改写方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510385259.7A CN104933183B (zh) 2015-07-03 2015-07-03 一种融合词向量模型和朴素贝叶斯的查询词改写方法

Publications (2)

Publication Number Publication Date
CN104933183A CN104933183A (zh) 2015-09-23
CN104933183B true CN104933183B (zh) 2018-02-06

Family

ID=54120350

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510385259.7A Active CN104933183B (zh) 2015-07-03 2015-07-03 一种融合词向量模型和朴素贝叶斯的查询词改写方法

Country Status (1)

Country Link
CN (1) CN104933183B (zh)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106610972A (zh) * 2015-10-21 2017-05-03 阿里巴巴集团控股有限公司 查询改写方法及装置
CN105426354B (zh) * 2015-10-29 2019-03-22 杭州九言科技股份有限公司 一种句向量的融合方法和装置
CN105389379B (zh) * 2015-11-20 2018-12-04 重庆邮电大学 一种基于文本分布式特征表示的垃圾稿件分类方法
CN105512687A (zh) * 2015-12-15 2016-04-20 北京锐安科技有限公司 训练情感分类模型和文本情感极性分析的方法及系统
CN105468780B (zh) * 2015-12-18 2019-01-29 北京理工大学 一种微博文本中产品名实体的规范化方法及装置
CN105631009A (zh) * 2015-12-25 2016-06-01 广州视源电子科技股份有限公司 基于词向量相似度的检索方法和系统
CN105677769B (zh) * 2015-12-29 2018-01-05 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN107102981B (zh) * 2016-02-19 2020-06-23 腾讯科技(深圳)有限公司 词向量生成方法和装置
CN105786782B (zh) * 2016-03-25 2018-10-19 北京搜狗信息服务有限公司 一种词向量的训练方法和装置
CN107291783B (zh) * 2016-04-12 2021-04-30 芋头科技(杭州)有限公司 一种语义匹配方法及智能设备
CN105955988B (zh) * 2016-04-19 2020-05-08 百度在线网络技术(北京)有限公司 信息搜索方法和装置
CN107436875B (zh) * 2016-05-25 2020-12-04 华为技术有限公司 文本分类方法及装置
CN106095912B (zh) * 2016-06-08 2020-12-08 北京百度网讯科技有限公司 用于生成扩展查询词的方法和装置
CN107491447B (zh) * 2016-06-12 2021-01-22 百度在线网络技术(北京)有限公司 建立查询改写判别模型、查询改写判别的方法和对应装置
CN106294688A (zh) * 2016-08-05 2017-01-04 浪潮软件集团有限公司 一种基于用户特征分析的查询扩展方法、装置和系统
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备
CN107784014A (zh) * 2016-08-30 2018-03-09 广州市动景计算机科技有限公司 信息搜索方法、设备及电子设备
CN106557563B (zh) * 2016-11-15 2020-09-25 北京百度网讯科技有限公司 基于人工智能的查询语句推荐方法及装置
CN108304417B (zh) * 2017-01-13 2021-09-17 北京京东尚科信息技术有限公司 信息处理方法和信息处理装置
CN108304366B (zh) * 2017-03-21 2020-04-03 腾讯科技(深圳)有限公司 一种上位词检测方法及设备
CN107168943B (zh) 2017-04-07 2018-07-03 平安科技(深圳)有限公司 话题预警的方法和装置
CN107180026B (zh) * 2017-05-02 2020-12-29 苏州大学 一种基于词嵌入语义映射的事件短语学习方法及装置
CN107357776B (zh) * 2017-06-16 2020-09-25 北京奇艺世纪科技有限公司 一种相关词挖掘方法及装置
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及系统
CN107562727B (zh) * 2017-09-12 2020-10-23 云南大学 一种基于贝叶斯网的短文本特征扩展方法
CN107766337A (zh) * 2017-09-25 2018-03-06 沈阳航空航天大学 基于深度语义关联的译文预测方法
CN110019474B (zh) * 2017-12-19 2022-03-04 北京金山云网络技术有限公司 异构数据库中的同义数据自动关联方法、装置及电子设备
CN108710607B (zh) * 2018-04-17 2022-04-19 达而观信息科技(上海)有限公司 文本改写方法及装置
CN108664637B (zh) * 2018-05-15 2021-10-08 惠龙易通国际物流股份有限公司 一种检索方法及系统
CN109255126A (zh) * 2018-09-10 2019-01-22 百度在线网络技术(北京)有限公司 文章推荐方法及装置
CN110909217A (zh) * 2018-09-12 2020-03-24 北京奇虎科技有限公司 搜索的实现方法、装置、电子设备和存储介质
CN109189915B (zh) * 2018-09-17 2021-10-15 重庆理工大学 一种基于深度相关匹配模型的信息检索方法
CN110990578A (zh) * 2018-09-30 2020-04-10 北京奇虎科技有限公司 一种改写模型的构建方法及装置
CN110162770B (zh) * 2018-10-22 2023-07-21 腾讯科技(深圳)有限公司 一种词扩展方法、装置、设备及介质
CN109918579B (zh) * 2019-01-29 2021-07-09 中国人民解放军战略支援部队信息工程大学 基于语义特性提取位置指示词的位置推断方法
CN110175234B (zh) * 2019-04-08 2022-02-25 北京百度网讯科技有限公司 未登录词识别方法、装置、计算机设备及存储介质
CN110275942A (zh) * 2019-06-26 2019-09-24 上海交通大学 一种电子凭据安全事件融合分析方法
CN110516145B (zh) * 2019-07-10 2020-05-01 中国人民解放军国防科技大学 一种基于句向量编码的信息搜索方法
CN110851584B (zh) * 2019-11-13 2023-12-15 成都华律网络服务有限公司 一种法律条文精准推荐系统和方法
CN110909789A (zh) * 2019-11-20 2020-03-24 精硕科技(北京)股份有限公司 声量预测方法和装置、电子设备及存储介质
CN111291611A (zh) * 2019-12-20 2020-06-16 长沙千视通智能科技有限公司 一种基于贝叶斯查询扩展的行人重识别方法及装置
CN111428119A (zh) * 2020-02-18 2020-07-17 北京三快在线科技有限公司 查询改写方法、装置、电子设备
CN113705227B (zh) * 2020-05-21 2023-04-25 中国科学院上海高等研究院 中文无分词词嵌入模型的构建方法、系统、介质及设备
CN112988953B (zh) * 2021-04-26 2021-09-03 成都索贝数码科技股份有限公司 自适应广播电视新闻关键词标准化方法
CN113239689B (zh) * 2021-07-07 2021-10-08 北京语言大学 面向易混淆词考察的选择题干扰项自动生成方法及装置
CN115101164A (zh) * 2022-06-24 2022-09-23 杭州华卓信息科技有限公司 一种药物推荐方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN103577416A (zh) * 2012-07-20 2014-02-12 阿里巴巴集团控股有限公司 扩展查询方法及系统
CN103870505A (zh) * 2012-12-17 2014-06-18 阿里巴巴集团控股有限公司 一种查询词推荐方法和查询词推荐系统
CN104021302A (zh) * 2014-06-18 2014-09-03 北京邮电大学 一种基于贝叶斯文本分类模型的辅助挂号方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241512A (zh) * 2008-03-10 2008-08-13 北京搜狗科技发展有限公司 一种重新定义查询词的搜索方法及装置
CN102682001A (zh) * 2011-03-09 2012-09-19 阿里巴巴集团控股有限公司 一种确定推荐词的方法及设备
CN103577416A (zh) * 2012-07-20 2014-02-12 阿里巴巴集团控股有限公司 扩展查询方法及系统
CN103870505A (zh) * 2012-12-17 2014-06-18 阿里巴巴集团控股有限公司 一种查询词推荐方法和查询词推荐系统
CN104021302A (zh) * 2014-06-18 2014-09-03 北京邮电大学 一种基于贝叶斯文本分类模型的辅助挂号方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"一种面向聚类的文本建模方法";唐晓丽等;《山西大学学报(自然科学版)》;20141115;第37卷(第4期);第595-600页 *
"利用word2vec 对中文词进行聚类的研究";郑文超等;《软件》;20131231;第34卷(第12期);第160-162页 *

Also Published As

Publication number Publication date
CN104933183A (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
CN104933183B (zh) 一种融合词向量模型和朴素贝叶斯的查询词改写方法
CN107704892B (zh) 一种基于贝叶斯模型的商品编码分类方法以及系统
CN110750640B (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN109933670B (zh) 一种基于组合矩阵计算语义距离的文本分类方法
CN104268197B (zh) 一种行业评论数据细粒度情感分析方法
CN104050556B (zh) 一种垃圾邮件的特征选择方法及其检测方法
CN103544242A (zh) 面向微博的情感实体搜索系统
CN111291188B (zh) 一种智能信息抽取方法及系统
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN102298588A (zh) 从非结构化文档中抽取对象的方法和装置
CN110442720A (zh) 一种基于lstm卷积神经网络的多标签文本分类方法
CN111339249B (zh) 一种联合多角度特征的深度智能文本匹配方法和装置
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN104679738A (zh) 互联网热词挖掘方法及装置
CN111695358B (zh) 生成词向量的方法、装置、计算机存储介质和电子设备
CN114218389A (zh) 一种基于图神经网络的化工制备领域长文本分类方法
CN112199508A (zh) 一种基于远程监督的参数自适应农业知识图谱推荐方法
CN111190968A (zh) 基于知识图谱的数据预处理和内容推荐方法
CN111651594B (zh) 基于键值记忆网络的案件案由分类方法及介质
CN111061876B (zh) 事件舆情数据分析方法及装置
CN113343690A (zh) 一种文本可读性自动评估方法及装置
CN109299286A (zh) 非结构化数据的知识挖掘方法及系统
Yi-bin et al. Improvement of ID3 algorithm based on simplified information entropy and coordination degree
Sendhilkumar Developing a conceptual framework for short text categorization using hybrid CNN-LSTM based Caledonian crow optimization
CN108596205B (zh) 基于地域相关因子与稀疏表示的微博转发行为预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20181205

Address after: 402260 No. 401 Fuyun Avenue, Shuangfu Street, Jiangjin District, Chongqing, with No. 3, 9-2

Patentee after: Chongqing Jiuteng Network Technology Co.,Ltd.

Address before: 400065 No. 2 Chongwen Road, Huang Jue ya, Nan'an District, Chongqing

Patentee before: Chongqing University of Posts and Telecommunications

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210809

Address after: 401320 10-16, building 1, No. 305, Yunan Avenue, Banan District, Chongqing

Patentee after: Yurong Chuangyuan (Chongqing) Information Technology Co.,Ltd.

Address before: 402260 No. 401 Fuyun Avenue, Shuangfu Street, Jiangjin District, Chongqing, with No. 3, 9-2

Patentee before: Chongqing Jiuteng Network Technology Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230707

Address after: Building 5, No. 8 Gangcheng East Road, Jiangbei District, Chongqing, 400000

Patentee after: Chongqing Magica Electronics Co.,Ltd.

Address before: 401320 10-16, building 1, No. 305, Yunan Avenue, Banan District, Chongqing

Patentee before: Yurong Chuangyuan (Chongqing) Information Technology Co.,Ltd.

TR01 Transfer of patent right