CN104778161A - 基于Word2Vec和Query log抽取关键词方法 - Google Patents
基于Word2Vec和Query log抽取关键词方法 Download PDFInfo
- Publication number
- CN104778161A CN104778161A CN201510219784.1A CN201510219784A CN104778161A CN 104778161 A CN104778161 A CN 104778161A CN 201510219784 A CN201510219784 A CN 201510219784A CN 104778161 A CN104778161 A CN 104778161A
- Authority
- CN
- China
- Prior art keywords
- document
- obtains
- keywords
- candidate keywords
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Word2Vec和Query log抽取关键词方法,涉及信息处理领域。该方法包括:S1,构建目标领域的特定词表;S2,获取文档集合中每个文档的候选关键词;S3,获取每个所述候选关键词的若干维的词向量;S4,计算任意一个候选关键词L的词向量与所述中心向量的余弦相似度,判断候选关键词L是否出现在特定词表中,如果出现,则直接进入S5;如果不出现,则进入S6;S5,将得到余弦相似度乘以加权因子i,获得新余弦相似度,进入S6;S6,将余弦相似度的数值从大到小顺序排序,从余弦相似度数值最大开始输出m个余弦相似度的数值,即得最终关键词。本发明可针对特定领域文本迅速高效地提取出质量较为理想的关键词,避免引入口语化词汇且提取出的关键词质量高。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种基于Word2Vec和Query log抽取关键词方法。
背景技术
通过文档关键词,人们可以迅速地了解文本内容,把握文档主题。关键词广泛应用于新闻报道、科技论文等领域,以方便人们高效地管理和检索文档。除了帮助人们快速筛选感兴趣的内容之外,文档关键词还可以用于搜索结果排序、文本摘要、文档分类、文档聚类、用户建模等上层应用领域。
传统的关键词抽取方法分为两种,分别为无监督方法和有监督方法。其中无监督方法包括TFIDF、Chi-squared、Text Rank、LDA等方法,而有监督方法将关键词抽取问题转换为判断每个词是否为关键词的二分类问题,在之前曾有人通过Naive Bayes和决策树C4.5等有监督方法进行关键词抽取。无监督方法和有监督方法各有其优势和劣势:无监督方法不需要人工标注训练集合,因此更加快捷,但由于无法综合利用多种信息对候选词排序,所以效果上可能不如有监督方法;而有监督方法可以通过训练学习调节多种信息对于判断关键词的影响程度,因此效果更好,但是在现今的数据时代,标注训练集合非常耗时耗力。
现有TFIDF是一种用于信息检索和文本挖掘的常用加权技术。TFIDF是一种统计方法,用以评估一个字词对于文档集合中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在文档集合中出现的频率成反比下降。TFIDF的主要思想是:如果某个词或短语在一份文件中出现的频率TF高,并且在其他文章中很少出现(IDF值很大),则认为这个词或者短语具有很好的类别区分能力,那么我们就给予在此文档中的这个词或者短语一个较大的权重,代表这个词或者短语对此文档内容的表征能力。 利用TFIDF可以进行关键词抽取工作,对文档中每个不同的词计算其TFIDF值,并且按照数值从大到小的顺序进行排序,从而选取排名靠前的若干个词作为此篇文档的关键词。
但是在实际工作中,一般用TFIDF作为baseline。在特定领域的关键词抽取工作中,因为大量口语化词汇在文档及文档集合中的分布与特定领域词汇极为相似以及TFIDF算法本身基于统计的局限性,所以按照TFIDF算法抽取出来的关键词会含有大量口语化词汇和不是那么重要的词汇,从而导致关键词抽取的效果不佳。
受到PageRank算法在IR领域中的广泛应用和巨大成功的启发,Mihalcea和Tarau提出了一种与PageRank类似基于图排序的算法TextRank,用于进行关键词抽取。TextRank的算法思想是构建一个网络,网络中的顶点代表文本中不同的词,边代表共现的词之间的链接。两个词之间相隔的词的个数如果在事先规定的范围之内,那么TextRank就认为这两个词满足共现关系。网络中的边具有权重,利用PageRank算法对其进行赋值。与PageRank算法类似,TextRank认为一个词的重要程度由链向它的其他词的重要程度来决定,利用PageRank算法迭代地计算网络中每个词的重要程度,然后根据词的PageRank值进行排序,从而选取排名靠前的若干个词作为此篇文档的关键词。
但是TextRank关键词提取算法需要迭代计算每个词的PageRank值,通常迭代次数在20到30次之间。因为计算复杂度较高,所以这种算法很少使用在大规模文本关键词抽取工作中。
综上,传统的关键词抽取方法存在关键词抽取的效果不佳、关键词抽取效率低和适用范围受限的问题。
发明内容
本发明的目的在于提供一种基于Word2Vec和Query log抽取关键词方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明所述基于Word2Vec和Query log抽取关键词方 法,该方法包括以下步骤:
S1,利用query log数据,构建目标领域的特定词表;
S2,在文档集合和特定词表的基础上,获取文档集合中每个文档的候选关键词;
S3,训练得到目标领域的Word2Vec模型,将每个文档中的候选关键词代入所述模型,得到每个所述候选关键词的若干维的词向量;
S4,计算任意一个文档A中任意一个候选关键词L对应的词向量与所述文档A的中心向量的余弦相似度,判断候选关键词L是否出现在特定词表中,如果出现,则直接进入S5;如果不出现,则进入S6;
S5,将所述候选关键词L的余弦相似度乘以加权因子i,得到新余弦相似度,进入S6;
S6,将得到的余弦相似度的数值按照从大到小的顺序排序,然后按照预先设定的关键词数量m,从所述排序中余弦相似度数值最大开始输出m个余弦相似度的数值,m个余弦相似度的数值所对应的候选关键词即为最终关键词。
优选地,步骤S1,具体按照下述步骤实现:
A1,获取p天共q条用户在目标领域的查询记录;所述p大于等于50,所述q大于等于10000;
A2,将所述q条查询记录进行分组,并统计每查询记录组出现的次数,去除出现次数小于阈值A的查询记录组,得到目标查询记录组;
A3,对目标查询记录组中的查询记录进行分词,统计任意一个查询词在所有目标查询记录组中重复出现的次数,去除出现次数小于阈值B的查询词,得到热门搜索词;
A4,将所述热门搜索词与已有所述目标领域的词进行合并去重,得到目标领域的特定词表。
优选地,步骤S2中,所述文本是字节长度大于等于字节长度阈值C。
更优选地,步骤S2,具体按照下述步骤实现:
B1,获取目标领域的文档集合,从中筛选并获得字节长度大于等于字节长度阈值C的文本;
B2,采用TF-IDF算法提取候选关键词,在此过程中,对出现在所述文本的Title或目标领域的特定词表的词进行加权,得到每个词出现的次数;
步骤B2中,所述Title中词的加权因子为x,所述目标领域的特定词表中词的加权因子为y;
B3,去除出现次数小于0.00003×j的词,最终得到每个文档的候选关键词;所述j表示文本总数。
更优选地,在步骤B2中还存在以下步骤:利用停用词表去除文本中存在的停用词。
优选地,步骤S3,具体按照下述步骤实现:
C1,对所述文档集合中的每个文档进行分词;
C2,利用分词后的文档训练Word2Vec模型,得到所述目标领域的Word2Vec模型;
C3,将每个文档中每个所述候选关键词代入所述目标领域的Word2Vec模型,得到每个文档中所述候选关键词的若干维的词向量。
更优选地,步骤C3中,所述每个所述候选关键词的词向量维数预先设定。
优选地,步骤S4,具体按照下述步骤实现:
D1,获取任意一个文档A中候选关键词的总数a;
D2,将文档A中所有候选关键词的词向量相加,得到b;
D3,将b除以a,得到所述文档A的中心向量c;
D4,计算文档A每个所述候选关键词的词向量与文档A的中心向量的余弦相似度d;
D5,候选关键词L是否出现在特定词表中,如果出现,则直接进入S5;如果不出现,则进入S6。
本发明的有益效果是:
本发明所述方法,可以针对特定领域文本迅速高效地提取出质量较为理想的关键词,避免引入口语化词汇。且在不需要人工标注关键词训练模型和对文本进行词性标记的前提下,不仅可以迅速高效地抽取出质量较为理想、可以满足业务需求的特定领域关键词,而且可以方便快捷地被移植到其他特定领域。
通过本发明提取出的关键词质量高,这些关键词不仅可以通过精炼冗长query或者辅助建立索引的方式提升搜索效果,而且还可以用于文本标记、文本分类、文本聚类、用户建模、广告投放等多种上层应用领域。
附图说明
图1是实施例中所述基于Word2Vec和Query log抽取关键词方法的结构流程示意图;
图2是实施例中步骤S1的流程示意图;
图3是实施例中步骤S2的流程示意图;
图4是实施例中步骤S3的流程示意图;
图5是实施例中步骤S4的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不用于限定本发明。
实施例
参照图1,本实施例中所述基于Word2Vec和Query log抽取关键词方法,该方法包括以下步骤:
S1,利用query log数据,构建目标领域的特定词表;
S2,在文档集合和特定词表的基础上,获取文档集合中每个文档的候选关键词;
S3,训练得到目标领域的Word2Vec模型,将每个文档中的候选关键词代入所述模型,得到每个所述候选关键词的若干维的词向量;
S4,计算任意一个文档A中任意一个候选关键词L对应的词向量与所述文档A的中心向量的余弦相似度,判断候选关键词L是否出现在特定词表中,如果出现,则直接进入S5;如果不出现,则进入S6;
S5,将所述候选关键词L的余弦相似度乘以加权因子i,得到新余弦相似度,进入S6;在本实施例中设定加权因子i=100;
S6,将得到的余弦相似度的数值按照从大到小的顺序排序,然后按照预先设定的关键词数量m=10,从所述排序中余弦相似度数值最大开始输出10个余弦相似度的数值,10个余弦相似度的数值所对应的候选关键词即为最终关键词。
参照图2,在本实施例中,步骤S1,具体按照下述步骤实现:
A1,获取88天共21342445条用户在目标领域的查询记录;
A2,将所述21342445条查询记录进行分组,并统计每查询记录组出现的次数,去除出现次数小于阈值500的查询记录组,得到目标查询记录组;
A3,对目标查询记录组中的查询记录进行分词,统计任意一个查询词在所有目标查询记录组中重复出现的次数,去除出现次数小于阈值800的查询词,得到热门搜索词;
A4,将所述热门搜索词与已有所述目标领域的词进行合并去重,得到目标领域的特定词表。
参照图3,在本实施例中,步骤S2中,所述文本是字节长度大于等于字节长度阈值560个字节,步骤S2,具体按照下述步骤实现:
B1,获取目标领域的文档集合,从中筛选并获得字节长度大于等于字节长度阈值560个字节的文本;
B2,采用TF-IDF算法提取候选关键词,在此过程中,对出现在所述文本的Title或目标领域的特定词表的词进行加权,得到每个词出现的次数;
步骤B2中,所述Title中词的加权因子为2.5,所述目标领域的特定词表中词的加权因子为5.0;
B3,去除出现次数小于0.00003×j的词,最终得到每个文档的20个候选关键词,所述j表示文本总数。
其中,在步骤B2中还存在以下步骤:利用停用词表去除文本中存在的停用词。
参照图4,在本实施例中,步骤S3,具体按照下述步骤实现:
C1,对所述文档集合中的每个文档进行分词;
C2,利用分词后的文档训练Word2Vec模型,得到所述目标领域的Word2Vec模型;
C3,将每个文档中每个所述候选关键词代入所述目标领域的Word2Vec模型,得到每个文档中所述候选关键词的若干维的词向量;其中,所述每个所述候选关键词的词向量维数预先设定,在本实施例中设定为300维。
参照图5,在本实施例中,步骤S4,具体按照下述步骤实现:
D1,获取任意一个文档A中候选关键词的总数a;
D2,将文档A中所有候选关键词的词向量相加,得到b;
D3,将b除以a,得到所述文档A的中心向量c;
D4,计算文档A每个所述候选关键词的词向量与文档A的中心向量的余弦相似度d;
其中,步骤D4中,所述余弦相似度R是按照下述公式计算:
其中,wti表示任意一个文档中候选关键词的词向量,i=0,1,2……n;wci表示任意一个文档的中心向量,i=0,1,2……n;
D5,候选关键词L是否出现在特定词表中,如果出现,则直接进入S5;如果不出现,则进入S6。
通过采用本发明公开的上述技术方案,得到了如下有益的效果:
本发明所述方法,可以针对特定领域文本迅速高效地提取出质量较为理想的关键词,避免引入口语化词汇。且在不需要人工标注关键词训练模型和对文本进行词性标记的前提下,不仅可以迅速高效地抽取出质量较为理想、可以满足业务需求的特定领域关键词,而且可以方便快捷地被移植到其他特定领域。
通过本发明提取出的关键词质量高,这些关键词不仅可以通过精炼冗长query或者辅助建立索引的方式提升搜索效果,而且还可以用于文本标记、文本分类、文本聚类、用户建模、广告投放等多种上层应用领域。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
Claims (8)
1.一种基于Word2Vec和Query log抽取关键词方法,其特征在于,该方法包括以下步骤:
S1,利用query log数据,构建目标领域的特定词表;
S2,在文档集合和特定词表的基础上,获取文档集合中每个文档的候选关键词;
S3,训练得到目标领域的Word2Vec模型,将每个文档中的候选关键词代入所述模型,得到每个所述候选关键词的若干维的词向量;
S4,计算任意一个文档A中任意一个候选关键词L对应的词向量与所述文档A的中心向量的余弦相似度,判断候选关键词L是否出现在特定词表中,如果出现,则直接进入S5;如果不出现,则进入S6;
S5,将所述候选关键词L的余弦相似度乘以加权因子i,得到新余弦相似度,进入S6;
S6,将得到的余弦相似度的数值按照从大到小的顺序排序,然后按照预先设定的关键词数量m,从所述排序中余弦相似度数值最大开始输出m个余弦相似度的数值,m个余弦相似度的数值所对应的候选关键词即为最终关键词。
2.根据权利要求1所述抽取关键词方法,其特征在于,步骤S1,具体按照下述步骤实现:
A1,获取p天共q条用户在目标领域的查询记录;所述p大于等于50,所述q大于等于10000;
A2,将所述q条查询记录进行分组,并统计每查询记录组出现的次数,去除出现次数小于阈值A的查询记录组,得到目标查询记录组;
A3,对目标查询记录组中的查询记录进行分词,统计任意一个查询词在所有目标查询记录组中重复出现的次数,去除出现次数小于阈值B的查询词,得到热门搜索词;
A4,将所述热门搜索词与已有所述目标领域的词进行合并去重,得到目标领域的特定词表。
3.根据权利要求1所述抽取关键词方法,其特征在于,步骤S2中,所述文本是字节长度大于等于字节长度阈值C。
4.根据权利要求书3所述抽取关键词方法,其特征在于,步骤S2,具体按照下述步骤实现:
B1,获取目标领域的文档集合,从中筛选并获得字节长度大于等于字节长度阈值C的文本;
B2,采用TF-IDF算法提取候选关键词,在此过程中,对出现在所述文本的Title或目标领域的特定词表的词进行加权,得到每个词出现的次数;
步骤B2中,所述Title中词的加权因子为x,所述目标领域的特定词表中词的加权因子为y;
B3,去除出现次数小于0.00003×j的词,最终得到每个文档的候选关键词;所述j表示文本总数。
5.根据权利要求书4所述抽取关键词方法,其特征在于,在步骤B2中还存在以下步骤:利用停用词表去除文本中存在的停用词。
6.根据权利要求书1所述抽取关键词方法,其特征在于,步骤S3,具体按照下述步骤实现:
C1,对所述文档集合中的每个文档进行分词;
C2,利用分词后的文档训练Word2Vec模型,得到所述目标领域的Word2Vec模型;
C3,将每个文档中每个所述候选关键词代入所述目标领域的Word2Vec模型,得到每个文档中所述候选关键词的若干维的词向量。
7.根据权利要求书6所述抽取关键词方法,其特征在于,步骤C3中,所述每个所述候选关键词的词向量维数预先设定。
8.根据权利要求书1所述抽取关键词方法,其特征在于,步骤S4,具体按照下述步骤实现:
D1,获取任意一个文档A中候选关键词的总数a;
D2,将文档A中所有候选关键词的词向量相加,得到b;
D3,将b除以a,得到所述文档A的中心向量c;
D4,计算文档A每个所述候选关键词的词向量与文档A的中心向量的余弦相似度d;
D5,候选关键词L是否出现在特定词表中,如果出现,则直接进入S5;如果不出现,则进入S6。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510219784.1A CN104778161B (zh) | 2015-04-30 | 2015-04-30 | 基于Word2Vec和Query log抽取关键词方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510219784.1A CN104778161B (zh) | 2015-04-30 | 2015-04-30 | 基于Word2Vec和Query log抽取关键词方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104778161A true CN104778161A (zh) | 2015-07-15 |
CN104778161B CN104778161B (zh) | 2017-07-07 |
Family
ID=53619635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510219784.1A Active CN104778161B (zh) | 2015-04-30 | 2015-04-30 | 基于Word2Vec和Query log抽取关键词方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104778161B (zh) |
Cited By (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631009A (zh) * | 2015-12-25 | 2016-06-01 | 广州视源电子科技股份有限公司 | 基于词向量相似度的检索方法和系统 |
CN105718585A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 文档与标签词语义关联方法及其装置 |
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
CN105912524A (zh) * | 2016-04-09 | 2016-08-31 | 北京交通大学 | 基于低秩矩阵分解的文章话题关键词提取方法和装置 |
CN105930358A (zh) * | 2016-04-08 | 2016-09-07 | 南方电网科学研究院有限责任公司 | 基于关联度的案例检索方法及其系统 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106571139A (zh) * | 2016-11-09 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索结果处理方法及装置 |
CN106951422A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 网页训练的方法和装置、搜索意图识别的方法和装置 |
WO2017157090A1 (zh) * | 2016-03-15 | 2017-09-21 | 北京京东尚科信息技术有限公司 | 相似度挖掘方法及装置 |
CN107436875A (zh) * | 2016-05-25 | 2017-12-05 | 华为技术有限公司 | 文本分类方法及装置 |
CN107463705A (zh) * | 2017-08-17 | 2017-12-12 | 陕西优百信息技术有限公司 | 一种数据清洗方法 |
CN107577671A (zh) * | 2017-09-19 | 2018-01-12 | 中央民族大学 | 一种基于多特征融合的主题词提取方法 |
CN107798091A (zh) * | 2017-10-23 | 2018-03-13 | 金蝶软件(中国)有限公司 | 一种数据爬取的方法及其相关设备 |
CN107977676A (zh) * | 2017-11-24 | 2018-05-01 | 北京神州泰岳软件股份有限公司 | 文本相似度计算方法及装置 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108241613A (zh) * | 2018-01-03 | 2018-07-03 | 新华智云科技有限公司 | 一种提取关键词的方法及设备 |
CN108491462A (zh) * | 2018-03-05 | 2018-09-04 | 昆明理工大学 | 一种基于word2vec的语义查询扩展方法及装置 |
CN109215797A (zh) * | 2018-09-05 | 2019-01-15 | 山东管理学院 | 基于扩展关联规则的中医医案非分类关系抽取方法及系统 |
CN109325126A (zh) * | 2018-10-31 | 2019-02-12 | 中国电子科技集团公司电子科学研究院 | 语言文本的对象化处理方法、装置及计算机存储介质 |
WO2019041521A1 (zh) * | 2017-08-29 | 2019-03-07 | 平安科技(深圳)有限公司 | 用户关键词提取装置、方法及计算机可读存储介质 |
CN109670035A (zh) * | 2018-12-03 | 2019-04-23 | 科大讯飞股份有限公司 | 一种文本摘要生成方法 |
WO2019076191A1 (zh) * | 2017-10-20 | 2019-04-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
WO2019103224A1 (ko) * | 2017-11-22 | 2019-05-31 | (주)와이즈넛 | 문서 내 핵심 키워드 추출 시스템 및 방법 |
CN110322895A (zh) * | 2018-03-27 | 2019-10-11 | 亿度慧达教育科技(北京)有限公司 | 语音评测方法及计算机存储介质 |
CN110489758A (zh) * | 2019-09-10 | 2019-11-22 | 深圳市和讯华谷信息技术有限公司 | 应用程序的价值观计算方法及装置 |
CN111563212A (zh) * | 2020-04-28 | 2020-08-21 | 北京字节跳动网络技术有限公司 | 一种内链添加方法及装置 |
CN112183069A (zh) * | 2020-10-10 | 2021-01-05 | 上海明略人工智能(集团)有限公司 | 一种基于历史关键词投放数据的关键词构建方法及系统 |
CN112507060A (zh) * | 2020-12-14 | 2021-03-16 | 福建正孚软件有限公司 | 一种领域语料库构建方法及系统 |
CN112650830A (zh) * | 2020-11-17 | 2021-04-13 | 北京字跳网络技术有限公司 | 关键词提取方法、装置、电子设备和存储介质 |
CN113377945A (zh) * | 2021-06-11 | 2021-09-10 | 成都工物科云科技有限公司 | 一种面向项目需求的科技专家智能推荐方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1213665A2 (en) * | 2000-12-07 | 2002-06-12 | Patentmall Limited | Patent classification displaying method and apparatus |
CN101719129A (zh) * | 2009-12-31 | 2010-06-02 | 浙江大学 | 一种采用人工智能技术自动提取关键字的方法 |
CN104035992A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 利用图像处理技术及语义向量空间的文本语义处理方法和系统 |
CN104268200A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的非监督命名实体语义消歧方法 |
-
2015
- 2015-04-30 CN CN201510219784.1A patent/CN104778161B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1213665A2 (en) * | 2000-12-07 | 2002-06-12 | Patentmall Limited | Patent classification displaying method and apparatus |
CN101719129A (zh) * | 2009-12-31 | 2010-06-02 | 浙江大学 | 一种采用人工智能技术自动提取关键字的方法 |
CN104268200A (zh) * | 2013-09-22 | 2015-01-07 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的非监督命名实体语义消歧方法 |
CN104035992A (zh) * | 2014-06-10 | 2014-09-10 | 复旦大学 | 利用图像处理技术及语义向量空间的文本语义处理方法和系统 |
Non-Patent Citations (3)
Title |
---|
DOU SHEN 等: "Query Enrichment for Web-Query Classification", 《ACM TRANSACTIONS ON INFORMATION SYSTEMS (TOIS)》 * |
杨阳 等: "基于词向量的情感新词发现方法", 《山东大学学报(理学版)》 * |
罗杰 等: "基于word2vec与语义相似度的领域词语聚类", 《PROCEEDINGS OF THE 33RD CHINESE CONTROL CONFERENCE》 * |
Cited By (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017107566A1 (zh) * | 2015-12-25 | 2017-06-29 | 广州视源电子科技股份有限公司 | 基于词向量相似度的检索方法和系统 |
CN105631009A (zh) * | 2015-12-25 | 2016-06-01 | 广州视源电子科技股份有限公司 | 基于词向量相似度的检索方法和系统 |
CN106951422A (zh) * | 2016-01-07 | 2017-07-14 | 腾讯科技(深圳)有限公司 | 网页训练的方法和装置、搜索意图识别的方法和装置 |
CN105718585A (zh) * | 2016-01-26 | 2016-06-29 | 中国人民解放军国防科学技术大学 | 文档与标签词语义关联方法及其装置 |
CN105718585B (zh) * | 2016-01-26 | 2019-02-22 | 中国人民解放军国防科学技术大学 | 文档与标签词语义关联方法及其装置 |
US11017043B2 (en) | 2016-03-15 | 2021-05-25 | Beijing Jingdong Shangke Information Technology Co., Ltd. | Similarity mining method and device |
WO2017157090A1 (zh) * | 2016-03-15 | 2017-09-21 | 北京京东尚科信息技术有限公司 | 相似度挖掘方法及装置 |
CN105824922B (zh) * | 2016-03-16 | 2019-03-08 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
CN105824922A (zh) * | 2016-03-16 | 2016-08-03 | 重庆邮电大学 | 一种融合深层特征和浅层特征的情感分类方法 |
CN105930358A (zh) * | 2016-04-08 | 2016-09-07 | 南方电网科学研究院有限责任公司 | 基于关联度的案例检索方法及其系统 |
CN105930358B (zh) * | 2016-04-08 | 2019-06-04 | 南方电网科学研究院有限责任公司 | 基于关联度的案例检索方法及其系统 |
CN105912524B (zh) * | 2016-04-09 | 2019-08-20 | 北京交通大学 | 基于低秩矩阵分解的文章话题关键词提取方法和装置 |
CN105912524A (zh) * | 2016-04-09 | 2016-08-31 | 北京交通大学 | 基于低秩矩阵分解的文章话题关键词提取方法和装置 |
CN107436875A (zh) * | 2016-05-25 | 2017-12-05 | 华为技术有限公司 | 文本分类方法及装置 |
CN106227722A (zh) * | 2016-09-12 | 2016-12-14 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106227722B (zh) * | 2016-09-12 | 2019-07-05 | 中山大学 | 一种基于上市公司公告摘要的自动提取方法 |
CN106571139B (zh) * | 2016-11-09 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索结果处理方法及装置 |
CN106571139A (zh) * | 2016-11-09 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索结果处理方法及装置 |
CN107463705A (zh) * | 2017-08-17 | 2017-12-12 | 陕西优百信息技术有限公司 | 一种数据清洗方法 |
AU2017408801B2 (en) * | 2017-08-29 | 2020-04-02 | Ping An Technology (Shenzhen) Co.,Ltd. | User keyword extraction device and method, and computer-readable storage medium |
WO2019041521A1 (zh) * | 2017-08-29 | 2019-03-07 | 平安科技(深圳)有限公司 | 用户关键词提取装置、方法及计算机可读存储介质 |
CN107577671B (zh) * | 2017-09-19 | 2020-09-22 | 中央民族大学 | 一种基于多特征融合的主题词提取方法 |
CN107577671A (zh) * | 2017-09-19 | 2018-01-12 | 中央民族大学 | 一种基于多特征融合的主题词提取方法 |
WO2019076191A1 (zh) * | 2017-10-20 | 2019-04-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置、存储介质及电子装置 |
US11194965B2 (en) | 2017-10-20 | 2021-12-07 | Tencent Technology (Shenzhen) Company Limited | Keyword extraction method and apparatus, storage medium, and electronic apparatus |
CN107798091A (zh) * | 2017-10-23 | 2018-03-13 | 金蝶软件(中国)有限公司 | 一种数据爬取的方法及其相关设备 |
WO2019103224A1 (ko) * | 2017-11-22 | 2019-05-31 | (주)와이즈넛 | 문서 내 핵심 키워드 추출 시스템 및 방법 |
CN107977676A (zh) * | 2017-11-24 | 2018-05-01 | 北京神州泰岳软件股份有限公司 | 文本相似度计算方法及装置 |
CN108052593A (zh) * | 2017-12-12 | 2018-05-18 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108052593B (zh) * | 2017-12-12 | 2020-09-22 | 山东科技大学 | 一种基于主题词向量和网络结构的主题关键词提取方法 |
CN108241613B (zh) * | 2018-01-03 | 2021-05-28 | 新华智云科技有限公司 | 一种提取关键词的方法及设备 |
CN108241613A (zh) * | 2018-01-03 | 2018-07-03 | 新华智云科技有限公司 | 一种提取关键词的方法及设备 |
CN108491462A (zh) * | 2018-03-05 | 2018-09-04 | 昆明理工大学 | 一种基于word2vec的语义查询扩展方法及装置 |
CN110322895A (zh) * | 2018-03-27 | 2019-10-11 | 亿度慧达教育科技(北京)有限公司 | 语音评测方法及计算机存储介质 |
CN109215797A (zh) * | 2018-09-05 | 2019-01-15 | 山东管理学院 | 基于扩展关联规则的中医医案非分类关系抽取方法及系统 |
CN109215797B (zh) * | 2018-09-05 | 2022-04-08 | 山东管理学院 | 基于扩展关联规则的中医医案非分类关系抽取方法及系统 |
CN109325126B (zh) * | 2018-10-31 | 2022-04-22 | 中国电子科技集团公司电子科学研究院 | 语言文本的对象化处理方法、装置及计算机存储介质 |
CN109325126A (zh) * | 2018-10-31 | 2019-02-12 | 中国电子科技集团公司电子科学研究院 | 语言文本的对象化处理方法、装置及计算机存储介质 |
CN109670035A (zh) * | 2018-12-03 | 2019-04-23 | 科大讯飞股份有限公司 | 一种文本摘要生成方法 |
CN110489758A (zh) * | 2019-09-10 | 2019-11-22 | 深圳市和讯华谷信息技术有限公司 | 应用程序的价值观计算方法及装置 |
CN110489758B (zh) * | 2019-09-10 | 2023-04-18 | 深圳市和讯华谷信息技术有限公司 | 应用程序的价值观计算方法及装置 |
CN111563212A (zh) * | 2020-04-28 | 2020-08-21 | 北京字节跳动网络技术有限公司 | 一种内链添加方法及装置 |
CN112183069A (zh) * | 2020-10-10 | 2021-01-05 | 上海明略人工智能(集团)有限公司 | 一种基于历史关键词投放数据的关键词构建方法及系统 |
CN112183069B (zh) * | 2020-10-10 | 2024-06-28 | 上海明略人工智能(集团)有限公司 | 一种基于历史关键词投放数据的关键词构建方法及系统 |
CN112650830B (zh) * | 2020-11-17 | 2021-11-26 | 北京字跳网络技术有限公司 | 关键词提取方法、装置、电子设备和存储介质 |
CN112650830A (zh) * | 2020-11-17 | 2021-04-13 | 北京字跳网络技术有限公司 | 关键词提取方法、装置、电子设备和存储介质 |
CN112507060A (zh) * | 2020-12-14 | 2021-03-16 | 福建正孚软件有限公司 | 一种领域语料库构建方法及系统 |
CN113377945A (zh) * | 2021-06-11 | 2021-09-10 | 成都工物科云科技有限公司 | 一种面向项目需求的科技专家智能推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104778161B (zh) | 2017-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104778161A (zh) | 基于Word2Vec和Query log抽取关键词方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN104199857B (zh) | 一种基于多标签分类的税务文档层次分类方法 | |
CN104102626B (zh) | 一种用于短文本语义相似度计算的方法 | |
CN103744981B (zh) | 一种基于网站内容用于网站自动分类分析的系统 | |
CN108052593A (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN103823896B (zh) | 一种学科特征值算法及基于其的项目评审专家推荐算法 | |
CN103440329B (zh) | 权威作者和高质量论文推荐系统和推荐方法 | |
CN106156372B (zh) | 一种互联网网站的分类方法及装置 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN110909164A (zh) | 一种基于卷积神经网络的文本增强语义分类方法及系统 | |
CN101493819B (zh) | 一种搜索引擎作弊检测的优化方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN104573046A (zh) | 一种基于词向量的评论分析方法及系统 | |
CN101968819B (zh) | 面向广域网的音视频智能编目信息获取方法 | |
CN103617157A (zh) | 基于语义的文本相似度计算方法 | |
CN103310003A (zh) | 一种基于点击日志的新广告点击率预测方法及系统 | |
CN101853250A (zh) | 对文档进行分类的方法及装置 | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
CN108647322A (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN102693304A (zh) | 一种搜索引擎的反馈信息处理方法及搜索引擎 | |
Dermouche et al. | A joint model for topic-sentiment modeling from text | |
CN106339459B (zh) | 基于关键词匹配进行中文网页预分类的方法 | |
CN103886072B (zh) | 煤矿搜索引擎中检索结果聚类系统 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |