CN109408802A - 一种提升句向量语义的方法、系统及存储介质 - Google Patents
一种提升句向量语义的方法、系统及存储介质 Download PDFInfo
- Publication number
- CN109408802A CN109408802A CN201810990905.6A CN201810990905A CN109408802A CN 109408802 A CN109408802 A CN 109408802A CN 201810990905 A CN201810990905 A CN 201810990905A CN 109408802 A CN109408802 A CN 109408802A
- Authority
- CN
- China
- Prior art keywords
- word
- sentence
- vector
- entity
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000001737 promoting effect Effects 0.000 title claims abstract description 20
- 230000011218 segmentation Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000010801 machine learning Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012706 support-vector machine Methods 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003447 ipsilateral effect Effects 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 235000020004 porter Nutrition 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种提升句向量语义的方法、系统及存储介质,其通过对当前句子进行上下文扩展,得到扩展文本;并对所述扩展文本进行命名实体识别,得到所述扩展文本的实体词;以及对所述扩展文本进行分词处理,并对分词结果去除所述实体词和去除停用词,得到非实体词;然后对所述实体词和所述非实体词分别计算词向量,并且,对所述实体词的词向量赋予第一权重,对所述非实体词的词向量赋予第二权重;最后根据所述实体词和所述非实体词的词向量及对应的权重,计算所有词向量的加权平均值,作为当前句子的句向量;从而提升句向量对句子语义的表达效果。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是一种提升句向量语义的方法及其应用该方法的系统和存储介质。
背景技术
在自然语言处理(Natural Language Processing,NLP)领域,句向量一直不能十分准确的表达一个句子所要表达的意思,特别是上下文中的句子,其意思根据上下文而变化,各个不同的上下文情景当中,句向量的表达效果不是那么准确,在这方面一直都没有较好的解决办法。
发明内容
本发明为解决上述问题,提供了一种提升句向量语义的方法、系统及存储介质,通过增加上下文词语的权重来得到当前句子的向量,从而提升句向量对句子语义的表达效果。
为实现上述目的,本发明采用的技术方案为:
一种提升句向量语义的方法,其包括以下步骤:
a.对当前句子进行上下文扩展,得到扩展文本;
b.对所述扩展文本进行命名实体识别,得到所述扩展文本的实体词;
c.对所述扩展文本进行分词处理,并对分词结果去除所述实体词和去除停用词,得到非实体词;
d.对所述实体词和所述非实体词分别计算词向量,并且,对所述实体词的词向量赋予第一权重,对所述非实体词的词向量赋予第二权重;
e.根据所述实体词和所述非实体词的词向量及对应的权重,计算所有词向量的加权平均值,作为当前句子的句向量。
优选的,所述的步骤a中,对当前句子进行上下文扩展,是指将当前句子向上和/或向下扩展至三个句子以上。
具体的,所述的步骤a中,若当前句子为文本的中间句子,则所述扩展文本包括当前句子、当前句子的上一个句子、当前句子的下一个句子;若当前句子为文本的第一个句子,则所述扩展文本包括当前句子和当前句子的下两个句子;若当前句子为文本的最后一个句子,则所述扩展文本包括当前句子和当前句子的上两个句子。
优选的,所述的步骤b中,对所述扩展文本进行命名实体识别,是采用实体词典库对所述扩展文本进行匹配处理以获取所述扩展文本的实体词,和/或,采用统计机器学习的方法进行识别所述扩展文本的实体词;其中,所述统计机器学习的方法包括:隐马尔可夫模型HMM、最大熵ME、支持向量机SVM、条件随机场CRF。
其中,所述的步骤b中,进一步对所述实体词进行基于tf-idf算法提取关键词,得到关键实体词;并对所述关键实体词赋予第三权重,且所述第三权重大于所述第一权重或所述第二权重。
优选的,所述的步骤c中,去除停用词,是通过查找停用词表,并将分词结果中存在于所述停用词表中的词语作为停用词去除;并且,进一步将去除停用词后的词语进行词性还原。
优选的,所述的步骤d中,所述第一权重大于所述第二权重。
对应的,本发明还提供一种提升句向量语义的系统,其包括:
文本扩展模块,用于对当前句子进行上下文扩展,得到扩展文本;
实体识别模块,用于对所述扩展文本进行命名实体识别,得到所述扩展文本的实体词;
分词处理模块,用于对所述扩展文本进行分词处理,并对分词结果去除所述实体词和去除停用词,得到非实体词;
词向量计算模块,用于对所述实体词和所述非实体词分别计算词向量,并且,对所述实体词的词向量赋予第一权重,对所述非实体词的词向量赋予第二权重;
句向量计算模块,其根据所述实体词和所述非实体词的词向量及对应的权重,计算所有词向量的加权平均值,作为当前句子的句向量。
另外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令被处理器执行时实现上述任一项所述的提升句向量语义的方法。
本发明的有益效果是:
本发明的一种提升句向量语义的方法和系统,其通过对当前句子进行上下文扩展,得到扩展文本;并对所述扩展文本进行命名实体识别,得到所述扩展文本的实体词;以及对所述扩展文本进行分词处理,并对分词结果去除所述实体词和去除停用词,得到非实体词;然后对所述实体词和所述非实体词分别计算词向量,并且,对所述实体词的词向量赋予第一权重,对所述非实体词的词向量赋予第二权重;最后根据所述实体词和所述非实体词的词向量及对应的权重,计算所有词向量的加权平均值,作为当前句子的句向量;从而提升句向量对句子语义的表达效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明一种提升句向量语义的方法的流程简图;
图2为本发明一种提升句向量语义系统的结构示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图及实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明的一种提升句向量语义的方法,其包括以下步骤:
a.对当前句子进行上下文扩展,得到扩展文本;
b.对所述扩展文本进行命名实体识别,得到所述扩展文本的实体词;
c.对所述扩展文本进行分词处理,并对分词结果去除所述实体词和去除停用词,得到非实体词;
d.对所述实体词和所述非实体词分别计算词向量,并且,对所述实体词的词向量赋予第一权重,对所述非实体词的词向量赋予第二权重;
e.根据所述实体词和所述非实体词的词向量及对应的权重,计算所有词向量的加权平均值,作为当前句子的句向量。
所述的步骤a中,对当前句子进行上下文扩展,是指将当前句子向上和/或向下扩展至三个句子以上。具体的,本实施例中,若当前句子为文本的中间句子,则所述扩展文本包括当前句子、当前句子的上一个句子、当前句子的下一个句子;若当前句子为文本的第一个句子,则所述扩展文本包括当前句子和当前句子的下两个句子;若当前句子为文本的最后一个句子,则所述扩展文本包括当前句子和当前句子的上两个句子。
所述的步骤b中,对所述扩展文本进行命名实体识别,是采用实体词典库对所述扩展文本进行匹配处理以获取所述扩展文本的实体词,;所述实体词典库是指从原始数据库(如音乐曲库)接收到的结构化数据(源数据),对于音乐曲库而言,所述源数据可以包括歌曲名、歌手名、专辑名、播放量、流行度、歧义度等各种信息。其中,歌曲名、歌手名以及专辑名为实体词;为了匹配高效,可采用双数组(Double Array Trie,DAT)进行匹配。DAT是Trie树的一种变形,它是在保证TRIE树检索速度的前提下,提高空间利用率而提出的一种数据结构,本质上是一个确定有限自动机(Deterministic Finite Automaton,DFA)。所谓的DFA就是一个能实现状态转移的自动机。对于一个给定的属于该自动机的状态和一个属于该自动机字母表Σ的字符,它都能根据事先给定的转移函数转移到下一个状态。对于DAT,每个节点代表自动机的一个状态,根据变量的不同,进行状态转移,当到达结束状态或者无法转移的时候,完成查询。
和/或,还可以采用统计机器学习的方法进行识别所述扩展文本的实体词;其中,所述统计机器学习的方法包括:隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵模型(MaxmiumEntropy,ME)、支持向量机(Support VectorMachine,SVM)、条件随机场(ConditionalRandom Fields,CRF)等。其中,最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受。条件随机场为命名实体识别提供了一个特征灵活、全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。一般说来,最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些,但是隐马尔可夫模型在训练和识别时的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。本领域技术人员可根据实际需要进行选择任一种模型或两种以上模型的结合。
本实施例中,进一步对所述实体词进行基于tf-idf算法提取关键词,得到关键实体词;并对所述关键实体词赋予第三权重,且所述第三权重大于所述第一权重或所述第二权重。TF/IDF(term frequency/inverse document frequency)是一种用于资讯检索与文本挖掘的加权技术,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF/IDF加权的各种形式常被应用于关键字提取技术,作为文件与用户查询之间相关程度的度量或评级。TF/IDF算法的基本原理如下:在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)对于在某一特定文件里的词语来说,它的TF值可表示为:TF=该词在此文件中的出现次数/此文件中所有字词的出现字数之和。这样,就得到了每个字词对于该文件是否重要的值TF。逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。IDF的值可以表示为:IDF=log(语料库中的文件总数/包含该词的文件数目)。最后,TF/IDF值就是TF*IDF。它的依据就是某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF/IDF。因此,TF/IDF倾向于过滤掉常见的词语,保留重要的词语。
所述的步骤c中,分词处理就是把一段文字中的词语通过程序划分出来的过程,通常采用从一段文字中提取空格、标点符号以及字符串作为分词的标记。去除停用词(StopWords),是通过查找停用词表,并将分词结果中存在于所述停用词表中的词语作为停用词去除;并且,进一步将去除停用词后的词语进行词性还原,例如可采用Porter词干分析算法将词语还原成词干原型。
所述的步骤d中,所述第一权重大于所述第二权重。即,实体词的权重大于非实体词的权重。实体词通常包括名词和代词,不同的实体词的权重可设置为不同,例如,关键实体词的权重>普通实体词的权重>非实体词的权重。
所述的步骤e中,所述加权平均值是将各个词向量乘以相应的权重,然后加总求和得到总体值,再除以总的个数,得到平均向量。平均向量的大小不仅取决于总体中各个词向量的大小,而且取决于各个词向量出现的次数(频数),且各个词向量出现的次数对其在平均数中的影响起着权衡轻重的作用。其中,所述权重是一个相对的概念,是针对某一指标而言。某一指标的权重是指该指标在整体评价中的相对重要程度。权重表示在评价过程中,是被评价对象的不同侧面的重要程度的定量分配。
如图2所示,本发明还提供一种提升句向量语义的系统,其包括:
文本扩展模块,用于对当前句子进行上下文扩展,得到扩展文本;
实体识别模块,用于对所述扩展文本进行命名实体识别,得到所述扩展文本的实体词;
分词处理模块,用于对所述扩展文本进行分词处理,并对分词结果去除所述实体词和去除停用词,得到非实体词;
词向量计算模块,用于对所述实体词和所述非实体词分别计算词向量,并且,对所述实体词的词向量赋予第一权重,对所述非实体词的词向量赋予第二权重;
句向量计算模块,其根据所述实体词和所述非实体词的词向量及对应的权重,计算所有词向量的加权平均值,作为当前句子的句向量。
另外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令被处理器执行时实现上述任一项所述的提升句向量语义的方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统实施例和存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
Claims (9)
1.一种提升句向量语义的方法,其特征在于,包括以下步骤:
a.对当前句子进行上下文扩展,得到扩展文本;
b.对所述扩展文本进行命名实体识别,得到所述扩展文本的实体词;
c.对所述扩展文本进行分词处理,并对分词结果去除所述实体词和去除停用词,得到非实体词;
d.对所述实体词和所述非实体词分别计算词向量,并且,对所述实体词的词向量赋予第一权重,对所述非实体词的词向量赋予第二权重;
e.根据所述实体词和所述非实体词的词向量及对应的权重,计算所有词向量的加权平均值,作为当前句子的句向量。
2.根据权利要求1所述的一种提升句向量语义的方法,其特征在于:所述的步骤a中,对当前句子进行上下文扩展,是指将当前句子向上和/或向下扩展至三个句子以上。
3.根据权利要求1或2所述的一种提升句向量语义的方法,其特征在于:所述的步骤a中,若当前句子为文本的中间句子,则所述扩展文本包括当前句子、当前句子的上一个句子、当前句子的下一个句子;若当前句子为文本的第一个句子,则所述扩展文本包括当前句子和当前句子的下两个句子;若当前句子为文本的最后一个句子,则所述扩展文本包括当前句子和当前句子的上两个句子。
4.根据权利要求1所述的一种提升句向量语义的方法,其特征在于:所述的步骤b中,对所述扩展文本进行命名实体识别,是采用实体词典库对所述扩展文本进行匹配处理以获取所述扩展文本的实体词,和/或,采用统计机器学习的方法进行识别所述扩展文本的实体词;其中,所述统计机器学习的方法包括:隐马尔可夫模型HMM、最大熵ME、支持向量机SVM、条件随机场CRF。
5.根据权利要求1或4所述的一种提升句向量语义的方法,其特征在于:所述的步骤b中,进一步对所述实体词进行基于tf-idf算法提取关键词,得到关键实体词;并对所述关键实体词赋予第三权重,且所述第三权重大于所述第一权重或所述第二权重。
6.根据权利要求1所述的一种提升句向量语义的方法,其特征在于:所述的步骤c中,去除停用词,是通过查找停用词表,并将分词结果中存在于所述停用词表中的词语作为停用词去除;并且,进一步将去除停用词后的词语进行词性还原。
7.根据权利要求1所述的一种提升句向量语义的方法,其特征在于:所述的步骤d中,所述第一权重大于所述第二权重。
8.一种提升句向量语义的系统,其特征在于,包括:
文本扩展模块,用于对当前句子进行上下文扩展,得到扩展文本;
实体识别模块,用于对所述扩展文本进行命名实体识别,得到所述扩展文本的实体词;
分词处理模块,用于对所述扩展文本进行分词处理,并对分词结果去除所述实体词和去除停用词,得到非实体词;
词向量计算模块,用于对所述实体词和所述非实体词分别计算词向量,并且,对所述实体词的词向量赋予第一权重,对所述非实体词的词向量赋予第二权重;
句向量计算模块,其根据所述实体词和所述非实体词的词向量及对应的权重,计算所有词向量的加权平均值,作为当前句子的句向量。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令被处理器执行时实现如权利要求1-7任一项所述的提升句向量语义的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810990905.6A CN109408802A (zh) | 2018-08-28 | 2018-08-28 | 一种提升句向量语义的方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810990905.6A CN109408802A (zh) | 2018-08-28 | 2018-08-28 | 一种提升句向量语义的方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109408802A true CN109408802A (zh) | 2019-03-01 |
Family
ID=65464414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810990905.6A Pending CN109408802A (zh) | 2018-08-28 | 2018-08-28 | 一种提升句向量语义的方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408802A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162630A (zh) * | 2019-05-09 | 2019-08-23 | 深圳市腾讯信息技术有限公司 | 一种文本去重的方法、装置及设备 |
CN110232112A (zh) * | 2019-05-31 | 2019-09-13 | 北京创鑫旅程网络技术有限公司 | 文章中关键词提取方法及装置 |
CN111178082A (zh) * | 2019-12-05 | 2020-05-19 | 北京葡萄智学科技有限公司 | 一种句向量生成方法、装置及电子设备 |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111814474A (zh) * | 2020-09-14 | 2020-10-23 | 智者四海(北京)技术有限公司 | 领域短语挖掘方法及装置 |
CN112949299A (zh) * | 2021-02-26 | 2021-06-11 | 深圳市北科瑞讯信息技术有限公司 | 新闻稿件的生成方法及装置、存储介质、电子装置 |
CN113111653A (zh) * | 2021-04-07 | 2021-07-13 | 同济大学 | 一种基于Word2Vec和句法依存树的文本特征构造方法 |
CN114943220A (zh) * | 2022-04-12 | 2022-08-26 | 中国科学院计算机网络信息中心 | 一种面向科研立项查重的句向量生成方法及查重方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN106502994A (zh) * | 2016-11-29 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种文本的关键词提取的方法和装置 |
CN107193801A (zh) * | 2017-05-21 | 2017-09-22 | 北京工业大学 | 一种基于深度信念网络的短文本特征优化及情感分析方法 |
CN107357837A (zh) * | 2017-06-22 | 2017-11-17 | 华南师范大学 | 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法 |
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
-
2018
- 2018-08-28 CN CN201810990905.6A patent/CN109408802A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104834735A (zh) * | 2015-05-18 | 2015-08-12 | 大连理工大学 | 一种基于词向量的文档摘要自动提取方法 |
CN106502994A (zh) * | 2016-11-29 | 2017-03-15 | 上海智臻智能网络科技股份有限公司 | 一种文本的关键词提取的方法和装置 |
CN107193801A (zh) * | 2017-05-21 | 2017-09-22 | 北京工业大学 | 一种基于深度信念网络的短文本特征优化及情感分析方法 |
CN107357837A (zh) * | 2017-06-22 | 2017-11-17 | 华南师范大学 | 基于保序子矩阵和频繁序列挖掘的电商评论情感分类方法 |
CN107908716A (zh) * | 2017-11-10 | 2018-04-13 | 国网山东省电力公司电力科学研究院 | 基于词向量模型的95598工单文本挖掘方法和装置 |
CN108415902A (zh) * | 2018-02-10 | 2018-08-17 | 合肥工业大学 | 一种基于搜索引擎的命名实体链接方法 |
Non-Patent Citations (1)
Title |
---|
DATA_REC: "文本表示方法", 《CSDN》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162630A (zh) * | 2019-05-09 | 2019-08-23 | 深圳市腾讯信息技术有限公司 | 一种文本去重的方法、装置及设备 |
CN110232112A (zh) * | 2019-05-31 | 2019-09-13 | 北京创鑫旅程网络技术有限公司 | 文章中关键词提取方法及装置 |
CN110232112B (zh) * | 2019-05-31 | 2022-06-21 | 北京创鑫旅程网络技术有限公司 | 文章中关键词提取方法及装置 |
CN111178082A (zh) * | 2019-12-05 | 2020-05-19 | 北京葡萄智学科技有限公司 | 一种句向量生成方法、装置及电子设备 |
CN111339250A (zh) * | 2020-02-20 | 2020-06-26 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111339250B (zh) * | 2020-02-20 | 2023-08-18 | 北京百度网讯科技有限公司 | 新类别标签的挖掘方法及电子设备、计算机可读介质 |
CN111814474A (zh) * | 2020-09-14 | 2020-10-23 | 智者四海(北京)技术有限公司 | 领域短语挖掘方法及装置 |
CN112949299A (zh) * | 2021-02-26 | 2021-06-11 | 深圳市北科瑞讯信息技术有限公司 | 新闻稿件的生成方法及装置、存储介质、电子装置 |
CN113111653A (zh) * | 2021-04-07 | 2021-07-13 | 同济大学 | 一种基于Word2Vec和句法依存树的文本特征构造方法 |
CN114943220A (zh) * | 2022-04-12 | 2022-08-26 | 中国科学院计算机网络信息中心 | 一种面向科研立项查重的句向量生成方法及查重方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408802A (zh) | 一种提升句向量语义的方法、系统及存储介质 | |
Jung | Semantic vector learning for natural language understanding | |
CN104834747B (zh) | 基于卷积神经网络的短文本分类方法 | |
WO2018049960A1 (zh) | 一种为文本信息匹配资源的方法及装置 | |
WO2021068339A1 (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
WO2019085236A1 (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
CN109190117A (zh) | 一种基于词向量的短文本语义相似度计算方法 | |
CN104991891B (zh) | 一种短文本特征提取方法 | |
CN108549634A (zh) | 一种中文专利文本相似度计算方法 | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
CN103049435A (zh) | 文本细粒度情感分析方法及装置 | |
Pablos et al. | V3: Unsupervised aspect based sentiment analysis for semeval2015 task 12 | |
CN108052509B (zh) | 一种文本相似度计算方法、装置及服务器 | |
Alian et al. | Arabic semantic similarity approaches-review | |
US20230074771A1 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
CN110019669A (zh) | 一种文本检索方法及装置 | |
CN105760363A (zh) | 文本文件的词义消歧方法及装置 | |
CN110232185A (zh) | 面向金融行业软件测试基于知识图谱语义相似度计算方法 | |
Kurniawan et al. | Indonesian twitter sentiment analysis using Word2Vec | |
Wang et al. | Word vector modeling for sentiment analysis of product reviews | |
Wu et al. | Maximum entropy-based sentiment analysis of online product reviews in Chinese | |
CN107729509B (zh) | 基于隐性高维分布式特征表示的篇章相似度判定方法 | |
Venktesh et al. | Topic aware contextualized embeddings for high quality phrase extraction | |
CN110442863B (zh) | 一种短文本语义相似度计算方法及其系统、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |
|
RJ01 | Rejection of invention patent application after publication |