CN107436864A - 一种基于Word2Vec的中文问答语义相似度计算方法 - Google Patents
一种基于Word2Vec的中文问答语义相似度计算方法 Download PDFInfo
- Publication number
- CN107436864A CN107436864A CN201710661607.8A CN201710661607A CN107436864A CN 107436864 A CN107436864 A CN 107436864A CN 201710661607 A CN201710661607 A CN 201710661607A CN 107436864 A CN107436864 A CN 107436864A
- Authority
- CN
- China
- Prior art keywords
- similarity
- semantic
- text
- word
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于Word2Vec的中文问答语义相似度计算方法,包括文本预处理、向量表示和相似度计算。本发明的有益效果是:提出的中文问答语义相似度计算方法结合了基于关键词的文本相似度以及基于Word2Vec的语义相似度,具有较高的效率和准确率,综合重合关键词的文本相似度与非重合关键词的语义相似度,一方面引入语义,解决了关键词高度重合的文本语义相似度计算问题,另一方面避免了短文本造成的语义相似度计算存在较大误差的问题,提高了中文语句相似度计算的准确性。
Description
技术领域
本发明涉及一种相似度计算方法,具体为一种基于Word2Vec的中文问答语义相似度计算方法,属于计算机应用技术领域。
背景技术
当今社会,信息技术飞速发展。随着人们在信息社会中对信息检索的迫切需求的增加,普通的信息检索系统己经无法满足用户的需要,而发展在信息检索技术之上的智能问答系统可以满足人们的这一需求,智能问答系统允许用户以自然语言的形式输入一个问句,最终返回给用户的也是自然语言形式的简短而准确的答案。
在问答系统的信息检索中,极为重要并且基础的任务就是问句的相似度计算,相似度计算的效果好坏,对信息检索的结果准确性有直接的影响,文本的相似度计算,就是简单地进行文本之间的匹配,不考虑其表示的语义上下文以及语言结构。文本相似度计算是语义相似度计算的基础,语义分析就是要对自然语言进行理解,对客观世界进行描述,从自然语言中抽取出现实世界中的事物的概念和含义以及各个事物之间的关系,语义相似度就是两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。
语义相似度计算常用算法基本分为两类:一类是通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;另一类主要是通过词语上下文信息,运用统计的方法进行求解,其中,Word2Vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。由于其高效性和便捷性,Word2Vec得到了广泛的关注。
发明内容
本发明的目的就在于为了解决上述问题而提供一种基于Word2Vec的中文问答语义相似度计算方法。
本发明通过以下技术方案来实现上述目的:一种基于Word2Vec的中文问答语义相似度计算方法,包括以下步骤:
步骤A,文本预处理,使用IKAnalyzer将一个汉字序列切分成一个一个单独的词,实现中文文本的分词;
步骤B,向量表示,假设有两个中文文本:S1以及S2。经预处理后得到两组关键词集合CS1和CS2,分别表示为CS1:{w11,w12,...,w1m},CS2:{w21,w22,...,w2n},通过计算两个集合CS1和CS2的并集得到CS,
CS=CS1∪CS2={w1,w2,...,wk}
其中k≤m+n;
步骤C,相似度计算,集合会存在重合的关键词以及非重合的关键词。基于重合的关键词,通过简单的匹配计算文本相似度;基于非重合的关键词,我们通过Word2Vec计算语义相似度,结合重合关键词文本相似度和非重合关键词语义相似度,得到中文文本S1及S2最终的相似度;
优选的,所述步骤A中,在信息检索时为提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词就被称为停用词,停用词大致可分为如下两类:一类是使用十分广泛,甚至是过于频繁的一些单词,如“我”、“是”等;另一类是文本中实际意义不大的词,这类词包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语,如常见的“的”、“在”、“和”、“接着”之类。通过对问答所属领域的大量文本样本做特征分析,计算度量词重要性的值,如tf-idf、信息增益等,生成问答所属领域停用词集合,结合通用领域停用词,得到最终的停用词集合,停用词去除就是对分词后的词序列删除属于停用词集合中的词。
冗余词过滤是指将语义上重复冗余的词去掉,将两个中文文本分词后得到的各词语分别与预设的语义模板进行匹配,通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语,将所述上位的词语识别为语义冗余的词语,进一步滤除。
同义词映射是通过构建同义词库来解决的,在同义词库中,语义相同但表述不同的词会聚类在一起,每个聚类会选取一个词作为该类的中心词,同义词映射就是将分词后的每个词映射为其所属聚类的中心词。
优选的,所述步骤B中,中文文本S1及S2对应的向量VS1和VS2首先会被初始化为k维的向量(0,0,…,0)。接下来遍历集合CS中的关键词,若某关键词在集合CS1中存在,则将S1对应向量中相应位置标记为1,否则为0,遍历完集合CS后就得到了S1的向量表示(记为VS1={v11,v12,...,v1k}),同理可以得到S2的向量表示(记为VS2={v21,v22,...,v2k})。
优选的,所述步骤C中,相似度计算的结果表示为一个实数,取值范围是[0,1],规定相似度为1表示语义完全相似,相似度为0表示语义完全不同,相似度介于0和1之间时,与1越靠近,表示两个文本越相似,与0越靠近,表示二者越不相关;
优选的,所述步骤C中,基于重合的关键词的文本相似度(Simtext(S1,S2))计算如下:
其中,
优选的,所述步骤C中,非重合关键词语义相似度对比Vs1与Vs2,将所有v1i≠v2i所对应的关键词组成一个集合,记为Cs′={w′1,...,w′m+n-k},进一步,分别计算:
C′S1=CS1-(CS1∩CS2)
C′S2=CS2-(CS1∩CS2)
对于Cs′中每个元素,通过Word2Vec计算与C′s1中每个元素的相似度,取最大值,从而得到一个m+n-k维的向量V′s1,同样对于C′s2也会得到一个m+n-k维的向量V′s2,计算得到的两个m+n-k维的向量V′s1以及V′s2的余弦相似度,从而得到非重合关键词语义相似度(Simsemantic(S1,S2)),如下:
Simsemantic(S1,S2)=Simcos(V′S1,V′S2)
其中,
优选的,所述步骤C中,综合相似度在得到了重合关键词文本相似度和非重合关键词语义相似度,通过加权和即得到中文文本S1及S2最终的语义相似度(Sim(S1,S2)),如下:
Sim(S1,S2)=θ1·Simtext(S1,S2)+θ2·Simsemantic(S1,S2)
其中,θ1+θ2=1。
本发明的有益效果是:该基于Word2Vec的中文问答语义相似度计算方法设计合理,提出的中文问答语义相似度计算方法结合了基于关键词的文本相似度以及基于Word2Vec的语义相似度,具有较高的效率和准确率。
附图说明
图1为本发明结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种基于Word2Vec的中文问答语义相似度计算方法,包括以下步骤:
步骤A,文本预处理,使用IKAnalyzer将一个汉字序列切分成一个一个单独的词,实现中文文本的分词;
步骤B,向量表示,假设有两个中文文本:S1以及S2。经预处理后得到两组关键词集合CS1和CS2,分别表示为CS1:{w11,w12,...,w1m},CS2:{w21,w22,...,w2n},通过计算两个集合CS1和CS2的并集得到CS,
CS=CS1∪CS2={w1,w2,...,wk}
其中k≤m+n;
步骤C,相似度计算,集合和会存在重合的关键词以及非重合的关键词。基于重合的关键词,通过简单的匹配计算文本相似度;基于非重合的关键词,我们通过Word2Vec计算语义相似度,结合重合关键词文本相似度和非重合关键词语义相似度,得到中文文本S1及S2最终的相似度;
所述步骤A中,在信息检索时为提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词就被称为停用词,停用词大致可分为如下两类:一类是使用十分广泛,甚至是过于频繁的一些单词,如“我”、“是”等;另一类是文本中实际意义不大的词,这类词包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定作用的词语,如常见的“的”、“在”、“和”、“接着”之类。通过对问答所属领域的大量文本样本做特征分析,计算度量词重要性的值,如tf-idf、信息增益等,生成问答所属领域停用词集合,结合通用领域停用词,得到最终的停用词集合,停用词去除就是对分词后的词序列删除属于停用词集合中的词。
冗余词过滤是指将语义上重复冗余的词去掉,将两个中文文本分词后得到的各词语分别与预设的语义模板进行匹配,通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语,将所述上位的词语识别为语义冗余的词语,进一步滤除。
同义词映射是通过构建同义词库来解决的,在同义词库中,语义相同但表述不同的词会聚类在一起,每个聚类会选取一个词作为该类的中心词,同义词映射就是将分词后的每个词映射为其所属聚类的中心词。
所述步骤B中,中文文本S1及S2对应的向量VS1和VS2首先会被初始化为k维的向量(0,0,…,0)。接下来遍历集合CS中的关键词,若某关键词在集合CS1中存在,则将S1对应向量中相应位置标记为1,否则为0,遍历完集合CS后就得到了S1的向量表示(记为VS1={v11,v12,...,v1k}),同理可以得到S2的向量表示(记为VS2={v21,v22,...,v2k})。
所述步骤C中,相似度计算的结果表示为一个实数,取值范围是[0,1],规定相似度为1表示语义完全相似,相似度为0表示语义完全不同,相似度介于0和1之间时,与1越靠近,表示两个文本越相似,与0越靠近,表示二者越不相关;
所述步骤C中,基于重合的关键词的文本相似度(Simtext(S1,S2))计算如下:
其中,
非重合关键词语义相似度对比Vs1与Vs2,将所有v1i≠v2i所对应的关键词组成一个集合,记为Cs′={w′1,...,w′m+n-k},进一步,分别计算:
C′S1=CS1-(CS1∩CS2)
C′S2=CS2-(CS1∩CS2)
对于Cs′中每个元素,通过Word2Vec计算与C′s1中每个元素的相似度,取最大值,从而得到一个m+n-k维的向量V′s1,同样对于C′s2也会得到一个m+n-k维的向量V′s2,计算得到的两个m+n-k维的向量V′s1以及V′s2的余弦相似度,从而得到非重合关键词语义相似度(Simsemantic(S1,S2)),如下:
Simsemantic(S1,S2)=Simcos(V′S1,V′S2)
其中,
综合相似度在得到了重合关键词文本相似度和非重合关键词语义相似度,通过加权和即得到中文文本S1及S2最终的语义相似度(Sim(S1,S2)),如下:
Sim(S1,S2)=θ1·Simtext(S1,S2)+θ2·Simsemantic(S1,S2)
其中,θ1+θ2=1。
实施例
有两个中文文本,
S1=东京有什么值得推荐的美食
S2=东京有什么值得推荐的景点
经预处理后得到两组关键词集合Cs1和Cs2,分别为Cs1:{东京,推荐,美食},Cs2:{东京,推荐,景点},并集Cs:{东京,推荐,美食,景点},向量表示为:
Vs1={1,1,1,0}
Vs2={1,1,0,1}
重合关键词文本相似度为:
对于非重合关键词语义相似度,首先计算,
CS′={美食,景点}
C′S1=CS1-(CS1∩CS2)={美食}
C′S2=CS2-(XS1∩CS2)={景点}
V′S1={max(Word2Vex(美食,美食)),max(Word2Vec(景点,美食))}
={1,0.15}
C′S2={max(Word2Vec(美食,景点)),max(Word2Vec(景点,景点))}
={0.15,1}
非重合关键词语义相似度为:
Simsemantic(S1,S2)=Simcos(V′S1,V′S2)=0.29
这里,设置θ1=0.3,θ2=0.7,最终,综合相似度为:
Sim(S1,S2)=θ1·Simtext(S1,S2)+θ2·Simsemantic(S1,S2)
=0.35
示例二、
有两个中文文本,
S1=东京的美食有哪些
S2=东京的美食天妇罗最正宗的门店是那个
经预处理后得到两组关键词集合Cs1和Cs2,分别为Cs1:{东京,美食},Cs2:{东京,美食,天妇罗,正宗,门店},并集Cs:{东京,美食,天妇罗,正宗,门店},向量表示为:
Vs1={1,1,0,0,0}
Vs2={1,1,1,1,1}
重合关键词文本相似度为:
非重合关键词语义相似度为:
Simsemantic(S1,S2)=Simcos(V′S1,V′S2)=0
这里,设置θ1=0.3,θ2=0.7。最终,综合相似度为:
Sim(S1,S2)=θ1·Simtext(S1,S2)+θ2Simsemantic(S1,S2)=0.12
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (7)
1.一种基于Word2Vec的中文问答语义相似度计算方法,其特征在于,包括以下步骤:
步骤A,文本预处理,使用IKAnalyzer将一个汉字序列切分成一个一个单独的词,实现中文文本的分词;
步骤B,向量表示,假设有两个中文文本:S1以及S2,经预处理后得到两组关键词集合CS1和CS2,分别表示为CS1:{w11,w12,...,W1m},CS2:{w21,w22,...,w2n},通过计算两个集合CS1和CS2的并集得到CS,
CS=CS1∪CS2={w1,w2,...,wk}
其中k≤m+n;
步骤C,相似度计算,集合会存在重合的关键词以及非重合的关键词。基于重合的关键词,通过简单的匹配计算文本相似度;基于非重合的关键词,通过Word2Vec计算语义相似度,结合重合关键词文本相似度和非重合关键词语义相似度,得到中文文本S1及S2最终的相似度。
2.根据权利要求1所述的一种基于Word2Vec的中文问答语义相似度计算方法,其特征在于:所述步骤A中,在信息检索时为提高搜索效率,在处理自然语言数据之前或之后会自动过滤停用词,通过对问答所属领域的大量文本样本做特征分析,计算度量词重要性的值,结合通用领域停用词,得到最终的停用词集合,停用词去除就是对分词后的词序列删除属于停用词集合中的词;
冗余词过滤是指将语义上重复冗余的词去掉,将两个中文文本分词后得到的各词语分别与预设的语义模板进行匹配,通过匹配到的语义模板识别出在一个句子中同时出现的上位和下位的词语,将所述上位的词语识别为语义冗余的词语,进一步滤除;
同义词映射是通过构建同义词库来解决的,在同义词库中,语义相同但表述不同的词会聚类在一起,每个聚类会选取一个词作为该类的中心词,同义词映射就是将分词后的每个词映射为其所属聚类的中心词。
3.根据权利要求1所述的一种基于Word2Vec的中文问答语义相似度计算方法,其特征在于:所述步骤B中,中文文本S1及S2对应的向量VS1和VS2首先会被初始化为k维的向量(0,0,…,0);遍历集合CS中的关键词,若某关键词在集合CS1中存在,则将S1对应向量中相应位置标记为1,否则为0,遍历完集合CS后就得到了S1的向量表示(记为VS1={v11,v12,...,v1k}),同理可以得到S2的向量表示(记为VS2={v21,v22,...,v2k})。
4.根据权利要求1所述的一种基于Word2Vec的中文问答语义相似度计算方法,其特征在于:所述步骤C中,相似度计算的结果表示为一个实数,取值范围是[0,1],规定相似度为1表示语义完全相似,相似度为0表示语义完全不同,相似度介于0和1之间时,与1越靠近,表示两个文本越相似,与0越靠近,表示二者越不相关。
5.根据权利要求1所述的一种基于Word2Vec的中文问答语义相似度计算方法,其特征在于:所述步骤C中,基于重合的关键词的文本相似度(Simtext(S1,S2))计算如下:
<mrow>
<msub>
<mi>Sim</mi>
<mrow>
<mi>t</mi>
<mi>e</mi>
<mi>x</mi>
<mi>t</mi>
</mrow>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>S</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mn>1</mn>
<mi>k</mi>
</mfrac>
<msubsup>
<mi>&Sigma;</mi>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>k</mi>
</msubsup>
<mi>c</mi>
<mi>o</mi>
<mi>m</mi>
<mi>p</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>v</mi>
<mrow>
<mn>1</mn>
<mi>i</mi>
</mrow>
</msub>
<mo>,</mo>
<msub>
<mi>v</mi>
<mrow>
<mn>2</mn>
<mi>i</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
其中,
6.根据权利要求1所述的一种基于Word2Vec的中文问答语义相似度计算方法,其特征在于:所述步骤C中,非重合关键词语义相似度对比Vs1与Vs2,将所有v1i≠v2i所对应的关键词组成一个集合,记为C′S={w′1,...,w′m+n-k},进一步,分别计算:
C′S1=CS1-(CS1∩CS2)
C′S2=CS2-(CS1∩CS2)
对于Cs'中每个元素,通过Word2Vec计算与C's1中每个元素的相似度,取最大值,从而得到一个m+n-k维的向量V's1,同样对于C's2也会得到一个m+n-k维的向量V's2,计算得到的两个m+n-k维的向量V's1以及V's2的余弦相似度,从而得到非重合关键词语义相似度(Simsemantic(S1,S2)),如下:
Simsemantic(S1,S2)=Simcos(V′S1,V′S2)
其中,
7.根据权利要求1所述的一种基于Word2Vec的中文问答语义相似度计算方法,其特征在于:所述步骤C中,综合相似度在得到了重合关键词文本相似度和非重合关键词语义相似度,通过加权和即得到中文文本S1及S2最终的语义相似度(Sim(S1,S2)),如下:
Sim(S1,S2)=θ1·Simtext(S1,S2)+θ2·Simsemantic(S1,S2)
其中,θ1+θ2=1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710661607.8A CN107436864B (zh) | 2017-08-04 | 2017-08-04 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710661607.8A CN107436864B (zh) | 2017-08-04 | 2017-08-04 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107436864A true CN107436864A (zh) | 2017-12-05 |
CN107436864B CN107436864B (zh) | 2021-03-02 |
Family
ID=60460989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710661607.8A Active CN107436864B (zh) | 2017-08-04 | 2017-08-04 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107436864B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170684A (zh) * | 2018-01-22 | 2018-06-15 | 京东方科技集团股份有限公司 | 文本相似度计算方法及系统、数据查询系统和计算机产品 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN108363692A (zh) * | 2018-02-13 | 2018-08-03 | 成都智库二八六信息技术有限公司 | 一种句子相似度的计算方法及基于该方法的舆情监督方法 |
CN108376144A (zh) * | 2018-01-12 | 2018-08-07 | 上海大学 | 基于深度神经网络的场景自动切换的人机多轮对话方法 |
CN108595415A (zh) * | 2018-03-26 | 2018-09-28 | 北京北大英华科技有限公司 | 一种法律差异化判定方法、装置及计算机设备、存储介质 |
CN109189931A (zh) * | 2018-09-05 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 一种目标语句的筛选方法及装置 |
CN109657232A (zh) * | 2018-11-16 | 2019-04-19 | 北京九狐时代智能科技有限公司 | 一种意图识别方法 |
CN109858017A (zh) * | 2018-12-24 | 2019-06-07 | 北京天融信网络安全技术有限公司 | 一种数据处理方法及电子设备 |
CN109858015A (zh) * | 2018-12-12 | 2019-06-07 | 湖北工业大学 | 一种基于ctw和km算法的语义相似度计算方法及装置 |
CN109857841A (zh) * | 2018-12-05 | 2019-06-07 | 厦门快商通信息技术有限公司 | 一种faq问句文本相似度计算方法及系统 |
CN109885657A (zh) * | 2019-02-18 | 2019-06-14 | 武汉瓯越网视有限公司 | 一种文本相似度的计算方法、装置及存储介质 |
CN110164447A (zh) * | 2019-04-03 | 2019-08-23 | 苏州驰声信息科技有限公司 | 一种口语评分方法及装置 |
CN110276071A (zh) * | 2019-05-24 | 2019-09-24 | 众安在线财产保险股份有限公司 | 一种文本匹配方法、装置、计算机设备及存储介质 |
CN110348006A (zh) * | 2019-06-11 | 2019-10-18 | 平安科技(深圳)有限公司 | 问题信息的生成方法、装置、计算机设备及其存储介质 |
CN111126077A (zh) * | 2019-12-30 | 2020-05-08 | 东软集团股份有限公司 | 判断医疗术语一致的方法、装置、存储介质及处理器 |
CN111160028A (zh) * | 2019-12-31 | 2020-05-15 | 东软集团股份有限公司 | 判断两个文本语义相似度的方法、装置、存储介质及设备 |
CN111178059A (zh) * | 2019-12-07 | 2020-05-19 | 武汉光谷信息技术股份有限公司 | 一种基于word2vec技术的相似度比较方法及装置 |
CN111274783A (zh) * | 2020-01-14 | 2020-06-12 | 广州供电局有限公司 | 一种基于语义相似分析的围串标智能识别方法 |
CN111382255A (zh) * | 2020-03-17 | 2020-07-07 | 北京百度网讯科技有限公司 | 用于问答处理的方法、装置、设备和介质 |
CN111401076A (zh) * | 2020-04-09 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 一种文本的相似度确定方法、装置和电子设备 |
CN112364947A (zh) * | 2021-01-14 | 2021-02-12 | 北京崔玉涛儿童健康管理中心有限公司 | 一种文本相似度计算方法和装置 |
CN112699663A (zh) * | 2021-01-07 | 2021-04-23 | 中通天鸿(北京)通信科技股份有限公司 | 一种基于多种算法结合的语义理解系统 |
CN117371439A (zh) * | 2023-12-04 | 2024-01-09 | 环球数科集团有限公司 | 一种基于aigc的相似词判断方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021223A (zh) * | 2016-05-09 | 2016-10-12 | Tcl集团股份有限公司 | 一种句子相似度的计算方法及系统 |
WO2016180270A1 (zh) * | 2015-05-08 | 2016-11-17 | 广州市动景计算机科技有限公司 | 网页分类方法和装置、计算设备以及机器可读存储介质 |
-
2017
- 2017-08-04 CN CN201710661607.8A patent/CN107436864B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016180270A1 (zh) * | 2015-05-08 | 2016-11-17 | 广州市动景计算机科技有限公司 | 网页分类方法和装置、计算设备以及机器可读存储介质 |
CN106021223A (zh) * | 2016-05-09 | 2016-10-12 | Tcl集团股份有限公司 | 一种句子相似度的计算方法及系统 |
Non-Patent Citations (2)
Title |
---|
KINGA BUDAI ET AL.: "Learning Relations using Semantic-based Vector Similarity", 《2016 IEEE 12TH INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTER COMMUNICATION AND PROCESSING》 * |
李峰 等: "融合词向量的多特征句子相似度计算方法研究", 《计算机科学与探索》 * |
Cited By (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108376144A (zh) * | 2018-01-12 | 2018-08-07 | 上海大学 | 基于深度神经网络的场景自动切换的人机多轮对话方法 |
US11281861B2 (en) | 2018-01-22 | 2022-03-22 | Boe Technology Group Co., Ltd. | Method of calculating relevancy, apparatus for calculating relevancy, data query apparatus, and non-transitory computer-readable storage medium |
CN108170684B (zh) * | 2018-01-22 | 2020-06-05 | 京东方科技集团股份有限公司 | 文本相似度计算方法及系统、数据查询系统和计算机产品 |
CN108170684A (zh) * | 2018-01-22 | 2018-06-15 | 京东方科技集团股份有限公司 | 文本相似度计算方法及系统、数据查询系统和计算机产品 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
WO2019153607A1 (zh) * | 2018-02-09 | 2019-08-15 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN108363692A (zh) * | 2018-02-13 | 2018-08-03 | 成都智库二八六信息技术有限公司 | 一种句子相似度的计算方法及基于该方法的舆情监督方法 |
CN108363692B (zh) * | 2018-02-13 | 2021-04-02 | 成都智库二八六一信息技术有限公司 | 一种句子相似度的计算方法及基于该方法的舆情监督方法 |
CN108595415B (zh) * | 2018-03-26 | 2022-06-14 | 北京北大英华科技有限公司 | 一种法律差异化判定方法、装置及计算机设备、存储介质 |
CN108595415A (zh) * | 2018-03-26 | 2018-09-28 | 北京北大英华科技有限公司 | 一种法律差异化判定方法、装置及计算机设备、存储介质 |
CN109189931A (zh) * | 2018-09-05 | 2019-01-11 | 腾讯科技(深圳)有限公司 | 一种目标语句的筛选方法及装置 |
CN109657232A (zh) * | 2018-11-16 | 2019-04-19 | 北京九狐时代智能科技有限公司 | 一种意图识别方法 |
CN109857841A (zh) * | 2018-12-05 | 2019-06-07 | 厦门快商通信息技术有限公司 | 一种faq问句文本相似度计算方法及系统 |
CN109858015A (zh) * | 2018-12-12 | 2019-06-07 | 湖北工业大学 | 一种基于ctw和km算法的语义相似度计算方法及装置 |
CN109858017B (zh) * | 2018-12-24 | 2023-07-07 | 北京天融信网络安全技术有限公司 | 一种数据处理方法及电子设备 |
CN109858017A (zh) * | 2018-12-24 | 2019-06-07 | 北京天融信网络安全技术有限公司 | 一种数据处理方法及电子设备 |
CN109885657B (zh) * | 2019-02-18 | 2021-04-27 | 武汉瓯越网视有限公司 | 一种文本相似度的计算方法、装置及存储介质 |
CN109885657A (zh) * | 2019-02-18 | 2019-06-14 | 武汉瓯越网视有限公司 | 一种文本相似度的计算方法、装置及存储介质 |
CN110164447A (zh) * | 2019-04-03 | 2019-08-23 | 苏州驰声信息科技有限公司 | 一种口语评分方法及装置 |
CN110164447B (zh) * | 2019-04-03 | 2021-07-27 | 苏州驰声信息科技有限公司 | 一种口语评分方法及装置 |
CN110276071B (zh) * | 2019-05-24 | 2023-10-13 | 众安在线财产保险股份有限公司 | 一种文本匹配方法、装置、计算机设备及存储介质 |
CN110276071A (zh) * | 2019-05-24 | 2019-09-24 | 众安在线财产保险股份有限公司 | 一种文本匹配方法、装置、计算机设备及存储介质 |
CN110348006A (zh) * | 2019-06-11 | 2019-10-18 | 平安科技(深圳)有限公司 | 问题信息的生成方法、装置、计算机设备及其存储介质 |
CN111178059B (zh) * | 2019-12-07 | 2023-08-25 | 武汉光谷信息技术股份有限公司 | 一种基于word2vec技术的相似度比较方法及装置 |
CN111178059A (zh) * | 2019-12-07 | 2020-05-19 | 武汉光谷信息技术股份有限公司 | 一种基于word2vec技术的相似度比较方法及装置 |
CN111126077B (zh) * | 2019-12-30 | 2023-04-25 | 东软集团股份有限公司 | 判断医疗术语一致的方法、装置、存储介质及处理器 |
CN111126077A (zh) * | 2019-12-30 | 2020-05-08 | 东软集团股份有限公司 | 判断医疗术语一致的方法、装置、存储介质及处理器 |
CN111160028B (zh) * | 2019-12-31 | 2023-05-16 | 东软集团股份有限公司 | 判断两个文本语义相似度的方法、装置、存储介质及设备 |
CN111160028A (zh) * | 2019-12-31 | 2020-05-15 | 东软集团股份有限公司 | 判断两个文本语义相似度的方法、装置、存储介质及设备 |
CN111274783A (zh) * | 2020-01-14 | 2020-06-12 | 广州供电局有限公司 | 一种基于语义相似分析的围串标智能识别方法 |
CN111274783B (zh) * | 2020-01-14 | 2022-12-06 | 广东电网有限责任公司广州供电局 | 一种基于语义相似分析的围串标智能识别方法 |
CN111382255A (zh) * | 2020-03-17 | 2020-07-07 | 北京百度网讯科技有限公司 | 用于问答处理的方法、装置、设备和介质 |
CN111401076A (zh) * | 2020-04-09 | 2020-07-10 | 支付宝(杭州)信息技术有限公司 | 一种文本的相似度确定方法、装置和电子设备 |
CN111401076B (zh) * | 2020-04-09 | 2023-04-25 | 支付宝(杭州)信息技术有限公司 | 一种文本的相似度确定方法、装置和电子设备 |
CN112699663A (zh) * | 2021-01-07 | 2021-04-23 | 中通天鸿(北京)通信科技股份有限公司 | 一种基于多种算法结合的语义理解系统 |
CN112364947B (zh) * | 2021-01-14 | 2021-06-29 | 北京育学园健康管理中心有限公司 | 一种文本相似度计算方法和装置 |
CN112364947A (zh) * | 2021-01-14 | 2021-02-12 | 北京崔玉涛儿童健康管理中心有限公司 | 一种文本相似度计算方法和装置 |
CN117371439A (zh) * | 2023-12-04 | 2024-01-09 | 环球数科集团有限公司 | 一种基于aigc的相似词判断方法 |
CN117371439B (zh) * | 2023-12-04 | 2024-03-08 | 环球数科集团有限公司 | 一种基于aigc的相似词判断方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107436864B (zh) | 2021-03-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107436864A (zh) | 一种基于Word2Vec的中文问答语义相似度计算方法 | |
Khan et al. | Abstractive text summarization based on improved semantic graph approach | |
Cao et al. | Attsum: Joint learning of focusing and summarization with neural attention | |
Madabushi et al. | High accuracy rule-based question classification using question syntax and semantics | |
US8452772B1 (en) | Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere | |
Zubrinic et al. | The automatic creation of concept maps from documents written using morphologically rich languages | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
KR20160060253A (ko) | 자연어 질의 응답 시스템 및 방법 | |
CN106202153A (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
Yin et al. | Facto: a fact lookup engine based on web tables | |
JPWO2014033799A1 (ja) | 単語意味関係抽出装置 | |
Haug et al. | Neural multi-step reasoning for question answering on semi-structured tables | |
Sahu et al. | Prashnottar: a Hindi question answering system | |
Verma et al. | A novel approach for text summarization using optimal combination of sentence scoring methods | |
Qiu et al. | ChineseTR: A weakly supervised toponym recognition architecture based on automatic training data generator and deep neural network | |
Yan et al. | Response selection from unstructured documents for human-computer conversation systems | |
Chen et al. | A synergistic framework for geographic question answering | |
Onal et al. | Named entity recognition from scratch on social media | |
Wu et al. | English vocabulary online teaching based on machine learning recognition and target visual detection | |
Derici et al. | A closed-domain question answering framework using reliable resources to assist students | |
Chakrabarti et al. | Open domain question answering using web tables | |
Liu et al. | Reducing repetition in convolutional abstractive summarization | |
Makhalova et al. | Pattern Structures for News Clustering. | |
Ouyang et al. | Representation learning with entity topics for knowledge graphs | |
Dey et al. | NTCIR-12 MOBILECLICK: Sense-based Ranking and Summarization of English Queries. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20210128 Address after: 100043 No. 717, 7th floor, building 6, yard 49, Badachu Road, Shijingshan District, Beijing (cluster registration) Applicant after: Knowledge intelligence technology (Beijing) Co.,Ltd. Address before: 100015 1904, Hongyuan building, No.4, Jiuxianqiao Road, Chaoyang District, Beijing Applicant before: EASYTO (BEIJING) TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |