CN103377239B - 计算文本间相似度的方法和装置 - Google Patents

计算文本间相似度的方法和装置 Download PDF

Info

Publication number
CN103377239B
CN103377239B CN201210126862.XA CN201210126862A CN103377239B CN 103377239 B CN103377239 B CN 103377239B CN 201210126862 A CN201210126862 A CN 201210126862A CN 103377239 B CN103377239 B CN 103377239B
Authority
CN
China
Prior art keywords
text
words
similarity
weight
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210126862.XA
Other languages
English (en)
Other versions
CN103377239A (zh
Inventor
高小平
宋国龙
田国刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201210126862.XA priority Critical patent/CN103377239B/zh
Publication of CN103377239A publication Critical patent/CN103377239A/zh
Application granted granted Critical
Publication of CN103377239B publication Critical patent/CN103377239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种计算文本间相似度的方法和装置,涉及计算机文本信息处理领域,能够提高文本间语义相似度计算的准确性。本发明实施例的计算文本间相似度的方法,包括:根据归一化模板对待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组;查询归一化后的所述第一文本和第二文本位于同一个近义词聚类中的近义词,并获取所述近义词的语义相似度;获取所述第一文本和第二文本中各个词语或词组的权重;根据所述近义词的语义相似度、所述权重和预设的语义相似度模型,计算所述第一文本和第二文本的相似度。

Description

计算文本间相似度的方法和装置
技术领域
本发明涉及计算机文本信息处理领域,尤其涉及一种计算文本间相似度的方法和装置。
背景技术
文本相似度计算技术是计算机文档处理中经常使用的方法,常用在文档分类、聚类、文档检索相关性等应用中,用来比较两个文档的相似度。随着计算机对文本信息等各种自然语言处理应用的普及,人们需要一个有效且准确的方法来计算两个文本或句子之间的文本相似度,即计算机文本相似度计算方法。
按处理的文档长度可以将文档分为两类:长文档与短文本。一般的,长文档是指词个数达到几十或更长的一篇文档,例如网页新闻报告、使用说明书等;短文本是指词个数在20以内的短的文档,例如用户提出的查询、新闻快讯、一条微博等。尤其,短文本相似度的计算具有十分重要的作用,它的应用能极大地提高系统自动问答的精度。
现有技术中,文本相似度计算方法通过对文本用其词频向量表示,然后计算词频向量间的距离得到文本相似度。然而,现有技术方案通常只考虑到两个文本间相同的词与其词权重,但由于语言的灵活性,经常发生多个语句意义相同的情况,仅考虑相同词会忽略近义词、同义词和同一个意思不同说法等因素的影响,因此,相似度计算容易出现计算失真。
发明内容
本发明的实施例所要解决的技术问题在于提供一种计算文本间相似度的方法和装置,能够准确计算文本间的相似度。
为解决上述技术问题,本发明的实施例采用如下技术方案:
一种计算文本间相似度的方法,包括:
根据归一化模板对待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组;
查询归一化后的所述第一文本和第二文本位于同一个近义词聚类中的近义词,并获取所述近义词的语义相似度;
获取所述第一文本和第二文本中各个词语或词组的权重;
根据所述近义词的语义相似度、所述权重和预设的语义相似度模型,计算所述第一文本和第二文本的相似度。
一种计算文本间相似度的装置,包括:
归一化单元,用于根据归一化模板对待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组;
语义相似度获取单元,用于查询归一化后的所述第一文本和第二文本位于同一个近义词聚类中的近义词,并获取所述近义词的语义相似度;
权重获取单元,用于获取所述第一文本和第二文本中各个词语或词组的权重;
相似度计算单元,用于根据所述近义词的语义相似度、所述权重和预设的语义相似度模型,计算所述第一文本和第二文本的相似度。
本实施例的计算文本间相似度的方法和装置,首先通过将待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组,并将拆分后的词语或词组分别映射到归一化模板中,避免了现有技术仅比较字面相似度,不能解决因相同意思不同表达而导致误判的问题,大大减小了因匹配的二义性而造成的错误率,此外,本发明通过近义词聚类来获取近义词的语义相似度,所得到的数据更为准确,并且在计算文本间的语义相似度时,不受文本长短的限制,适用范围广,准确度高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的计算文本间相似度的方法的流程示意图;
图2为本发明实施例中归一化处理的流程示意图;
图3为本发明实施例中计算文本间相似度的装置的示意图;
图4为本发明实施例中归一化单元的示意图;
图5为本发明实施例中不同的语义块的示意图之一;
图6为本发明实施例中不同的语义块的示意图之二。
具体实施方式
本发明实施例提供一种计算文本间相似度的方法和装置,能够准确计算文本间的相似度。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透切理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
本实施例提供一种计算文本间相似度的方法,如图1所示,该方法包括:
步骤101、根据归一化模板对待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组。
本实施例中,文本的归一化是指当待分析的文本中的词语匹配上任何一个模版中的“源词语或词组”时,将该词语或词组映射到“标准化的词语或词组”,后续的分析和模型计算均在归一化后的文本上进行。
在实际的语言表达中,由于语言的灵活性,具有同一个意义的不同表达方式非常之多,例如“从北京到天津怎么走”与“从北京到天津的路线”表达的是同一个意思。类似的还有“圣诞节是几月几号”与“圣诞节是哪天”等。本实施例中采用基于模版匹配的技术来将不同的表述归一化。具体的,常用的归一化模板可以由人工收集和验证,归一化模板尽可能涵盖各种常用语的组合,将其归一化到书面语格式。
示例性的,归一化模板格式如下:
表1
源词语或词组 标准化的词语或词组
{A}到{B}怎么走 {A}到{B}的路线
{A}多少钱 {A}的价格
{A}是何时 {A}是什么时间
{A}是什么时候 {A}是什么时间
{A}是哪天 {A}是什么时间
{A}是几月几号 {A}是什么时间
进一步的,如图2所示,步骤101具体包括以下步骤:
步骤1011、将所述第一文本和第二文本拆分为若干个词语或词组。
由于归一化模版的匹配是以词语或词组为粒度的,因此,需要首先将第一文本和第二文本拆分为若干个词语或词组,以减小匹配的二义性而造成的错误率。
以第一文本“圣诞节是几月几号”与第二文本“圣诞节是哪天”为例,第一文本可拆分为“圣诞节/是几月几号”;第二文本可拆分为“圣诞节/是哪天”。
步骤1012、将拆分后的词语或词组分别映射到所述归一化模板中,得到相对应的词语或词组。
示例性的,第一文本“圣诞节/是几月几号”与第二文本“圣诞节/是哪天”,通过匹配归一化模板,“是几月几号”和“是哪天”均映射到“是什么时间”上,因此,可以将第一文本转换为“圣诞节是什么时间”,将第二文本转换为“圣诞节是什么时间”。通过上述步骤,意义相同的词语或词组统一为同一个词语或词组。
步骤102、查询归一化后的所述第一文本和第二文本位于同一个近义词聚类中的近义词,并获取所述近义词的语义相似度。
在完成归一化后,需要找出第一文本与第二文本中的近义词,进而获得该近义词的语义相似度。本实施例采用近义词聚类的方法来查找近义词。近义词聚类是指将所有意义相近的词聚成一类,例如“高兴”、“愉快”、“愉悦”这些词都可以表示“高兴”的意思,因此当两个文本中包含同一近义词聚类中的词对时,该词对一定程度上表示了语义的相似度,例如“和你合作很愉快”与“和你合作很愉悦”。
可选的,近义词聚类的数据源,可来自同义词词典或近义词词典,本实施例中,称同义词词典或近义词词典为原始词典。
下面就如何获得近义词聚类做详细介绍。
首先将词典中的所有同义词近义词对之间的相似度初始化为1,例如,当词典中存在近义词对<si,sj>时,定义simi,j=1。
定义词对之间的相似度之后,再定义两个聚类Cm和Cn之间的相似度为:
Figure GDA0002433916600000051
其中simi,j表示两个近义词si和sj之间的相似度。本实施例中,同一个近义词聚类中的词语互为近义词,不同近义词聚类的词语之间的语义相似度为0,完全相同的两个词语之间的语义相似度为1。
示例性的,近义词聚类的生成可以采用层次聚类方法,该方法具体包括以下步骤:
步骤a:扫描原始词典,将所有相似度为1的近义词对分别聚成一个聚类,每个聚类有两个词语或词组;
步骤b:根据类间相似度定义公式1,查找类间相似度simm,n最大的两个聚类,并将其合并成一个新的聚类;
步骤c:判断是否达到终止条件,如果已经达到终止条件,则结束近义词聚类进程;如果没有,则返回步骤b继续聚类。终止条件可以是某一固定的迭代次数,或者聚类间的相似度均小于第一阈值,或者类的个数小于第二阈值等。
聚类完毕后,为每个近义词聚类分配一个ID,定义近义词聚类中两个词si和sj之间在某一条路径
Figure GDA0002433916600000061
上产生的相似度为:
Figure GDA0002433916600000062
其中γ为每一步产生的衰减系数,且满足0<γ<1。
定义每个近义词聚类中两个词si和sj的相似度如下:
1.当词对si和sj出现在原始词典中时,定义simi,j=1;
2.当si和sj不在原始词典中,但位于同一近义词聚类中时,定义si和sj之间的相似度为si和sj的所有可达路径的相似度的最大值,公式为:
Figure GDA0002433916600000071
示例性的,近义词聚类的表示如下:
表2
Figure GDA0002433916600000072
由于两个近义词si和sj之间的相似度是对称的,因此simi,j=simj,i
步骤103、获取第一文本和第二文本中各个词语或词组的权重。
具体的,本实施例中,获取权重的方法可以从现有的权重值数据库中查询得到。可选的,权重的获取方法可以由公式计算得到,具体的计算方法如下:
首先定义词t在所有文档中的逆向文档频率IDF(inverse document frequency)为:
Figure GDA0002433916600000073
IDF与所有文档中词t出现的文档数|{d'∈D|t∈d'}|有关,|{d'∈D|t∈d'}|越多idft越低,说明t越不重要,反之说明t越重要。
文档中每个词对应的词权重:
Figure GDA0002433916600000081
其中tft,d是词t在文档d中的频次(term frequency),即t在d中出现的次数。
示例性的,经过步骤102的查询,第一文本“现在/最好/的/手机”与第二文本“哪里/卖/目前/最好/的/手机”中,“现在”和“目前”为近义词,且同属于聚类ID为1025的近义词聚类,两个词语之间的相似度为0.625,“现在”在第一文本中的权重为0.0842,“目前”在第二文本中的权重为0.1104。
两个文本中所有词语或词组对应的结果如下:
Figure GDA0002433916600000082
步骤104、根据所述近义词的语义相似度、所述权重和预设的语义相似度模型,计算所述第一文本和第二文本的相似度。
预设的语义相似度模型,即预定的计算第一文本和第二文本的相似度的方法。示例性的,本实施例中,第一文本dm和第二文本dn间相似度公式具体描述为:
Figure GDA0002433916600000091
其中,<si,sj>∈C表示有两个近义词<si,sj>属于近义词聚类C,simi,j为两个所述近义词之间的语义相似度,wi∈dm∩dn表示所述第一文本和第二文本之间完全相同的词语,wi∈dm,
Figure GDA0002433916600000093
wi∈dn,
Figure GDA0002433916600000094
表示第一文本和第二文本之间完全不相同的词语。上述公式的分子表示第一文本dm和第二文本dn之间语义相同和相近部分的权重,分母表示第一文本dm和第二文本dn之间的语义总权重,即:
相同词的权重(A)+近义词的权重(仅近义,B)+近义词的权重(非近义,C)+不同词的权重(D)
考虑到近义词对<si,sj>之间的关系,短文本dm和dn间相似度公式4可以等价地表示为:
Figure GDA0002433916600000092
不同的语义块(A,B,C,D)用图形表示如图5所示。
其中两个圆的相交部分表示语义相同和相近词的权重,其他部分表示语义不同的词权重。
例如“现在/最好/的/手机”和“哪里/买/目前/最好/的/手机”这两个短文本,表示如图6所示。
本实施例的计算文本间相似度的方法,首先通过将待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组,并将拆分后的词语或词组分别映射到归一化模板中,避免了普通方法仅比较字面相似度,不能解决“相同意思不同说法”导致误判的问题,也大大减小了因匹配的二义性而造成的错误率,此外,本发明通过近义词聚类来获取近义词的语义相似度,所得到的数据更为准确,并且在计算文本间的语义相似度时,不受文本长短的限制,适用范围广,准确度高。
与上述方法实施例相对应的,如图3所示,本实施例还提供一种计算文本间相似度的装置,包括:
归一化单元1,用于根据归一化模板对待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组;
语义相似度获取单元2,用于查询归一化后的所述第一文本和第二文本位于同一个近义词聚类中的近义词,并获取所述近义词的语义相似度;
权重获取单元3,用于获取所述第一文本和第二文本中各个词语或词组的权重;
相似度计算单元4,用于根据所述近义词的语义相似度、所述权重和预设的语义相似度模型,计算所述第一文本和第二文本的相似度。
进一步的,如图4所示,所述归一化单元1具体包括:
拆分模块11,用于将所述第一文本和第二文本拆分为若干个词语或词组;
映射模块12,用于将拆分后的词语或词组分别映射到所述归一化模板中,得到相对应的词语或词组。
进一步的,同一个所述近义词聚类中的词语互为近义词,不同所述近义词聚类的词语之间的语义相似度为0,完全相同的两个词语之间的语义相似度为1。
进一步的,所述语义相似度模型具体为:
Figure GDA0002433916600000111
其中,<si,sj>∈C表示有两个近义词<si,sj>属于近义词聚类C,simi,j为两个所述近义词之间的语义相似度,wi∈dm∩dn表示所述第一文本和第二文本之间完全相同的词语。
本实施例的计算文本间相似度的装置,首先通过归一化模块将待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组,并将拆分后的词语或词组分别映射到归一化模板中,避免了普通方法仅比较字面相似度,不能解决“相同意思不同说法”导致误判的问题,也大大减小了因匹配的二义性而造成的错误率,此外,本发明通过近义词聚类来获取近义词的语义相似度,所得到的数据更为准确,并且在计算文本间的语义相似度时,不受文本长短的限制,适用范围广,准确度高。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (9)

1.一种计算文本间相似度的方法,其特征在于,包括:
根据归一化模板对待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组;
以原始词典作为数据源,建立近义词聚类,查询归一化后的所述第一文本和第二文本位于同一个近义词聚类中的近义词,并获取所述近义词的语义相似度;
获取所述第一文本和第二文本中各个词语或词组的权重;
根据所述近义词的语义相似度、所述权重和预设的语义相似度模型,计算所述第一文本和第二文本的相似度;
其中,所述语义相似度模型为依据所述第一文本和第二文本之间语义相同和相近部分的权重与所述第一文本和第二文本之间的语义总权重的比值得到所述第一文本和第二文本的相似度;所述语义总权重包括:所述第一文本和第二文本之间相同词的权重、近义词的权重和不同词的权重;所述近义词的权重包括:近义词相同部分的权重和近义词不同部分的权重。
2.根据权利要求1所述的计算文本间相似度的方法,其特征在于,所述根据归一化模板对待分析的第一文本和第二文本进行归一化处理,具体包括:
将所述第一文本和第二文本拆分为若干个词语或词组;
将拆分后的词语或词组分别映射到所述归一化模板中,得到相对应的词语或词组。
3.根据权利要求1所述的计算文本间相似度的方法,其特征在于,同一个所述近义词聚类中的词语互为近义词,不同所述近义词聚类的词语之间的语义相似度为0,完全相同的两个词语之间的语义相似度为1。
4.根据权利要求1所述的计算文本间相似度的方法,其特征在于,所述语义相似度模型具体为:
Figure FDA0002433916590000021
其中,<si,sj>∈C表示有两个近义词<si,sj>属于近义词聚类C,simi,j为两个所述近义词之间的语义相似度,wi∈dm∩dn表示所述第一文本和第二文本之间完全相同的词语的权重。
5.根据权利要求1所述的计算文本间相似度的方法,其特征在于,所述近义词聚类的生成方法包括:
步骤a:扫描原始词典,将所有相似度为1的近义词对分别聚成一个聚类,每个所述聚类中包括两个词语或词组;
步骤b:根据类间相似度公式,查找类间相似度最大的两个聚类,并将其合并成一个新的聚类,所述类间相似度公式具体为:
Figure FDA0002433916590000022
步骤c:判断是否达到终止条件,所述终止条件为所述聚类间的相似度均小于第一阈值,或者所述聚类的个数小于第二阈值,
如果已经达到终止条件,则结束生成近义词聚类的进程,
如果没有达到终止条件,则返回步骤b继续聚类。
6.一种计算文本间相似度的装置,其特征在于,包括:
归一化单元,用于根据归一化模板对待分析的第一文本和第二文本进行归一化处理,以使意义相同的词语或词组统一为同一个词语或词组;
语义相似度获取单元,用于查询归一化后的所述第一文本和第二文本位于同一个近义词聚类中的近义词,并获取所述近义词的语义相似度,其中,所述近义词聚类是以原始词典为数据源建立;
权重获取单元,用于获取所述第一文本和第二文本中各个词语或词组的权重;
相似度计算单元,用于根据所述近义词的语义相似度、所述权重和预设的语义相似度模型,计算所述第一文本和第二文本的相似度;其中,所述语义相似度模型为依据所述第一文本和第二文本之间语义相同和相近部分的权重与所述第一文本和第二文本之间的语义总权重的比值得到所述第一文本和第二文本的相似度;所述语义总权重包括:所述第一文本和第二文本之间相同词的权重、近义词的权重和不同词的权重;所述近义词的权重包括:近义词相同部分的权重和近义词不同部分的权重。
7.根据权利要求6所述的计算文本间相似度的装置,其特征在于,所述归一化单元具体包括:
拆分模块,用于将所述第一文本和第二文本拆分为若干个词语或词组;
映射模块,用于将拆分后的词语或词组分别映射到所述归一化模板中,得到相对应的词语或词组。
8.根据权利要求6所述的计算文本间相似度的装置,其特征在于,同一个所述近义词聚类中的词语互为近义词,不同所述近义词聚类的词语之间的语义相似度为0,完全相同的两个词语之间的语义相似度为1。
9.根据权利要求6所述的计算文本间相似度的装置,其特征在于,所述语义相似度模型具体为:
Figure FDA0002433916590000031
其中,<si,sj>∈C表示有两个近义词<si,sj>属于近义词聚类C,simi,j为两个所述近义词之间的语义相似度,wi∈dm∩dn表示所述第一文本和第二文本之间完全相同的词语的权重。
CN201210126862.XA 2012-04-26 2012-04-26 计算文本间相似度的方法和装置 Active CN103377239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210126862.XA CN103377239B (zh) 2012-04-26 2012-04-26 计算文本间相似度的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210126862.XA CN103377239B (zh) 2012-04-26 2012-04-26 计算文本间相似度的方法和装置

Publications (2)

Publication Number Publication Date
CN103377239A CN103377239A (zh) 2013-10-30
CN103377239B true CN103377239B (zh) 2020-08-07

Family

ID=49462365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210126862.XA Active CN103377239B (zh) 2012-04-26 2012-04-26 计算文本间相似度的方法和装置

Country Status (1)

Country Link
CN (1) CN103377239B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731828B (zh) * 2013-12-24 2017-12-05 华为技术有限公司 一种跨领域文档相似度计算方法及装置
CN104182388A (zh) * 2014-07-21 2014-12-03 安徽华贞信息科技有限公司 一种基于语义分析的文本聚类系统及方法
CN104699667A (zh) * 2015-02-15 2015-06-10 深圳市前海安测信息技术有限公司 改进的基于语义词典的词语相似度计算方法和装置
CN106649413A (zh) 2015-11-04 2017-05-10 阿里巴巴集团控股有限公司 一种网页标签的分组方法和装置
CN105843926B (zh) * 2016-03-28 2019-03-12 北京掌沃云视媒文化传媒有限公司 现实信息索引的建立方法和基于云平台的全文检索系统
CN106372061B (zh) * 2016-09-12 2020-11-24 电子科技大学 基于语义的短文本相似度计算方法
CN108021547B (zh) * 2016-11-04 2021-05-04 株式会社理光 一种自然语言的生成方法、自然语言生成装置及电子设备
CN108984071B (zh) * 2017-06-01 2022-09-30 腾讯科技(深圳)有限公司 文本重组方法、装置、终端设备及计算机可读存储介质
CN108334628A (zh) * 2018-02-23 2018-07-27 北京东润环能科技股份有限公司 一种新闻事件聚类的方法、装置、设备和储存介质
CN110598200B (zh) * 2018-06-13 2023-05-23 北京百度网讯科技有限公司 语义识别方法及装置
CN109684629B (zh) * 2018-11-26 2022-12-16 东软集团股份有限公司 文本间相似度计算方法、装置、存储介质及电子设备
CN109800346B (zh) * 2019-01-11 2020-12-29 金蝶软件(中国)有限公司 文本匹配方法、装置、计算机设备和存储介质
CN109977995A (zh) * 2019-02-11 2019-07-05 平安科技(深圳)有限公司 文本模板识别方法、装置及计算机可读存储介质
CN110188165A (zh) * 2019-04-24 2019-08-30 平安科技(深圳)有限公司 合同模板获取方法、装置、存储介质和计算机设备
CN110991168B (zh) * 2019-12-05 2024-05-17 京东方科技集团股份有限公司 同义词挖掘方法、同义词挖掘装置及存储介质
CN112395868A (zh) * 2020-11-17 2021-02-23 长沙理工大学 一种基于词替换的快速安全的自然语言信息隐藏方法
CN112926298A (zh) * 2021-03-02 2021-06-08 北京百度网讯科技有限公司 新闻内容识别方法、相关装置及计算机程序产品
CN113743124B (zh) * 2021-08-25 2024-03-29 南京星云数字技术有限公司 一种智能问答异常的处理方法、装置及电子设备
CN116932721B (zh) * 2023-07-25 2024-06-04 深圳市神州云海智能科技有限公司 一种银行业务问答匹配方法、装置、客服机器人

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080126319A1 (en) * 2006-08-25 2008-05-29 Ohad Lisral Bukai Automated short free-text scoring method and system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN101079026A (zh) * 2007-07-02 2007-11-28 北京百问百答网络技术有限公司 文本相似度、词义相似度计算方法和系统及应用系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"一种结合词项语义信息和TF-IDF方法的文本相似度量方法";黄承慧 等;《计算机学报》;20110515;第34卷(第5期);第856-864页 *
"语义分析与词频统计相结合的中文文本相似度量方法研究";华秀丽 等;《计算机应用研究》;20120315;第29卷(第3期);第2章 *

Also Published As

Publication number Publication date
CN103377239A (zh) 2013-10-30

Similar Documents

Publication Publication Date Title
CN103377239B (zh) 计算文本间相似度的方法和装置
CN107436864B (zh) 一种基于Word2Vec的中文问答语义相似度计算方法
CN109783651B (zh) 提取实体相关信息的方法、装置、电子设备和存储介质
Chen et al. Unsupervised induction and filling of semantic slots for spoken dialogue systems using frame-semantic parsing
US10394956B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
US8452772B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere
CN107862070B (zh) 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN110019732B (zh) 一种智能问答方法以及相关装置
WO2021189951A1 (zh) 文本搜索方法、装置、计算机设备和存储介质
CN104199965B (zh) 一种语义信息检索方法
WO2021051517A1 (zh) 基于卷积神经网络的信息检索方法、及其相关设备
US20130060769A1 (en) System and method for identifying social media interactions
CN113076431B (zh) 机器阅读理解的问答方法、装置、计算机设备及存储介质
US20220261545A1 (en) Systems and methods for producing a semantic representation of a document
KR101717230B1 (ko) 재귀 오토인코더 기반 문장 벡터 모델링을 이용하는 문서 요약 방법 및 문서 요약 시스템
EP3762876A1 (en) Intelligent knowledge-learning and question-answering
CN110909126A (zh) 一种信息查询方法及装置
CN110727769B (zh) 语料库生成方法及装置、人机交互处理方法及装置
US20220365956A1 (en) Method and apparatus for generating patent summary information, and electronic device and medium
CN115186654A (zh) 一种公文文本摘要生成方法
Jia et al. A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth
CN105183774A (zh) 一种智能查询方法及系统
CN105512270B (zh) 一种确定相关对象的方法和装置
CN109992647B (zh) 一种内容搜索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131029

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518000 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131029

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: 518000 Guangdong city of Shenzhen province Futian District SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant