CN109145085A - 语义相似度的计算方法及系统 - Google Patents

语义相似度的计算方法及系统 Download PDF

Info

Publication number
CN109145085A
CN109145085A CN201810790941.8A CN201810790941A CN109145085A CN 109145085 A CN109145085 A CN 109145085A CN 201810790941 A CN201810790941 A CN 201810790941A CN 109145085 A CN109145085 A CN 109145085A
Authority
CN
China
Prior art keywords
text
context
similarity
participle
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810790941.8A
Other languages
English (en)
Other versions
CN109145085B (zh
Inventor
罗长寿
余军
魏清凤
郑亚明
王富荣
于维水
曹承忠
陆阳
郭强
王静宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Academy of Agriculture and Forestry Sciences
Original Assignee
Beijing Academy of Agriculture and Forestry Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Academy of Agriculture and Forestry Sciences filed Critical Beijing Academy of Agriculture and Forestry Sciences
Priority to CN201810790941.8A priority Critical patent/CN109145085B/zh
Publication of CN109145085A publication Critical patent/CN109145085A/zh
Application granted granted Critical
Publication of CN109145085B publication Critical patent/CN109145085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种语义相似度的计算方法及系统,其中方法包括:获取第一文本和第二文本;对所述第一文本和第二文本进行分词处理;确定用于进行语义相似度判断的语境,根据所述用于进行语义相似度判断的语境收集样本文本并构成样本文本集;对所述样本文本集中的各样本文本进行分词处理,根据所述样本文本集的分词结果建立所述样本文本集的语境图;根据所述第一文本的分词结果、第二文本的分词结果以及所述语境图,计算所述第一文本和第二文本的语义相似度。本发明实施例能够提升文本间的差异精度,使得语义相似度计算的准确性更高。

Description

语义相似度的计算方法及系统
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及语义相似度 的计算方法及系统。
背景技术
在问答系统中,通用聊天答案推送随机性强。但在专业应用领域, 回复内容需要精准。利用计算机识别“用户提问”与句库中已存在句 子进行语义比较的研究称为句子相似度研究。其作为自然语言处理中 一个关键性问题,一直是研究的热点和难点。句子相似度研究除了挖 掘句子本身词间关系及重叠度计算句子相似度外(如依赖于WordNet 架构和依赖于知网架构与语料库),基于神经网络的特征提取也开始得 到发展。
基于词语语义相似度的计算方法专家学者已进行了广泛的研究。 例如:基于词语共现的统计方法。该方法主要通过句中词频进行统计, 如TF-IDF算法、JaccardSimilarity Coefficient方法及Metzler基于 overlap的改进方法等。这些方法实现简单、高效,但完全忽略了句子 的词法及语义信息。另一种是基于词法和语义信息的方法。该方法考 虑了语义信息相关要素,但构建相对复杂,如基于本体的语义相似度 计算等。第三种,基于神经网络语料训练特征提取法,近年来也得到 了大力发展,如基于Word2vec的句子语义相似度计算研究等,其依赖 于语料的质量与数量,注重特征提取,忽略了句义的理解,不能实现 真正对语义的挖掘。第四种则是采用综合性融合手段的方法,如基于 多特征融合的句子语义相似度计算等。随着研究的深入,结合应用体 验发现,在实际应用中各种方法如果脱离了应用场景,其算法要么实 现复杂、要么效率低,不确定因素干扰多,有一定的操作局限性。因 此,现有技术提供了“一种基于语境的词语相似度计算方法”。该方法,在相似度计算方法的基础上,通过引入词语的上下文,采用模糊数学 的概念来评估词义相似度计算方法。该方法借鉴隶属度的相关定,构 造词语在上下文语境中的模糊重要度,提升了词的句义相似程度,但 在句子整体句义相似度上有不足。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的语 义相似度的计算方法及系统。
根据本发明的第一个方面,提供一种一种语义相似度的计算方法, 包括:
获取第一文本和第二文本;
对所述第一文本和第二文本进行分词处理;
确定用于进行语义相似度判断的语境,根据所述用于进行语义相 似度判断的语境收集样本文本并构成样本文本集;
对所述各样本文本进行分词处理,根据所述样本文本集的分词结 果建立所述样本文本集的语境图;
根据所述第一文本的分词结果、第二文本的分词结果以及所述语 境图,计算所述第一文本和第二文本的语义相似度;
其中,所述确定用于进行语义相似度判断的语境具体为:根据所 述第一文本的分词结果确定的第一文本的语境、根据所述第二文本的 分词结果确定的第二文本的语境,或者由所述第一文本的语境和第二 文本的语境结合而成;所述语境图为表示样本文本集中各分词间组合 关系的无向图。
根据本发明的第二个方面,提供一种语义相似度的计算系统,包 括:
文本获取模块,用于获取第一文本和第二文本;
分词处理模块,用于对所述第一文本和第二文本进行分词处理;
样本文本集获取模块,用于确定用于进行语义相似度判断的语境, 根据所述用于进行语义相似度判断的语境收集样本文本并构成样本文 本集,所述用于进行语义相似度判断的语境具体为:根据所述第一文 本的分词结果确定的第一文本的语境、根据所述第二文本的分词结果 确定的第二文本的语境,或者由所述第一文本的语境和第二文本的语 境结合而成;
语境图获取模块,用于对所述各样本文本进行分词处理,根据所 述样本文本集的分词结果建立所述样本文本集的语境图,所述语境图 为表示样本文本集中各分词间组合关系的无向图;
语义相似度计算模块,用于根据所述第一文本的分词结果、第二 文本的分词结果以及所述语境图,计算所述第一文本和第二文本的语 义相似度。
根据本发明的第三个方面,还提供一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器 调用所述程序指令能够执行第一方面的各种可能的实现方式中任一种 可能的实现方式所提供的语义相似度的计算方法。
根据本发明的第四个方面,还提供一种非暂态计算机可读存储介 质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指 令使所述计算机执行第一方面的各种可能的实现方式中任一种可能的 实现方式所提供的语义相似度的计算方法。
本发明提出的语义相似度的计算方法及系统,通过对获取的两个 文本进行分词,根据两个文本的分词结果获取样本文本集,以将两个 文本的语义相似度计算映射到与该两个文本相关的语境中进行分析, 以提升文本间的差异精度,使得语义相似度计算的准确性更高。需要 注意的是,本发明实施例的语境是基于一定数量的与第一文本和第二 文本相关的样本文本构建的,与现有的基于待比较语义相似度的一个 或两个文本中词语的上下文构建的语境完全不同,本发明实施例的语 境考虑到了大数据结构,是宏观上的语境。
附图说明
图1为根据本发明实施例的语义相似度的计算方法的流程示意图;
图2为根据本发明实施例的语境图;
图3为根据本发明实施例的根据第一文本的分词结果、第二文本 的分词结果以及语境图,计算第一文本和第二文本的语义相似度的流 程示意图;
图4为根据本发明实施例的根据语境图获得第一文本的任意一个 分词和第二文本的任意一个分词的相似度,以计算第一文本和第二文 本的偏移量相似度的流程示意图;
图5为根据本发明实施例的语义相似度的计算系统的功能框图;
图6为根据本发明实施例的电子设备的框图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细 描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
现有技术中关于词语语义相似度的计算方法有以下几种:第一种: 基于词语共现的统计方法。该方法主要通过句中词频进行统计,如 TF-IDF算法、Jaccard SimilarityCoefficient方法及Metzler基于overlap 的改进方法等。这些方法实现简单、高效,但完全忽略了句子的词法 及语义信息。第二种是基于词法和语义信息的方法。该方法考虑了语义信息相关要素,但构建相对复杂,如基于本体的语义相似度计算等。 第三种是基于神经网络语料训练特征提取法,近年来也得到了大力发 展,如基于Word2vec的句子语义相似度计算研究等,其依赖于语料的 质量与数量,注重特征提取,忽略了句义的理解,不能实现真正对语 义的挖掘。第四种则是采用综合性融合手段的方法,如基于多特征融 合的句子语义相似度计算等。随着研究的深入,结合应用体验发现, 在实际应用中各种方法如果脱离了应用场景,其算法要么实现复杂、 要么效率低,不确定因素干扰多,有一定的操作局限性。因此,现有 技术提供了“一种基于语境的词语相似度计算方法”。该方法,在相似 度计算方法的基础上,通过引入词语的上下文,采用模糊数学的概念 来评估词义相以度计算方法。该方法借鉴隶属度的相关定,构造词语 在上下文语境中的模糊重要度,提升了词的句义相似程度,但在句子 整体句义相似度上有不足。
为了克服现有技术的上述问题,本发明实施例提供一种语义相似 度的计算方法,其发明构思是,分别对获取的两个文本进行分词,根 据两个文本的分词结果获取样本文本集,以将两个文本的语义相似度 计算映射到与一个或两个文本相关的语境中进行分析,以提升文本间 的差异精度,使得语义相似度计算的准确性更高。需要注意的是,本 发明实施例的语境图是基于一定数量的与第一文本和/或第二文本相关 的样本文本构建的,体现了大数据的特性,与现有的基于待比较语义 相似度的一个或两个文本中词语的上下文构建的语境完全不同,本发 明实施例的语境是宏观上的语境。
图1示出了本发明实施例的语义相似度的计算方法的流程示意图, 如图所示,包括:
S101、获取第一文本和第二文本;
在本发明实施例中,获取第一文本和第二文本的过程可以为:
接收文本数据,并从文本数据中选取第一文本和第二文本。
接收语音数据,对语音数据进行语音识别得到经过语音识别的文 本数据,并从经过语音识别的文本数据选取第一文本和第二文本。
接收文本数据和语言数据,从文本数据和经过语音识别的文本数 据中分别选取第一文本和第二文本。
应当理解的是,上述获取第一文本和第二文本过程仅为几种可能 的实现方式,而不应对本发明实施例构成任何限定。
S102、对第一文本和第二文本进行分词处理。
为了更方便的描述本发明实施例的基本原理,分别用p1和p2表示 第一文本和第二文本,根据已有的分词技术,将p1和p2分别分词为S1、 S2、…Sm和W1、W2、…Wn,其中m是从p1分词得到的分词个数,n 是从p2分词得到的分词个数,这样便得到了第一文本的分词和第二文 本的分词,显然也得到了第一文本和第二文本各自的分词个数。
S103、确定用于进行语义相似度判断的语境,根据所述用于进行 语义相似度判断的语境收集样本文本并构成样本文本集,用于进行语 义相似度判断的语境具体为:根据所述第一文本的分词结果确定的第 一文本的语境、根据所述第二文本的分词结果确定的第二文本的语境, 或者由所述第一文本的语境和第二文本的语境结合而成。
需要说明的是,本发明实施例获取样本文本集可以根据第一文本 和/或第二文本中体现的语境来选取,即可以单独以第一文本的语境作 为相似度判断的语境并构建样本文本集,也可以单独以第二文本的语 境作为相似度判断的语境并构建样本文本集,还可以将第一文本的语 句与第二文本的语境进行结合,形成一个统一的语境作为相似度判断 的语境并构建样本文本集。例如根据第一文本和第二文本中涉及的技 术领域/环境/语气的分词来选取,例如,第一文本为:番茄在温室进行 育苗的方法,第二文本为:番茄进行育苗的方法,经过分词,第一文 本的分词结果为:番茄、温室、育苗、方法;第二文本的分词结果为: 番茄、育苗、方法,通过分析分词结果,可知第一文本和第二文本的 语境均为农业养殖,特别是番茄养殖领域,因此,可以选取带有番茄、 育苗、育种等词汇的样本文本组合成样本文本集,需要说明的是,样 本文本的获取可以通过网络爬虫处理方法,从互联网中收集,也可以 通过预建一个包含一定数量的样本文本的数据库,从数据库中进行收 集。还比如,第一文本为:你今天的早餐吃番茄了吗?第二文本为: 我早上买的番茄好吃吗?通过分析可知第一文本和第二文本属于日常 对话的语境,因此可以选取与饮食相关的文本组合成样本文本集。
应当理解的是,上述获取样本文本集的过程仅为可能的实现方式, 而不应对本申请构成任何限定。
S104、对样本文本集中的各样本文本进行分词处理,根据样本文 本集的分词结果建立样本文本集的语境图。语境图为表示样本文本集 中各分词间组合关系的无向图。
需要说明的是,本发明实施例的语境图是一个网图,网图中的顶 点为分词,连接词与词的边或弧表示两个词之间存在组合关系(也可 以是权重关系,本发明实施例对此不作限定)。本发明实施例中语境图 为无向图,设语境关系无向图G有n个顶点(即n个不同的词),则邻 接矩阵是一个n*n的方阵,定义为:
上式中,g[i][j]表示分词i和分词j构成的词对在邻接矩阵中的值, E表示两个词存在组合关系。
例如,样本文本集中具有两个样本文本:样本文本1:番茄在温室 进行育苗的方法;样本文本2:番茄进行育苗的方法。通过分词、去停 用词和特征词提取后,将提出四个词:番茄、温室、育苗、方法在这 里为了表述方便,分别设为:V1(番茄),V2(温室),V3(育苗), V4(方法);存在边关系(V1V2),(V1V3),(V2V3),(V3V4)则生成 的语境图(本发明实施例不考虑位置方向性,所以为无向图)如图2 所示,对应的邻接矩阵如下:
语境图转化为邻接矩阵后,可获得任意顶点(词)的度(即相当 于与其相关词的个数),其实就是这个顶点Vi在邻接矩阵中第i行的元 素之和。例:V1度为2,V2度为2,V3度为3,V4度为1;求顶点Vi的所有邻接点就是将邻接矩阵中第i行元素扫描一遍,元素为1就是邻 接点,所有邻接点组成的词集则为该词的语境词集:V1词的语境词集 包括V2和V3;V2词的语境词集包括V1和V3,V3词的语境词集包括V1、 V2和V4,V4词的语境词集包括V3
S105、根据第一文本的分词结果、第二文本的分词结果以及语境 图,计算第一文本和第二文本的语义相似度。
需要说明的是,本发明实施例在计算语义相似度时,通过将第一 文本和第二文本的分词结果映射至相应的语境中进行计算,以提升文 本间的差异精度,使得语义相似度计算的准确性更高。
基于上述实施例的内容,作为一种可选实施例,根据第一文本的 分词结果、第二文本的分词结果以及语境图,计算第一文本和第二文 本的语义相似度的过程涉及两个层面的计算:表示层相似度和语义层 相似度,所谓表示层相似度指的是两个句子形态上的相似程度,以两 个句子中所含相同词或同义词的个数及在句中的相对位置来衡量。语 义层指的是字面不能直接反应出来,需要理解的句面隐含语义。表层 相似度计算方法有多种,如余弦相似度、广义Jaccard相似度等。而语 义层相似度则可以采用语义词典和词义上下文。
图3示出了本发明实施例根据第一文本的分词结果、第二文本的 分词结果以及语境图,计算第一文本和第二文本的语义相似度的流程 示意图,如图3所示,具体为:
S301、根据语境图计算第一文本和第二文本的余弦相似度。
需要说明的是,余弦相似度即两个向量之间的夹角的余弦值,余 弦相似度用来表示两个句子间的差异程度;余弦相似度侧重于向量在 方向上的异同,也就是趋势的异同,而不是绝对距离的大小。其公式 如下:
其中,xi表示第一文本p1中第i个分词的TF-IDF权重,yi表示第 二文本p2中第i个分词的TF-IDF权重,TF-IDF(term frequency-inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。 TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。由于语境图是一个词集关系图,因此在句子分 词后,能够很好的利用TF-IDF计算句子中词的权重进行句子取词,取 词后利用空间向量余弦夹角的相似度度量不会受指标刻度的影响,余 弦值落于区间[0,1],值越大,则差异越小。
S302、根据语境图获得第一文本的任意一个分词和第二文本的任 意一个分词的相似度,以计算第一文本和第二文本的偏移量相似度。
需要说明的是,在计算偏移量相似度时,本发明实施例是根据两 个文本中的分词在语境图中的相似度获得的,由于语境图记录了每一 个分词的邻接点(即语境词集),通过比对两两分词间邻接点的近似情 况,即可判断两个文本在词语位置关系上的相似程度。
S303、根据语境图获得第一文本中不存在于第二文本的所有分词 的语境词集以及第二文本中不存在于第一文本的所有分词的语境词集, 以计算第一文本和第二文本的语义层相似度。
需要说明的是,语义层相似度体现的两个文本隐含语义的关系, 既然是字面上不能直接翻译的信息,本发明实施例通过语境图分别获 得每个文本中不存在于另一个文本的所有分词的语境词集,通过上述 两个语境词集来计算语义层相似度。
S304、根据第一文本和第二文本的余弦相似度、偏移量相似度以 及语义层相似度,计算第一文本和第二文本的语义相似度。
本发明实施例提供的方法,通过语境图分别获得第一文本和第二 文本的余弦相似度、偏移量相似度以及语义层相似度,获得两个文本 的分词在空间向量余弦夹角和位置关系的相似度以及互不包含词在语 义层的相似度,最终获得语义相似度,从而可提高相似度判断的可靠 性和准确性。
基于上述实施例的内容,作为一种可选实施例,获取第一/二文本 中分词的TF-IDF权重的方法具体为:
将第一文本中所有分词在语境图上的邻接点构成词集A,将第二 文本中所有分词在语境图上的邻接点构成词集B;
将词集A和词集B中的所有分词构成词集T,T=A∪B;
将第一文本中的在第二文本中不存在的分词在语境图上的邻接点 构成词集C;
将第二文本中的在第一文本中不存在的分词在语境图上的邻接点 构成词集D。
对于第一/二文本中的分词xi,获取分词xi在语境图上的邻接点, 构成词集E,将词集E中的分词与词集T中的重合度作为分词xi的TF 值;以lg(nT/nE∩T)作为分词xi的IDF值,将TF值与IDF值的乘积 作为分词xi的TF-IDF权重,其中,nT表示词集T中分词的总数,nE∩T表示词集E和词集T共有的分词的总数。
本发明实施例的获取第一/二文本中分词的IF-IDF权重的方法,结 合分词在语境图中的组合关系,即结合了文本所处的语境获得IF-IDF 权重,能够进一步提高文本的余弦相似度的精度。
基于上述实施例的内容,作为一种可选实施例,根据语境图获得 第一文本的任意一个分词和第二文本的任意一个分词的相似度,以计 算第一文本和第二文本的偏移量相似度,如图4所示,具体为:
S401、根据第一文本p1的分词结果,获得第一文本中分词总数m、 第一文本的长度len(P1)以及分词Si在第一文本中的相对位置pos(Si)。
需要说明的是,分词Si在第一文本中的相对位置pos(Si)通过公式计算,其中i表示分词在第一文本中的位置。
S402、根据第二文本p2的分词结果,获得第二文本中分词总数n、 第二文本的长度len(P2)以及分词Wj在第二文本中的相对位置pos(Wj);。
需要说明的是,分词Wj在第二文本中的相对位置pos(Wj)通过公式计算,其中j表示分词在第二文本中的位置。需要说 明的是,本发明实施例对步骤S401与S402的先后顺序不作限定。
S403、根据语境图计算分词Si和分词Wj的相似度sim(Si,Wj)。
需要说明的是,区别于现有技术只针对分词的上下文计算分词间 的相似度,本发明实施例具体通过语境图获得分词Si和分词Wj的邻接 点,通过比较邻接点数据获得相似度sim(Si,Wj),即实现了分词在宏观 语境上的相似度判断。
S404、根据公式 计算第一文本p1和 第二文本p2的偏移量相似度Simp(p1,p2)。
需要说明的是,由偏移量相似度的公式可知,当两个分词的相似 度一致时,该两个分词的相对位置越一致,则总的偏移量相似度越大, 而当两个分词的相对位置一致时,分词的相似度越大则总的偏移量相 似度越大。
本发明实施例提供的计算偏移量相似度的方法,从语境图中获取 两个文本的偏移量相似度,相比现有技术仅仅考虑分词的上下文关系 获得的偏移量相似度,进一步提升文本间的差异精度,使得语义相似 度计算的准确性更高。
基于上述实施例的内容,作为一种可选实施例,根据所述语境图 计算分词Si和分词Wj的相似度sim(Si,Wj),具体为:
在语境图上获取分词Si的邻接点π(Si)和度len(π(Si));
在语境图上获取分词Wj的邻接点π(Wj)和度len(π(Wj));
根据公式计算相似度sim(Si,Wj);
其中,T(π(Si)∩π(Wj))表示分词Si和分词Wj共有的邻接点。
本发明实施例提供的计算偏移量相似度的方法,从语境图中获取 两个文本的分词间的相似度,相比现有技术仅仅考虑分词的上下文关 系,进一步提升文本间的差异精度,使得语义相似度计算的准确性更 高。
基于上述实施例的内容,作为一种可选实施例,根据语境图获得 第一文本中不存在于第二文本的所有分词的语境词集以及第二文本中 不存在于第一文本的所有分词的语境词集,以计算第一文本和第二文 本的语义层相似度,具体为:
在第一文本p1中获取第二文本p2中不存在的分词,构成第一分词 集,在语境图上获取第一分词集中所有分词的语境词,构成第一语境 词集π(P1),在第二文本p2中获取第一文本p1中不存在的分词,构成第 二分词集,在语境图上获取第二分词集中所有分词的语境词,构成第 二语境词集π(P2)。
以第一文本为:番茄在温室进行育苗的方法,第二文本为:美国 番茄进行育苗的方法,进行举例,第一文本分词结果为:番茄、温室、 育苗、方法,第二文本的分词结果为:美国、番茄、育苗、方法,那 么第一文本中的第二文本不存在的分词为温室,在语境图中获取分词: 温室的语境词集。同理,第二文本中的第一文本补充的分词为美国, 在语境图中获取分词:美国的语境词集。
根据公式计算第一文本和第二文 本的语义层相似度SimL(p1,p2);
其中,当p1和p2中不存在反义词时,α=1;当p1和p2中存在反义 词时,α=-1;T(π(P1)∩π(P2))表示π(P1)和π(P2)中共有的语境词; T(π(P1)∪π(P2))表示π(P1)和π(P2)中所有的语境词。
需要说明的是,在利用上述公式计算语义层相似度时,还需要预 先对第一文本和第二文本中是否含有反义词进行检索。当含有反义词 时,两个文本的语义具有较大概率是相反的。根据π(P1)和π(P2)中共有 的语境词占π(P1)和π(P2)中所有的语境词的比例以及是否含有反义词 的状态,本发明实施例实现了对语义层相似度的计算。本发明实施例 提供的方法在结合语境图的情况下,分析在两个句子中互不包含词在 语义层的相似度具有更高的精度。
基于上述实施例的内容,作为一种可选实施例,根据第一文本和 第二文本的余弦相似度、偏移量相似度以及语义层相似度,计算第一 文本和第二文本的语义相似度,具体为:
根据公式:Simb(p1,p2)=Cosin(p1,p2)+α1×Simp(p1,p2)获得第 一文本p1和第二文本p2的表示层相似度Simb(p1,p2);
根据公式:m(p1,p2)=Simb(p1,p2)+β1×SimL(p1,p2)获得第一 文本p1和第二文本p2的语义相似度m(p1,p2);
其中,Cosin(p1,p2)、Simp(p1,p2)和SimL(p1,p2)分别表示第一文 本p1和第二文本p2的余弦相似度、偏移量相似度和语义层相似度,α1表 示偏移量相似度对于表示层相似度的影响因子,β1表示语义层相似度 对于语义相似度的影响因子。
需要说明的是,本发明实施例将余弦相似度与偏移量相似度共同 构成表示层相似度,再根据表示层相似度与语义层相似度综合获得语 义像素点。本发明实施例充分考虑了宏观语境对语义的影像,对语义 进行了更深程度的挖掘。
基于上述实施例的内容,作为一种可选实施例,通过实践分析α1取 值应保证与偏移量相似度的积小于余弦相似度值,同时保证α1与偏移 量相似度的积随着余弦相似度值由0开始变大而变大,达到某一值时 开始随着余弦相似度值由变大而变小。因此,根据公式:α1= (1-Cosin(p1,p2))×Cosin(p1,p2)获得影响因子α1
通过实践分析β1取值应保证与语义层相似度的积小于表示层相似 度值,同时保证β1与语义层相似度的积随着表示层相似度值由0开始 变大而变大,达到某一值邻界点时开始随着表示层相似度值由变大而 变小。因此,根据公式:β1=(1-Simb(p1,p2))×Simb(p1,p2)获得 影响因子β1
根据本发明的另一个方面,本发明实施例还提供一种语义相似度 的计算系统,参见图5,图5示出了本发明实施例的计算系统的功能框 图,该系统用于在前述各实施例中比较文本间的语义相似度。因此, 在前述各实施例中的语义相似度的计算方法中的描述和定义,可以用 于本发明实施例中各执行模块的理解。
如图所示,该计算系统包括:
文本获取模块501,用于获取第一文本和第二文本;
分词处理模块502,用于对第一文本和第二文本进行分词处理;
样本文本集获取模块503,用于确定用于进行语义相似度判断的语 境,根据所述用于进行语义相似度判断的语境收集样本文本并构成样 本文本集;用于进行语义相似度判断的语境具体为:根据所述第一文 本的分词结果确定的第一文本的语境、根据所述第二文本的分词结果 确定的第二文本的语境,或者由所述第一文本的语境和第二文本的语 境结合而成;
语境图获取模块504,用于对样本文本集中的各样本文本进行分词 处理,根据样本文本集的分词结果建立样本文本集的语境图;
语义相似度计算模块505,用于根据第一文本的分词结果、第二文 本的分词结果以及语境图,计算第一文本和第二文本的语义相似度;
其中,语境图为表示样本文本集中各分词间组合关系的无向图。
本发明实施例的通过文本获取模块获取待比较语义相似度的第一 文本和第二文本,通过分词处理模块对第一文本和第二文本进行分词 处理,通过样本文本集获取模块根据第一文本的分词结果和第二文本 的分词结果获得样本文本集,以将两个文本的语义相似度计算映射到 与该两个文本相关的语境中进行分析,通过语句图获取模块建立样本 文本集的语境图,最后通过语义相似度计算模块计算语义相似度,能 够提升文本间的差异精度,使得语义相似度计算的准确性更高。
本发明实施例提供了一种电子设备。参见图6,该设备包括:处理 器(processor)601、存储器(memory)602和总线603;
其中,处理器601及存储器602分别通过总线603完成相互间的 通信;处理器601用于调用存储器602中的程序指令,以执行上述实 施例所提供的语义相似度的计算方法,例如包括:获取第一文本和第 二文本;对第一文本和第二文本进行分词处理;确定用于进行语义相 似度判断的语境,根据所述用于进行语义相似度判断的语境收集样本 文本并构成样本文本集;对样本文本集中的各样本文本进行分词处理, 根据样本文本集的分词结果建立样本文本集的语境图;根据第一文本 的分词结果、第二文本的分词结果以及语境图,计算第一文本和第二 文本的语义相似度;其中,用于进行语义相似度判断的语境具体为: 根据所述第一文本的分词结果确定的第一文本的语境、根据所述第二 文本的分词结果确定的第二文本的语境,或者由所述第一文本的语境 和第二文本的语境结合而成;语境图为表示样本文本集中各分词间组 合关系的无向图。
本发明实施例提供一种非暂态计算机可读存储介质,该非暂态计 算机可读存储介质存储计算机指令,该计算机指令使计算机执行上述 实施例所提供的语义相似度的计算方法,例如包括:获取第一文本和 第二文本;对第一文本和第二文本进行分词处理;确定用于进行语义 相似度判断的语境,根据所述用于进行语义相似度判断的语境收集样 本文本并构成样本文本集;对样本文本集中的各样本文本进行分词处 理,根据样本文本集的分词结果建立样本文本集的语境图;根据第一 文本的分词结果、第二文本的分词结果以及语境图,计算第一文本和 第二文本的语义相似度;其中,用于进行语义相似度判断的语境具体 为:根据所述第一文本的分词结果确定的第一文本的语境、根据所述 第二文本的分词结果确定的第二文本的语境,或者由所述第一文本的 语境和第二文本的语境结合而成;语境图为表示样本文本集中各分词 间组合关系的无向图。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说 明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件 可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以 分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全 部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创 造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解 到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然 也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现 有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软 件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光 盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机, 服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的 方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而 非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领 域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技 术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修 改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方 案的精神和范围。

Claims (10)

1.一种语义相似度的计算方法,其特征在于,包括:
获取第一文本和第二文本;
对所述第一文本和第二文本进行分词处理;
确定用于进行语义相似度判断的语境,根据所述用于进行语义相似度判断的语境收集样本文本并构成样本文本集;
对所述各样本文本进行分词处理,根据所述样本文本集的分词结果建立语境图;
根据所述第一文本的分词结果、第二文本的分词结果以及所述语境图,计算所述第一文本和第二文本的语义相似度;
其中,所述用于进行语义相似度判断的语境具体为:根据所述第一文本的分词结果确定的第一文本的语境、根据所述第二文本的分词结果确定的第二文本的语境,或者由所述第一文本的语境和第二文本的语境结合而成;
所述语境图为表示样本文本集中各分词间组合关系的无向图。
2.根据权利要求1所述的计算方法,其特征在于,所述根据所述第一文本的分词结果、第二文本的分词结果以及所述语境图,计算所述第一文本和第二文本的语义相似度,具体为:
根据所述语境图计算所述第一文本和第二文本的余弦相似度;
根据所述语境图获得所述第一文本的任意一个分词和第二文本的任意一个分词的相似度,以计算所述第一文本和第二文本的偏移量相似度;
根据所述语境图获得所述第一文本中不存在于所述第二文本的所有分词的语境词集,以及所述第二文本中不存在于所述第一文本的所有分词的语境词集,以计算所述第一文本和第二文本的语义层相似度;
根据所述第一文本和第二文本的余弦相似度、偏移量相似度以及语义层相似度,计算所述第一文本和第二文本的语义相似度。
3.根据权利要求2所述的计算方法,其特征在于,所述根据所述语境图获得所述第一文本的任意一个分词和第二文本的任意一个分词的相似度,以计算所述第一文本和第二文本的偏移量相似度,具体为:
根据所述第一文本p1的分词结果,获得所述第一文本中分词总数m、第一文本的长度len(P1)以及分词Si在第一文本中的相对位置pos(Si);
根据所述第二文本p2的分词结果,获得所述第二文本中分词总数n、第二文本的长度len(P2)以及分词Wj在第二文本中的相对位置pos(Wj);
根据所述语境图计算分词Si和分词Wj的相似度sim(Si,Wj);
根据公式计算第一文本p1和第二文本p2的偏移量相似度Simp(p1,p2)。
4.根据权利要求3所述的计算方法,其特征在于,所述根据所述语境图计算分词Si和分词Wj的相似度sim(Si,Wj),具体为:
在所述语境图上获取分词Si的邻接点π(Si)和度len(π(Si));
在所述语境图上获取分词Wj的邻接点π(Wj)和度len(π(Wj));
根据公式计算相似度sim(Si,Wj);
其中,T(π(Si)∩π(Wj))表示分词Si和分词Wj共有的邻接点。
5.根据权利要求2所述的计算方法,其特征在于,所述根据所述语境图获得所述第一文本中不存在于所述第二文本的所有分词的语境词集以及所述第二文本中不存在于所述第一文本的所有分词的语境词集,以计算所述第一文本和第二文本的语义层相似度,具体为:
在第一文本p1中获取所述第二文本p2中不存在的分词,构成第一分词集,在所述语境图上获取所述第一分词集中所有分词的语境词,构成第一语境词集π(P1);
在所述第二文本p2中获取所述第一文本p1中不存在的分词,构成第二分词集,在所述语境图上获取所述第二分词集中所有分词的语境词,构成第二语境词集π(P2);
根据公式计算所述第一文本和第二文本的语义层相似度SimL(p1,p2);
其中,当p1和p2中不存在反义词时,α=1;当p1和p2中存在反义词时,α=-1;T(π(P1)∩π(P2))表示所述π(P1)和π(P2)中共有的语境词;T(π(P1)∪π(P2))表示π(P1)和π(P2)中所有的语境词。
6.根据权利要求2所述的计算方法,其特征在于,所述根据所述第一文本和第二文本的余弦相似度、偏移量相似度以及语义层相似度,计算所述第一文本和第二文本的语义相似度,具体为:
根据公式:Simb(p1,p2)=Cosin(p1,p2)+α1×Simp(p1,p2)获得第一文本p1和第二文本p2的表示层相似度Simb(p1,p2);
根据公式:m(p1,p2)=Simb(p1,p2)+β1×SimL(p1,p2)获得第一文本p1和第二文本p2的语义相似度m(p1,p2);
其中,Cosin(p1,p2)、Simp(p1,p2)和SimL(p1,p2)分别表示第一文本p1和第二文本p2的余弦相似度、偏移量相似度和语义层相似度,α1表示偏移量相似度对于表示层相似度的影响因子,β1表示语义层相似度对于语义相似度的影响因子。
7.根据权利要求6所述的计算方法,其特征在于,
根据公式:α1=(1-Cosin(p1,p2))×Cosin(p1,p2)获得影响因子α1
根据公式:β1=(1-Simb(p1,p2))×Simb(p1,p2)获得影响因子β1
8.一种语义相似度的计算系统,其特征在于,包括:
文本获取模块,用于获取第一文本和第二文本;
分词处理模块,用于对所述第一文本和第二文本进行分词处理;
样本文本集获取模块,用于确定用于进行语义相似度判断的语境,根据所述用于进行语义相似度判断的语境收集样本文本并构成获取样本文本集;所述用于进行语义相似度判断的语境具体为:根据所述第一文本的分词结果确定的第一文本的语境、根据所述第二文本的分词结果确定的第二文本的语境,或者由所述第一文本的语境和第二文本的语境结合而成;
语境图获取模块,用于对所述各样本文本进行分词处理,根据所述样本文本集的分词结果建立所述样本文本集的语境图,所述语境图为表示样本文本集中各分词间组合关系的无向图;
语义相似度计算模块,用于根据所述第一文本的分词结果、第二文本的分词结果以及所述语境图,计算所述第一文本和第二文本的语义相似度。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至7任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至7任一所述的方法。
CN201810790941.8A 2018-07-18 2018-07-18 语义相似度的计算方法及系统 Active CN109145085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810790941.8A CN109145085B (zh) 2018-07-18 2018-07-18 语义相似度的计算方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810790941.8A CN109145085B (zh) 2018-07-18 2018-07-18 语义相似度的计算方法及系统

Publications (2)

Publication Number Publication Date
CN109145085A true CN109145085A (zh) 2019-01-04
CN109145085B CN109145085B (zh) 2020-11-27

Family

ID=64801141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810790941.8A Active CN109145085B (zh) 2018-07-18 2018-07-18 语义相似度的计算方法及系统

Country Status (1)

Country Link
CN (1) CN109145085B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297882A (zh) * 2019-03-01 2019-10-01 阿里巴巴集团控股有限公司 训练语料确定方法及装置
CN110705249A (zh) * 2019-09-03 2020-01-17 东南大学 一种基于重叠度计算的nlp库组合使用方法
CN112069828A (zh) * 2020-07-31 2020-12-11 飞诺门阵(北京)科技有限公司 一种文本意图的识别方法及装置
CN113221536A (zh) * 2020-12-29 2021-08-06 广东电网有限责任公司 一种基于自然语言分析文件中相似段落的方法及装置
CN113539246A (zh) * 2021-08-20 2021-10-22 北京房江湖科技有限公司 语音识别方法和装置
CN117112916A (zh) * 2023-10-25 2023-11-24 蓝色火焰科技成都有限公司 一种基于车联网的金融信息查询方法、装置及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008083447A1 (en) * 2007-01-12 2008-07-17 Synetek Systems Pty Ltd Method and system of obtaining related information
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
US20110137919A1 (en) * 2009-12-09 2011-06-09 Electronics And Telecommunications Research Institute Apparatus and method for knowledge graph stabilization
CN102214232A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种文本数据相似度的计算方法及装置
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN106610952A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 一种混合的文本特征词汇提取方法
US20170364586A1 (en) * 2016-06-20 2017-12-21 International Business Machines Corporation Contextual Content Graph for Automatic, Unsupervised Summarization of Content
CN108170684A (zh) * 2018-01-22 2018-06-15 京东方科技集团股份有限公司 文本相似度计算方法及系统、数据查询系统和计算机产品

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008083447A1 (en) * 2007-01-12 2008-07-17 Synetek Systems Pty Ltd Method and system of obtaining related information
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
US20110137919A1 (en) * 2009-12-09 2011-06-09 Electronics And Telecommunications Research Institute Apparatus and method for knowledge graph stabilization
CN102214232A (zh) * 2011-06-28 2011-10-12 东软集团股份有限公司 一种文本数据相似度的计算方法及装置
CN102591988A (zh) * 2012-01-16 2012-07-18 宋胜利 基于语义图的短文本分类方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
US20170364586A1 (en) * 2016-06-20 2017-12-21 International Business Machines Corporation Contextual Content Graph for Automatic, Unsupervised Summarization of Content
CN106610952A (zh) * 2016-09-30 2017-05-03 四川用联信息技术有限公司 一种混合的文本特征词汇提取方法
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN108170684A (zh) * 2018-01-22 2018-06-15 京东方科技集团股份有限公司 文本相似度计算方法及系统、数据查询系统和计算机产品

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XINGHAO CHEN: "Ontology-based Semantic Similarity Graph Structure Algorithm", 《2013 3RD INTERNATIONAL CONFERENCE ON SOCIAL SCIENCES AND SOCIETY》 *
晋耀红: "基于语境框架的文本相似度计算", 《计算机工程与应用》 *
蔡东风: "一种基于语境的词语相似度计算方法", 《中文信息学报》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297882A (zh) * 2019-03-01 2019-10-01 阿里巴巴集团控股有限公司 训练语料确定方法及装置
CN110705249A (zh) * 2019-09-03 2020-01-17 东南大学 一种基于重叠度计算的nlp库组合使用方法
CN110705249B (zh) * 2019-09-03 2023-04-11 东南大学 一种基于重叠度计算的nlp库组合使用方法
CN112069828A (zh) * 2020-07-31 2020-12-11 飞诺门阵(北京)科技有限公司 一种文本意图的识别方法及装置
CN112069828B (zh) * 2020-07-31 2023-07-04 飞诺门阵(北京)科技有限公司 一种文本意图的识别方法及装置
CN113221536A (zh) * 2020-12-29 2021-08-06 广东电网有限责任公司 一种基于自然语言分析文件中相似段落的方法及装置
CN113539246A (zh) * 2021-08-20 2021-10-22 北京房江湖科技有限公司 语音识别方法和装置
CN117112916A (zh) * 2023-10-25 2023-11-24 蓝色火焰科技成都有限公司 一种基于车联网的金融信息查询方法、装置及存储介质

Also Published As

Publication number Publication date
CN109145085B (zh) 2020-11-27

Similar Documents

Publication Publication Date Title
Orkphol et al. Word sense disambiguation using cosine similarity collaborates with Word2vec and WordNet
Maslej-Krešňáková et al. Comparison of deep learning models and various text pre-processing techniques for the toxic comments classification
Prottasha et al. Transfer learning for sentiment analysis using BERT based supervised fine-tuning
Zeng et al. A survey on machine reading comprehension—tasks, evaluation metrics and benchmark datasets
CN109145085A (zh) 语义相似度的计算方法及系统
US11113323B2 (en) Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN105279495A (zh) 一种基于深度学习和文本总结的视频描述方法
Chang et al. Research on detection methods based on Doc2vec abnormal comments
Gómez-Adorno et al. Automatic authorship detection using textual patterns extracted from integrated syntactic graphs
Li et al. Contradiction detection with contradiction-specific word embedding
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
Zhu et al. A bi-directional LSTM-CNN model with attention for aspect-level text classification
CN112559684A (zh) 一种关键词提取及信息检索方法
Puccetti et al. Technology identification from patent texts: A novel named entity recognition method
Van Atteveldt et al. Studying political decision making with automatic text analysis
CN109033318A (zh) 智能问答方法及装置
Alzoubi et al. Machine learning-based text classification comparison: Turkish language context
Mostafa et al. Innovative Forward fusion feature selection algorithm for sentiment analysis using supervised classification
Gutierrez-Bustamante et al. Natural language processing methods for scoring sustainability reports—A study of Nordic listed companies
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及系统
Zhao et al. DFEN: Dual feature enhancement network for remote sensing image caption
Heo et al. Global and local information adjustment for semantic similarity evaluation
CN110287396A (zh) 文本匹配方法及装置
Chu et al. DBOS: A dialog-based object query system for hospital nurses

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant