CN110390085A - 文本相似度的分析方法、分析装置、存储介质和电子设备 - Google Patents

文本相似度的分析方法、分析装置、存储介质和电子设备 Download PDF

Info

Publication number
CN110390085A
CN110390085A CN201910600328.XA CN201910600328A CN110390085A CN 110390085 A CN110390085 A CN 110390085A CN 201910600328 A CN201910600328 A CN 201910600328A CN 110390085 A CN110390085 A CN 110390085A
Authority
CN
China
Prior art keywords
text
analyzed
term node
digraph
referenced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910600328.XA
Other languages
English (en)
Other versions
CN110390085B (zh
Inventor
张永哲
刘作坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201910600328.XA priority Critical patent/CN110390085B/zh
Publication of CN110390085A publication Critical patent/CN110390085A/zh
Application granted granted Critical
Publication of CN110390085B publication Critical patent/CN110390085B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种文本相似度的分析方法、分析装置、存储介质和电子设备,该分析方法包括:分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建待分析文本的词语节点有向图和参考文本的词语节点有向图;分别生成待分析文本的词语节点有向图的最大生成树,和参考文本的词语节点有向图的最大生成树;基于待分析文本的词语节点有向图的最大生成树,和参考文本的词语节点有向图的最大生成树计算待分析文本与参考文本的相似度。用于提升文本相似度分析的准确性,使得计算出的待分析文本与参考文本的相似度更加符合实际情况。

Description

文本相似度的分析方法、分析装置、存储介质和电子设备
技术领域
本公开涉及数据分析技术领域,具体地,涉及一种文本相似度的分析方法、分析装置、存储介质和电子设备。
背景技术
自然语言理解即对自然语言的语义分析是很多应用领域的一个关键技术,例如智能设备中的语音助手通过分析人的语音命令做出相应的应答,其中,对于人的语音命令的分析准确度对于语音助手做出应答的准确性至关重要。
相关技术中,计算文本相似度是一种常用的自然语言理解的方法,通过计算待分析的自然语言对应的待分析文本与参考文本的相似度,进而借助参考文本以及计算出的相似度理解待分析文本表达的语义。在一种文本相似度的分析方法中,基于文本中词语的相似度计算待分析文本与参考文本的相似度,准确度较低。
发明内容
本公开的目的是提供一种文本相似度的分析方法、分析装置、存储介质和电子设备,用于提升文本相似度分析的准确性,使得计算出的待分析文本与参考文本的相似度更加符合实际情况。
为了实现上述目的,本公开提供一种文本相似度的分析方法,所述分析方法包括:
分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;
分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图;
分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;
基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。
可选地,所述分别基于所述待分析文本词集中的词语的语义依存关系和所述参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图,包括:
分别针对所述待分析文本词集和所述参考文本词集中的任意两个词语的组合,标注出所有该组合中的两个词语之间的语义依存关系类别;
基于预设的语义依存关系类别与对应该语义依存关系类别的重要度关系表,标注出所有该组合中的两个词语之间的语义依存关系类别的重要度;
分别针对所述待分析文本词集和所述参考文本词集中存在的所有所述组合,当该组合中的两个词语之间的语义依存关系类别满足预设条件时,于该组合中的两个词语之间建立边;
将该组合中的两个词语之间的语义依存关系类别的重要度作为该组合中的两个词语之间的边的权重,分别生成所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图。
可选地,所述基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度,包括:
针对所述待分析文本的词语节点有向图的最大生成树中的每一待分析词语节点,确定所述参考文本的词语节点有向图的最大生成树中对应于该待分析词语节点的参考词语节点;
基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度。
可选地,所述基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度,包括:
基于所述待分析词语节点与所述参考词语节点的词性、所述待分析词语节点与所述参考词语节点分别位于各自所在的最大生成树中的位置、以及所述待分析词语节点相对于所述参考词语节点的增减特征,计算所述待分析文本与所述参考文本的相似度。
可选地,所述基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度,包括:
若所述待分析文本的词语节点有向图的最大生成树,或所述参考文本的词语节点有向图的最大生成树不唯一,则计算所述待分析文本的词语节点有向图的每一最大生成树,和所述参考文本的词语节点有向图的每一最大生成树的可选相似度;
将值最大的可选相似度作为所述待分析文本与所述参考文本的相似度。
本公开实施例的第二方面,提供一种文本相似度的分析装置,所述装置包括:
分词模块,被配置为分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;
有向图构建模块,被配置为分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图;
最大生成树生成模块,被配置为分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;
相似度计算模块,被配置为基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。
可选地,所述有向图构建模块包括:
语义依存关系类别标注子模块,被配置为分别针对所述待分析文本词集和所述参考文本词集中的任意两个词语的组合,标注出所有该组合中的两个词语之间的语义依存关系类别;
重要度标注子模块,被配置为基于预设的语义依存关系类别与对应该语义依存关系类别的重要度关系表,标注出所有该组合中的两个词语之间的语义依存关系类别的重要度;
建边子模块,被配置为分别针对所述待分析文本词集和所述参考文本词集中存在的所有所述组合,当该组合中的两个词语之间的语义依存关系类别满足预设条件时,于该组合中的两个词语之间建立边;
权重确定子模块,被配置为将该组合中的两个词语之间的语义依存关系类别的重要度作为该组合中的两个词语之间的边的权重,分别生成所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图。
可选地,所述相似度计算模块包括:
词语节点确定子模块,被配置为针对所述待分析文本的词语节点有向图的最大生成树中的每一待分析词语节点,确定所述参考文本的词语节点有向图的最大生成树中对应于该待分析词语节点的参考词语节点;
相似度计算子模块,被配置为基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度。
可选地,所述相似度计算子模块被配置为:
基于所述待分析词语节点与所述参考词语节点的词性、所述待分析词语节点与所述参考词语节点分别位于各自所在的最大生成树中的位置、以及所述待分析词语节点相对于所述参考词语节点的增减特征,计算所述待分析文本与所述参考文本的相似度。
可选地,所述相似度计算模块包括:
可选相似度确定子模块,被配置为在所述待分析文本的词语节点有向图的最大生成树,或所述参考文本的词语节点有向图的最大生成树不唯一时,计算所述待分析文本的词语节点有向图的每一最大生成树,和所述参考文本的词语节点有向图的每一最大生成树的可选相似度;
相似度确定选择子模块,被配置为将值最大的可选相似度作为所述待分析文本与所述参考文本的相似度。
本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面中任一项所述方法的步骤。
本公开实施例的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面中任一项所述方法的步骤。
通过上述技术方案,分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图,然后分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。即分别将待分析文本中的词语的语义依存关系和参考文本中的词语的语义依存关系作为计算相似度的因变量,并通过生成最大生成树体现不同词语之间的关系,增加了对于文本相似度分析的维度,提高了文本相似度分析的准确性,使得计算出的待分析文本与参考文本的相似度更加符合实际情况。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种文本相似度的分析方法的流程图。
图2是根据一示例性实施例示出的一种文本相似度的分析方法包括的步骤中分别基于所述待分析文本词集中的词语的语义依存关系和所述参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图的流程图。
图3是根据一示例性实施例示出的一种语义依存关系类别与对应该语义依存关系类别的重要度关系表。
图4是根据一示例性实施例示出的一种待分析文本的词语节点有向图。
图5是对应于图4中的词语节点有向图的最大生成树。
图6是根据一示例性实施例示出的一种文本相似度的分析方法包括的步骤中基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度的流程图。
图7是根据一示例性实施例示出的一种待分析文本的词语节点有向图的最大生成树的示意图。
图8是根据一示例性实施例示出的一种参考文本的词语节点有向图的最大生成树的示意图。
图9是根据一示例性实施例示出的一种待分析文本的词语节点有向图的最大生成树的另一示意图。
图10是根据一示例性实施例示出的一种文本相似度的分析方法包括的步骤中基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度的另一流程图。
图11是根据一示例性实施例示出的一种文本相似度的分析装置的框图。
图12是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是根据一示例性实施例示出的一种文本相似度的分析方法的流程图,如图1所示,该分析方法包括:
S11,分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集。
具体来讲,待分析文本是用户希望获知其自然语义的文本,参考文本则是作为参考目标,用于计算待分析文本相对于自身的相似度的文本,通常来讲,参考文本比较规范,且自然语义已知。故通过计算待分析文本相对于参考文本的相似度,在相似度较高的情况下,可以基于该相似度和参考文本的自然语义获知待分析文本的语义。
在步骤S11中,对待分析文本进行分词得到待分析文本词集,对参考文本分词得到参考文本词集,其中,进行分词的具体方式可以采用现有技术中的方法,例如最大匹配法。对待分析文本以及参考文本分词的具体方式可以相同,也可以不同。
举例来讲,现有参考文本“我自己在餐厅喝汤”,第一待分析文本“我独自在饭店喝汤”,以及第二待分析文本“我自己吃肉”,则对该参考文本进行分词可以得到参考文本词集{“我”,“自己”,“在”,“餐厅”,“喝”,“汤”},对该第一待分析文本进行分词可以得到第一待分析文本词集{“我”,“独自”,“在”,“饭店”,“喝”,“汤”},对该第二待分析文本进行分词可以得到第二待分析文本词集{“我”,“自己”,“吃”,“肉”}。
S12,分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图。
具体来讲,在步骤S12中,基于待分析文本词集中的词语的语义依存关系构建所述待分析文本的词语节点有向图,基于参考文本词集中的词语的语义依存关系构建所述参考文本的词语节点有向图。可以将待分析文本词集或参考文本词集中的词语作为节点,在具有语义依存关系的词语节点之间建立边得到待分析文本或参考文本的词语节点有向图。
可选地,本公开中,如图2所示,分别基于所述待分析文本词集中的词语的语义依存关系和所述参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图,包括:
S121,分别针对所述待分析文本词集和所述参考文本词集中的任意两个词语的组合,标注出所有该组合中的两个词语之间的语义依存关系类别。
具体来讲,待分析文本词集中的任意两个词语可以成为一个组合,进而可以确定待分析文本词集中所有组合,并可以基于预设的语义依存关系表标注出所有组合中两个词语之间的语义依存关系类别。语义依存关系类别即语义依存关系的具体种类,例如施事关系、当事关系等,在组合中两个词语的语义依存关系不存在于预设的语义依存关系表的情况下,可以将组合中两个词语的语义依存关系种类标注为“空”,表征两者之间没有语义依存关系。此外,对参考文本词集中的词语进行语义依存关系类别标注的方法,与对待分析文本词集中的词语进行语义依存关系类别标注的方法相同,在此不做赘述。需要说明的是,在组合中两个词语之间的语义依存关系类别存在多种的情况下,可以将所有存在的语义依存关系类别标注出来。
举例来讲,现有基于待分析文本“我吃饭”分词得到的待分析文本词集{“我”,“吃”,“饭”},则对该待分析文本词集中可以出现的所有上述组合{“我,吃”,“我,饭”,“吃,饭”},进行语义依存关系类别标注,得到标注结果。在组合“我,吃”之间,“我”到“吃”的方向,存在语义依存关系类别A,B;“吃”到“我”的方向,存在语义依存关系类别B,C。在组合“我,饭”之间,“我”到“饭”的方向,存在语义依存关系类别J,K;“饭”到“我”的方向,存在语义依存关系类别M,N。在组合“吃,饭”之间,“饭”到“吃”的方向,存在语义依存关系类别G,F;“吃”到“饭”的方向,存在语义依存关系类别E,H。
S122,基于预设的语义依存关系类别与对应该语义依存关系类别的重要度关系表,标注出所有该组合中的两个词语之间的语义依存关系类别的重要度。
具体来讲,在预设的语义依存关系类别与对应该语义依存关系类别的重要度关系表中,每一种语义依存关系类别对应一个表征该语义依存关系类别的重要度的参数,进而可以将具体的语义依存关系类别作为关键词,于该重要度关系表中搜索对应该语义依存关系类别的表征重要度的参数,并标注出该参数。
沿用上述例子,结合图3所示的语义依存关系类别与对应该语义依存关系类别的重要度关系表,得到上述语义依存关系类别A,B,C,E,F,G,H,J,K,M,N的重要度分别为1,2,9,1,8,1,2,2,5,1,2。
S123,分别针对所述待分析文本词集和所述参考文本词集中存在的所有所述组合,当该组合中的两个词语之间的语义依存关系类别满足预设条件时,于该组合中的两个词语之间建立边。
具体来讲,预设条件可以是组合中的两个词语是否存在语义依存关系,若组合中的两个词语存在语义依存关系,则在该组合中的两个词语之间建立边,例如对于语义依存关系种类不为“空”的两个词语,可以建立边。预设条件也可以为对于特定的语义依存关系种类,才在对应的两个词语之间建立边。例如,对于语义依存关系存在于预设的目标语义依存关系种类表中的组合中的两个词语,在该组合中的两个词语之间建立边。
沿用上述例子,预设条件为在组合中的两个词语存在语义依存关系时,于组合中的两个词语之间建立边。则对上述待分析文本词集{“我”,“吃”,“饭”},在组合“我,吃”,“我,饭”,“吃,饭”之间均建立边。
S124,将该组合中的两个词语之间的语义依存关系类别的重要度作为该组合中的两个词语之间的边的权重,分别生成所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图。
具体来讲,若组合中的两个词语之间仅存在一种语义依存关系类别,则将对应该语义依存关系类别的重要度作为该组合中两个词语之间的边的权重;若组合中的两个词语之间存在多种语义依存关系类别,则将该多种语义依存关系类别中的每一语义依存关系类别的重要度均作为该组合中两个词语之间的边所具有的权重,即可能存在一条边对应多个权重的情况,进而在建立边和设定边的权重之后,生成词语节点有向图。
沿用上述例子,待分析文本词集{“我”,“吃”,“饭”}最终生成的词语节点有向图如图4所示。
S13,分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树。
具体来讲,可以利用现有技术中的算法例如Kruskal算法和Prim算法生成待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树。
沿用上述例子,对于如图4所示的待分析文本词集的词语节点有向图,可以随机选择词语节点“吃”,并在与“吃”相邻的词语节点“我”和“饭”之间,选择具有最大值的权重的边对应的词语节点作为下一词语节点,由于在“我”和“吃”之间的具有最大值的权重为语义依存关系种类C对应的9,在“饭”和“吃”之间的具有最大值的权重为语义依存关系种类F对应的8,故选择“我”作为下一词语节点,并将语义依存关系种类C所在的方向关系作为“我”和“吃”之间的关系。基于同样的方法选出“我”以及“吃”的下一词语节点“饭”,并将语义依存关系种类F所在的方向关系作为“饭”和“吃”之间的关系,进而生成如图5所示的最大生成树。
S14,基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。
可选地,本公开中,如图6所示,基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度,包括:
S141,针对所述待分析文本的词语节点有向图的最大生成树中的每一待分析词语节点,确定所述参考文本的词语节点有向图的最大生成树中对应于该待分析词语节点的参考词语节点。
具体来讲,对于待分析文本的词语节点有向图的最大生成树中的每一待分析词语节点,可以将参考文本的词语节点有向图的最大生成树中具有相同或相似位置的词语节点作为对应于该分析词语节点的参考词语节点。
沿用上述步骤S11所举的例子,参考文本“我自己在餐厅喝汤”的词语节点有向图的最大生成树如图8所示,第一待分析文本“我独自在饭店喝汤”的词语节点有向图的最大生成树如图7所示,第二待分析文本“我自己吃肉”的词语节点有向图的最大生成树如图9所示。例如对于图7和图8所示的最大生成树,可以确定图7中的待分析词语节点“饭店”对应的参考词语节点为图8所示的词语节点“餐厅”,图7中的待分析词语节点“独自”对应的参考词语节点为图8所示的词语节点“自己”。对于图8和图9所示的最大生成树,可以假设图9中存在两个隐藏的待分析词语节点“空”,进而确定两个待分析词语节点“空”对应的参考词语节点分别为图8所示的词语节点“餐厅”和“在”。
S142,基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度。
具体来讲,待分析词语节点相对于参考词语节点的相同特征可以包括待分析词语节点与所述参考词语节点分别位于各自所在的最大生成树中的位置特征,以及待分析词语节点与参考词语节点的词性特征,差异特征可以包括待分析词语节点相对于参考词语节点的增减特征,进而可以基于所述待分析词语节点与所述参考词语节点的词性、所述待分析词语节点与所述参考词语节点分别位于各自所在的最大生成树中的位置、以及所述待分析词语节点相对于所述参考词语节点的增减特征,计算所述待分析文本与所述参考文本的相似度。
在计算待分析文本与所述参考文本的相似度时,可以计算通过待分析文本的词语节点有向图的最大生成树,生成参考文本的词语节点有向图的最大生成树的生成代价,来间接计算待分析文本与参考文本的相似度。待分析文本的词语节点有向图的最大生成树生成参考文本的词语节点有向图的最大生成树的生成代价,可以为待分析文本的词语节点有向图的最大生成树中的每一待分析词语节点生成参考文本的词语节点有向图的最大生成树中对应该待分析词语节点的参考词语节点的生成代价之和,生成代价用于表征通过该待分析词语节点生成该参考词语节点的难易程度。
对于上述词性特征,由于例如形容词、副词对于待分析文本或参考文本的整体影响较小,故词性为形容词或副词的待分析词语节点生成对应的参考节点的生成代价,小于词性为名词或动词的待分析词语节点生成对应的参考节点的生成代价。例如图7所示的待分析词语节点“饭店”和图8中对应的参考词语节点“餐厅”均为名词,图7所示的待分析词语节点“独自”和图8中对应的参考分析词语节点“自己”均为副词,故“饭店”生成“餐厅”的生成代价大于“独自”生成“自己”的生成代价。
对于上述位置特征,由于最大生成树中,层次(level)数较小的待分析词语节点生成对应的参考节点的生成代价,大于层次数较大的待分析词语节点生成对应的参考节点的生成代价。例如图9所示的待分析词语节点“吃”和图8中对应的参考分析词语节点“喝”的层次数均为1,图9所示的待分析词语节点“肉”和图8中对应的参考分析词语节点“汤”的层次数均为2,故“吃”生成“喝”的生成代价大于“肉”生成“汤”的生成代价。
对于上述待分析词语节点相对于参考词语节点的增减特征,在待分析文本词集为参考文本词集的超集的情况下,待分析文本词集可能包含了参考文本的所有信息,故待分析词语节点通过增加的方式生成对应的参考词语节点的生成代价,大于待分析词语节点保持数量不变的方式生成对应的参考词语节点的生成代价,待分析词语节点保持数量不变的方式生成对应的参考词语节点的生成代价,大于待分析词语节点通过减少的方式生成对应的参考词语节点的生成代价。例如对于图8所示的参考词语节点“餐厅”和“在”,假设在图9所示的最大生成树中存在对应的两个待分析词语节点“空”,则两个待分析词语节点“空”分别生成图8所示的参考词语节点“餐厅”和“在”的生成代价,均大于图9所示的待分析词语节点“肉”生成图8所示的参考词语节点“汤”的生成代价。
计算出生成代价后,可以对生成代价归一化,然后将1减去归一化的生成代价的值作为待分析文本与参考文本的相似度。在一种可能的应用场景中,可以将陈述题的参考答案作为参考文本,将考生的答案作为待分析文本,计算出的该参考文本与该待分析文本的该相似度之后,可以将该相似度与该陈述题的总分相乘得到对该题目的评分,该过程自动进行,无需人为评分,减小了评分人员的劳动强度。在另一种应用场景中,可以将终端获取的用户语音指令转化为待分析文本,然后计算与该待分析文本与终端中内置的多个参考文本的相似度,并确定相似度最大的参考文本对应的指令为用户的欲执行的指令。
通过上述技术方案,分别将待分析文本中的词语的语义依存关系和参考文本中的词语的语义依存关系作为计算相似度的因变量,并通过生成最大生成树体现不同词语之间的关系,增加了对于文本相似度分析的维度,提高了文本相似度分析的准确性,使得计算出的待分析文本与参考文本的相似度更加符合实际情况。
本公开中,可选地,如图10所示,基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度,包括:
S143,若所述待分析文本的词语节点有向图的最大生成树,或所述参考文本的词语节点有向图的最大生成树不唯一,则计算所述待分析文本的词语节点有向图的每一最大生成树,和所述参考文本的词语节点有向图的每一最大生成树的可选相似度。
S144,将值最大的可选相似度作为所述待分析文本与所述参考文本的相似度。
具体来讲,可选相似度的计算方式可以参考上述步骤S11至步骤S14。由于可能生成多个待分析文本的词语节点有向图的最大生成树,和/或多个参考文本的词语节点有向图的最大生成树,故计算所有的待分析文本的词语节点有向图的最大生成树与所有的参考文本的词语节点有向图的最大生成树的可选相似度,并将值最大的可选相似度作为所述待分析文本与所述参考文本的相似度。由于可选相似度可能受最大生成树的具体结构的影响,故对于其他值较小的可选相似度不做考虑。
图11是根据一示例性实施例示出的一种文本相似度的分析装置的框图,如图11所示,该装置100包括:
分词模块110,被配置为分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;
有向图构建模块120,被配置为分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图;
最大生成树生成模块130,被配置为分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;
相似度计算模块140,被配置为基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。
通过上述技术方案,分别将待分析文本中的词语的语义依存关系和参考文本中的词语的语义依存关系作为计算相似度的因变量,并通过生成最大生成树体现不同词语之间的关系,增加了对于文本相似度分析的维度,提高了文本相似度分析的准确性,使得计算出的待分析文本与参考文本的相似度更加符合实际情况。
可选地,该有向图构建模块120包括:
语义依存关系类别标注子模块,被配置为分别针对所述待分析文本词集和所述参考文本词集中的任意两个词语的组合,标注出所有该组合中的两个词语之间的语义依存关系类别;
重要度标注子模块,被配置为基于预设的语义依存关系类别与对应该语义依存关系类别的重要度关系表,标注出所有该组合中的两个词语之间的语义依存关系类别的重要度;
建边子模块,被配置为分别针对所述待分析文本词集和所述参考文本词集中存在的所有所述组合,当该组合中的两个词语之间的语义依存关系类别满足预设条件时,于该组合中的两个词语之间建立边;
权重确定子模块,被配置为将该组合中的两个词语之间的语义依存关系类别的重要度作为该组合中的两个词语之间的边的权重,分别生成所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图。
可选地,该相似度计算模块140包括:
词语节点确定子模块,被配置为针对所述待分析文本的词语节点有向图的最大生成树中的每一待分析词语节点,确定所述参考文本的词语节点有向图的最大生成树中对应于该待分析词语节点的参考词语节点;
相似度计算子模块,被配置为基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度。
可选地,该相似度计算子模块被配置为:
基于所述待分析词语节点与所述参考词语节点的词性、所述待分析词语节点与所述参考词语节点分别位于各自所在的最大生成树中的位置、以及所述待分析词语节点相对于所述参考词语节点的增减特征,计算所述待分析文本与所述参考文本的相似度。
可选地,该相似度计算模块140包括:
可选相似度确定子模块,被配置为在所述待分析文本的词语节点有向图的最大生成树,或所述参考文本的词语节点有向图的最大生成树不唯一时,计算所述待分析文本的词语节点有向图的每一最大生成树,和所述参考文本的词语节点有向图的每一最大生成树的可选相似度;
相似度确定选择子模块,被配置为将值最大的可选相似度作为所述待分析文本与所述参考文本的相似度。
于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图12是根据一示例性实施例示出的一种电子设备的框图。如图12所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的文本相似度的分析方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的文本相似度的分析方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的文本相似度的分析方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的文本相似度的分析方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种文本相似度的分析方法,其特征在于,所述分析方法包括:
分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;
分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图;
分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;
基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。
2.根据权利要求1所述的分析方法,其特征在于,所述分别基于所述待分析文本词集中的词语的语义依存关系和所述参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图,包括:
分别针对所述待分析文本词集和所述参考文本词集中的任意两个词语的组合,标注出所有该组合中的两个词语之间的语义依存关系类别;
基于预设的语义依存关系类别与对应该语义依存关系类别的重要度关系表,标注出所有该组合中的两个词语之间的语义依存关系类别的重要度;
分别针对所述待分析文本词集和所述参考文本词集中存在的所有所述组合,当该组合中的两个词语之间的语义依存关系类别满足预设条件时,于该组合中的两个词语之间建立边;
将该组合中的两个词语之间的语义依存关系类别的重要度作为该组合中的两个词语之间的边的权重,分别生成所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图。
3.根据权利要求1所述的分析方法,其特征在于,所述基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度,包括:
针对所述待分析文本的词语节点有向图的最大生成树中的每一待分析词语节点,确定所述参考文本的词语节点有向图的最大生成树中对应于该待分析词语节点的参考词语节点;
基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度。
4.根据权利要求3所述的分析方法,其特征在于,所述基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度,包括:
基于所述待分析词语节点与所述参考词语节点的词性、所述待分析词语节点与所述参考词语节点分别位于各自所在的最大生成树中的位置、以及所述待分析词语节点相对于所述参考词语节点的增减特征,计算所述待分析文本与所述参考文本的相似度。
5.根据权利要求1所述的分析方法,其特征在于,所述基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度,包括:
若所述待分析文本的词语节点有向图的最大生成树,或所述参考文本的词语节点有向图的最大生成树不唯一,则计算所述待分析文本的词语节点有向图的每一最大生成树,和所述参考文本的词语节点有向图的每一最大生成树的可选相似度;
将值最大的可选相似度作为所述待分析文本与所述参考文本的相似度。
6.一种文本相似度的分析装置,其特征在于,所述装置包括:
分词模块,被配置为分别对待分析文本与参考文本进行分词,得到待分析文本词集和参考文本词集;
有向图构建模块,被配置为分别基于待分析文本词集中的词语的语义依存关系和参考文本词集中的词语的语义依存关系,构建所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图;
最大生成树生成模块,被配置为分别生成所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树;
相似度计算模块,被配置为基于所述待分析文本的词语节点有向图的最大生成树,和所述参考文本的词语节点有向图的最大生成树计算所述待分析文本与所述参考文本的相似度。
7.根据权利要求6所述的分析装置,其特征在于,所述有向图构建模块包括:
语义依存关系类别标注子模块,被配置为分别针对所述待分析文本词集和所述参考文本词集中的任意两个词语的组合,标注出所有该组合中的两个词语之间的语义依存关系类别;
重要度标注子模块,被配置为基于预设的语义依存关系类别与对应该语义依存关系类别的重要度关系表,标注出所有该组合中的两个词语之间的语义依存关系类别的重要度;
建边子模块,被配置为分别针对所述待分析文本词集和所述参考文本词集中存在的所有所述组合,当该组合中的两个词语之间的语义依存关系类别满足预设条件时,于该组合中的两个词语之间建立边;
权重确定子模块,被配置为将该组合中的两个词语之间的语义依存关系类别的重要度作为该组合中的两个词语之间的边的权重,分别生成所述待分析文本的词语节点有向图和所述参考文本的词语节点有向图。
8.根据权利要求6所述的分析装置,其特征在于,所述相似度计算模块包括:
词语节点确定子模块,被配置为针对所述待分析文本的词语节点有向图的最大生成树中的每一待分析词语节点,确定所述参考文本的词语节点有向图的最大生成树中对应于该待分析词语节点的参考词语节点;
相似度计算子模块,被配置为基于所述待分析词语节点相对于所述参考词语节点的相同特征和/或差异特征,计算所述待分析文本与所述参考文本的相似度。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1至5中任一项所述方法的步骤。
CN201910600328.XA 2019-07-04 2019-07-04 文本相似度的分析方法、分析装置、存储介质和电子设备 Active CN110390085B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910600328.XA CN110390085B (zh) 2019-07-04 2019-07-04 文本相似度的分析方法、分析装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910600328.XA CN110390085B (zh) 2019-07-04 2019-07-04 文本相似度的分析方法、分析装置、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN110390085A true CN110390085A (zh) 2019-10-29
CN110390085B CN110390085B (zh) 2023-04-07

Family

ID=68286078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910600328.XA Active CN110390085B (zh) 2019-07-04 2019-07-04 文本相似度的分析方法、分析装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN110390085B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401928A (zh) * 2020-04-01 2020-07-10 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN114943036A (zh) * 2022-06-10 2022-08-26 盐城金堤科技有限公司 push推送相似文章判定方法和装置、及存储介质和电子设备
CN115292477A (zh) * 2022-07-18 2022-11-04 盐城金堤科技有限公司 推送相似文章判定方法和装置、及存储介质和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155999A (zh) * 2015-04-09 2016-11-23 科大讯飞股份有限公司 自然语言语义理解方法及系统
CN106776548A (zh) * 2016-12-06 2017-05-31 上海智臻智能网络科技股份有限公司 一种文本的相似度计算的方法和装置
US20170337268A1 (en) * 2016-05-17 2017-11-23 Xerox Corporation Unsupervised ontology-based graph extraction from texts

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155999A (zh) * 2015-04-09 2016-11-23 科大讯飞股份有限公司 自然语言语义理解方法及系统
US20170337268A1 (en) * 2016-05-17 2017-11-23 Xerox Corporation Unsupervised ontology-based graph extraction from texts
CN106776548A (zh) * 2016-12-06 2017-05-31 上海智臻智能网络科技股份有限公司 一种文本的相似度计算的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI ZHENG ET AL.: "An Improved KNN Text Categorization Method Based on Spanning Tree Documents Clustering", 《2011 INTERNATIONAL CONFERENCE ON INTERNET TECHNOLOGY AND APPLICATIONS》 *
王景中 等: "基于多谓词语义框架的长短语文本相似度计算", 《计算机工程与设计》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401928A (zh) * 2020-04-01 2020-07-10 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN111401928B (zh) * 2020-04-01 2022-04-12 支付宝(杭州)信息技术有限公司 基于图数据确定文本的语义相似度的方法及装置
CN114943036A (zh) * 2022-06-10 2022-08-26 盐城金堤科技有限公司 push推送相似文章判定方法和装置、及存储介质和电子设备
CN115292477A (zh) * 2022-07-18 2022-11-04 盐城金堤科技有限公司 推送相似文章判定方法和装置、及存储介质和电子设备
CN115292477B (zh) * 2022-07-18 2024-04-16 盐城天眼察微科技有限公司 推送相似文章判定方法和装置、及存储介质和电子设备

Also Published As

Publication number Publication date
CN110390085B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN109844743B (zh) 在自动聊天中生成响应
CN107797984A (zh) 智能交互方法、设备及存储介质
CN110390085A (zh) 文本相似度的分析方法、分析装置、存储介质和电子设备
CN108595695A (zh) 数据处理方法、装置、计算机设备和存储介质
CN109885810A (zh) 基于语义解析的人机问答方法、装置、设备和存储介质
CN109977215B (zh) 基于关联兴趣点的语句推荐方法和装置
EP2643770A2 (en) Text segmentation with multiple granularity levels
US20200210505A1 (en) Electronic apparatus and controlling method thereof
RU2646380C1 (ru) Использование верифицированных пользователем данных для обучения моделей уверенности
CN106649253B (zh) 基于后验证的辅助控制方法及系统
JP7058574B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN107180084A (zh) 词库更新方法及装置
CN105390137B (zh) 响应生成方法、响应生成装置和响应生成程序
JP2007334534A (ja) 文字列入力装置、文字列入力方法、および、プログラム
CN109710834A (zh) 相似网页检测方法、装置、存储介质及电子设备
KR20200095040A (ko) 다국어 채팅을 위한 서버 및 번역 방법
CN109410935A (zh) 一种基于语音识别的目的地搜索方法及装置
JP5766152B2 (ja) 言語モデル生成装置、その方法及びプログラム
JP7096199B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR20210031094A (ko) 트리 기반 이상치 탐지 장치 및 방법, 컴퓨터 프로그램
Shalyminov et al. Data-efficient goal-oriented conversation with dialogue knowledge transfer networks
Chen et al. Generalizing conversational dense retrieval via llm-cognition data augmentation
CN109657840A (zh) 决策树生成方法、装置、计算机可读存储介质及电子设备
Vazhentsev et al. Efficient out-of-domain detection for sequence to sequence models
JP2020187262A (ja) 感情推定装置、感情推定システム、及び感情推定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant