CN112364947A - 一种文本相似度计算方法和装置 - Google Patents
一种文本相似度计算方法和装置 Download PDFInfo
- Publication number
- CN112364947A CN112364947A CN202110046179.4A CN202110046179A CN112364947A CN 112364947 A CN112364947 A CN 112364947A CN 202110046179 A CN202110046179 A CN 202110046179A CN 112364947 A CN112364947 A CN 112364947A
- Authority
- CN
- China
- Prior art keywords
- keyword
- similarity
- text
- keywords
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种文本相似度计算方法和装置,本发明实施例通过分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;先基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;然后再基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;最后根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度,通过提取文本中的关键词,并利用关键词计算出文本之间的相似度,从而达到快速计文本相似度的目的。
Description
技术领域
本发明属于互联网技术领域,尤其涉及一种文本相似度计算方法和装置。
背景技术
随着互联网信息技术的快速发展,人们可以方便地上传或下载共享的文档信息,这种共享模式将直接导致了海量文档的存在。当前主要采用整句匹配,或者关键词匹配的方式确定文本之间的相似度,然而,由于中文句子的语法结构的复杂多变,语义语境的多异性等因素,增加了中文句子相似度计算难度,所以现有技术无法从批量文档中,快速精准的获取相似文档。
鉴于此种情况,现有技术中提出了大量的解决方法,主要分为:现有技术1,将句子直接转换为空间向量的方法,结合统计实现的基于向量空间模型(VSM)的方法;现有技术2,基于构建的语义知识库进行计算的语义模型的方法。
虽然,在学者们的不断研究过程中,对当前方法进行了一定程度的改进,但是仍然存在一定的问题。其中,现有技术1基于向量空间模型(VSM)的方法,只是通过比较句子向量之间的关系来得到文本间相似度,在整个计算模型中,各词语是相互独立的,并无语义层面的关系,因此其分析文本间相似度结果往往不够准确;而现有技术2基于构建的语义知识库进行计算的语义模型的方法,虽然充分考虑了语义层面的关系,使得计算结果与人类的主观判断更加相符,但是,由于整个计算过程中,文本的全部句法结构,语义信息被考虑,增加了模型的计算复杂度,因此,如何从批量文档中,快速精准的获取相似文档,从而有效的进行信息检索就变得尤为重要。
发明内容
为了解决上述现有技术中文本相似度计算结果的精度较低的技术问题,本申请提供了一种文本相似度计算方法和装置。
第一方面,本发明提供了一种文本相似度计算方法,所述方法包括:
分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度。
可选地,所述层次树包含有多个节点,其中,所述多个节点中各节点中存储有关键词的属性信息,所述属性信息包括所述关键词在所述层次树中的深度信息、语义路径以及该节点在所述层次树中所处等级密度信息。
可选地,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,则根据所述关键词a和所述关键词b的属性信息计算所述关键词a与所述关键词b的相似度;
基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度。
可选地,所述属性信息包括关键词在所述层次树中的语义路径信息;
根据所述关键词a和所述关键词b的属性信息计算所述关键词a与所述关键词b的相似度的计算公式如下:
其中,simi()表示所述关键词a与所述关键词b的相似度,且,为两个关键词()的最短路径,即根据所述语义路径信息确定的关键词在层次树中,沿着树状结构,从标签关键词w1到标签关键词w2经历的最少步数,为在层次树中的路径编码树的深度,为在层次树中的路径编码树的深度,为两个关键词()的最大公共节点的深度,即。
可选地,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点不同,则将预设的最低相似度设置为所述第一相似度。
可选地,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,且所述关键词a与所述关键词b语义相同,则将预设的最高相似度设置为所述第一相似度。
可选地,基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度的步骤,包括:
分别确定所述第一标签关键词集合与所述第二标签关键词的集合长度;
根据所述第一标签关键词集合与所述第二标签关键词的集合长度以及所述关键词a与所述关键词b的相似度计算所述第一相似度。
可选地,基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度的步骤,包括:
针对于所述第一非标签关键词集合中的关键词c与所述第二非标签关键词集合中的关键词d,将所述关键词c与所述关键词d输入至所述语义模型中,以在向量空间中确定所述关键词c的向量与所述关键词d的向量的间距;
根据所述间距确定所述关键词c与所述关键词d的相似度;
基于所述关键词c与所述关键词d的相似度确定所述第二相似度。
可选地,根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度的步骤,包括:
获取用于表示第一相似度与所述第二相似度关联关系的权重调节因子;
根据所述第一相似度和所述第二相似度以及所述权重调节因子计算所述文本相似度。
第二方面,本发明提供了一种文本相似度计算装置,根据文本相似度计算方法进行实施处理,包括:
第一确定模块,用于分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
第二确定模块,用于基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
第三确定模块,用于基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
第四确定模块,用于根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例通过分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;先基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;然后再基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;最后根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度,通过提取文本中的关键词,并利用关键词计算出文本之间的相似度,从而达到快速计文本相似度的目的。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的一种文本相似度计算方法步骤流程图;
图2是本申请实施例的图1中步骤S102的流程图;
图3是本申请实施例的层次树示意图;
图4是本申请实施例的图2中步骤S202的流程图;
图5是本申请实施例的图1中步骤S103的流程图;
图6是本申请实施例的图1中步骤S104的流程图;
图7是本申请实施例的一种文本相似度计算装置模块示意图;
图8是本申请实施例的一种电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
在现有技术中,随着互联网信息技术的快速发展,人们可以方便地上传或下载共享的文档信息,这种共享模式将直接导致了海量文档的存在。然而,由于中文句子的语法结构的复杂多变,语义语境的多异性等因素,增加了中文句子相似度计算难度。鉴于此种情况,现有技术提出了大量的解决方法,主要分为:现有技术1,将句子直接转换为空间向量的方法,结合统计实现的基于向量空间模型(VSM)的方法;现有技术2,基于构建的语义知识库进行计算的语义模型的方法。
虽然,在学者们的不断研究过程中,对当前方法进行了一定程度的改进,但是仍然存在一定的问题。其中,现有技术1基于向量空间模型(VSM)的方法,只是通过比较句子向量之间的关系来得到文本间相似度,在整个计算模型中,各词语是相互独立的,并无语义层面的关系,因此其分析文本间相似度结果往往不够准确;而现有技术2基于构建的语义知识库进行计算的语义模型的方法,虽然充分考虑了语义层面的关系,使得计算结果与人类的主观判断更加相符,但是,由于整个计算过程中,文本的全部句法结构,语义信息被考虑,增加了模型的计算复杂度,因此,如何从批量文档中,快速精准的获取相似文档,从而有效的进行信息检索就变得尤为重要,基于此,本发明实施例首先提供了一种文本相似度计算方法,如图1所示,所述方法包括:
步骤S101,分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
在该步骤中,第一文本与第二文本为待计算文本相似度的两个文本,其中,标签关键词可以是指用于表示文本内容的词汇,针对于词汇是否为研发人员预先设置的标签关键词,可以采用查找字典的方式,以判断筛选出的词汇归纳为标签关键词还是非标签关键词。
在实际应用中,可以基于统计和语义距离相结合的方法获取文本中的主要关键词集合;如果当前关键词是字典中的词汇(例如:层次树的某个节点),则将当前关键词放入标签关键词集合;否则,将当前关键词放入非标签关键词集合。
步骤S102,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
在该步骤中,层次树用于表示关键词之间关联关系,在实际应用中,将面向母婴领域的标签分类关键词表抽象成层次树结构,而每个标签关键词为层次树中的节点,并将层次树的结构信息进行保存,具体地,在知网(hownet,知网,知网是一个把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统,涉及到得领域比较广泛,但是发明人在研究过程中发现母婴领域涉及得很少,所以本发明可以参考其泛化概念层级关系得方式,整理得面向母婴领域的关键词表,构建成对应的概念层级树,来表征关键词表的上下层级关系;其中的标签分类关键词表可以是根据母婴领域的知识储备,人工构建总结出来的)的启发下,将专业人员标注的面向母婴领域的标签分类关键词表,按照适合年龄段(层次树中的根节点)、分类等级抽象成层次树结构,而每个标签关键词为层次树中的节点,每个层次树的根节点为年龄段的统称;并依据层次树,对标签关键词的名称,路径,等级,上级标签,编码等信息进行保存。从而在计算第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合,可以根据标签关键词集合中的关键词在层次树中的名称,路径,等级,上级标签,编码等预设的信息确定相似度。因此说,本发明实施例所采用的文本相似度计算方法是基于研究人员对母婴特定技术领域,并采用特定方法(例如:基于预设的用于表示关键词之间关联关系的层次树,按照适合年龄段(层次树中的根节点)、分类等级抽象成层次树结构)实现的第一文本的第一标签关键词集合与第二文本的第二标签关键词集合的第一相似度确定实施。需要特殊说明的是,现有技术中标签关键词集合的相似度确定方式较多,但是基于母婴特定场景,适用于母婴特定场景下实施关键词集合中的关键词在层次树中的名称,路径,等级,上级标签,编码等预设的信息确定现有技术中并不多见。
具体地,在本发明实施例中,所述层次树包含有多个节点,其中,所述多个节点中各节点中存储有关键词的属性信息,所述属性信息可以包括所述关键词在所述层次树中的深度信息、语义路径以及该节点在所述层次树中所处等级密度信息中一项或多项,具体可以根据实际情况而定。
相应地,步骤S102,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度,如图2所示,包括:
步骤S201,若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,则根据所述关键词a和所述关键词b的属性信息计算所述关键词a与所述关键词b的相似度;
在该步骤中,针对于关键词a与关键词b在所述层次树中所述的根节点相同时,代表关键词a与关键词b具有一定的相关性。
另一方面,若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点不同,代表关键词a与关键词b不具有相关性,则将预设的最低相似度设置为所述第一相似度。
再者,若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,且所述关键词a与所述关键词b语义相同,则将预设的最高相似度设置为所述第一相似度,其中,极端情况下关键词a与关键词b可以为同一个词。
举例说明:在实际应用场景中,如图3所示,假设抽象的层次树结构如下图所示,则其适合的年龄段为育儿期(根节点为年龄段的统称);图3中每个节点都是标签关键词标签,关键词“翻身时间”对应的路径为:/育儿期/生长发育/发育/大运动/翻身/翻身时间,等级为5,上级标签为:翻身,编码为:100010001000100020001(其中标签关键词的编码的定制规则:根节点育儿期用编码1表示;根节点孕期用编码0表示;然后每个标签关键词的路径为,从根节点出发,到当前标签关键词的最短路径;路径中以“/”作为级别划分,每级用一个4位数字表示;其中这个4位数字需遵循的原则为:一旦某个关键词用4位编码表示,则遵循确定且唯一性,同时,同级别的4位数字不能重复,而不同级别的4位数字可以重复,即第2级可能存在0001,第3级也可能存在0001,但第2级只能有一个0001;比如:翻身时间(/1/生长发育/发育/大运动/翻身/0001)生长(/1/生长发育/发育/大运动/翻身/0002) 其中,翻身时间与翻身练习同处在一级,所以一个用0001表示,一个用0002表示,之前的每个级别都如此规划,最终得到编码),标签关键词“翻身练习”对应的路径为:/育儿期/生长发育/发育/大运动/翻身/翻身练习,等级为5,上级标签为:翻身,编码为:100010001000100020002。
在上述示例中,编码用于表示当前标签唯一的标识,并且参与计算;其中参与计算的核心部分,是标签的层级,如果当前关键词是层次树的某个节点,则将当前关键词放入标签关键词集合;否则,将当前关键词放入非标签关键词集合;
具体地,针对两个标签关键词的相似度,如果两个标签关键词所属年龄段相同,但两个标签关键词并不相同,则依据关键词在层次树具体深度、语义路径以及所处等级等因素进行计算;
极端情况之一:
如果两个标签关键词所属年龄段相同,且两个标签关键词也相同,则默认两个标签关键词是同一个词,其相似度值为1;
极端情况之二:
如果两个标签关键词所属年龄段不同,不管两个标签关键词是否相同,都认为其关联性较弱,则两个关键词的相似度值也会越低,于是采用一个接近于0的值,即将预设的最低相似度设置为所述第一相似度(为了便于后面的计算,以及保证算法的严谨性,两个关键词的相似度值再低,也要用一个很小的值表征)。
普通常见情况之三:
其中,计算两个标签关键词()的相似度,如果两个标签关键词对应的所属年龄段相同,且,为两个关键词()的最短路径(在层次树中,沿着树状结构,从标签关键词w1到w2经历的最少步数),为在层次树中的路径编码树的深度,为在层次树中的路径编码树的深度(上述路径编码树又称标签路径编码树),为两个关键词()的最大公共节点的深度,即,其中的计算,可以参考如下公式:,同样的则也可以根据的计算公式形式实施计算;则simi()=;其中,e为正数或是常数;
步骤S202,基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度。
在本发明实施例中,分别从两个标签关键词集合中的确定关键词a与关键词b,参考平均绝对误差的思想,以及相同关键词在所有关键词中的比重,采用某种策略实现由关键词的相似度得到两个集合的相似度;
具体地,如果两个标签关键词集合中,存在相同标签关键词,参考平均绝对误差的思想,将一个标签关键词与另一个集合中的标签关键词进行求相似度并取平均,在一定程度上,降低了相同标签关键词在集合相似度计算上的贡献度,与人的主观判断差距较远;所以,本发明充分考虑相同关键词在所有关键词的比重,并且认为两个相同关键词的相似度为1。同时,为了不影响非相同关键词的相似度计算部分,本发明将相同标签关键词从一个集合中剔除,在另一个集合中保留,从而参与到相似度计算中,以达到精准的效果。
具体地,针对两个标签关键词集合C1()的相似度,如果两个关键词集合存在相同的关键词,则充分考虑相同关键词占所有关键词的比例,参数为相同关键词占所有关键词的比例,为相同关键词集合,即; ()为剔除相同关键词之后的集合;则两个标签关键词集合相似度表示为:;
如果两个标签关键词集合中不存在相同的关键词,则两个关键词集合的相似度可以被表示为:
其中,关于两个值的计算,都是参考平均绝对误差的思想,由集合中任意两个关键词的相似度得到集合的相似度;如果用m表示集合的长度,n表示集合的长度,表示集合中第i个标签关键词与集合中第j个标签关键词的相似度,具体相似度值的计算,最后再参考两个关键词之间的相似度,则两个标签关键词集合的相似度可以表示为:
例如:基于S101中构建的层次树结构,计算标签关键词集合C11(翻身时间,翻身练习,抓挠,趴)和C12(翻身时间,翻身练习,翻滚)的相似度;按照上述的方法,确定两个标签关键词集合的相同关键词集合= (翻身时间,翻身练习),求解上述相同关键词占所有关键词的比例,即,然后剔除相同关键词之后的得到集合=(抓挠,趴)从一个集合中剔除,在另一个集合中保留,从而参与到相似度计算中,以达到精准的效果,具体计算如下:
发明人在研究过程中发现两个关键词集合进行相似度计算,如果里面相同的词,直接相同,就从两个集合中剔除,且相似度值都为最高值1;那么,无形当中,引入了很大误差,因为研究人员不能确定,两个相同的关键词在表达文本主题方面的贡献度相同;所以,本发明实施例采用从一个集合中剔除共有关键词,这样另一个集合中的共有关键词还是参与相似度计算的;所以在一定的程度上减少了误差的引入;因此说,本申请实施例涉及的上述“剔除”技术点也是本申请实施例的主要技术创新之一,对此详见上述技术内容。
进一步地,步骤S202,基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度,如图4所示,包括:
步骤S401,分别确定所述第一标签关键词集合与所述第二标签关键词的集合长度;
步骤S402,根据所述第一标签关键词集合与所述第二标签关键词的集合长度以及所述关键词a与所述关键词b的相似度计算所述第一相似度;
在本发明实施例中,以上所述的参考平均绝对误差的思想,通过集合中任意两个关键词的相似度得到集合的相似度,具体包括:
步骤S103,基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
在该步骤中,所述针对非标签关键词集合中标签关键词的相似度,则将关键词映射到向量空间,通过两向量之间的距离,得到两个关键词之间的相似度值,进一步地,步骤S103,基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度,如图5所示,包括:
步骤S501,针对于所述第一非标签关键词集合中的关键词c与所述第二非标签关键词集合中的关键词d,将所述关键词c与所述关键词d输入至所述语义模型中,以在向量空间中确定所述关键词c的向量与所述关键词d的向量的间距;
步骤S502,根据所述间距确定所述关键词c与所述关键词d的相似度;
步骤S503,基于所述关键词c与所述关键词d的相似度确定所述第二相似度。
通过非标签关键词的相似度得到用于表示两个非标签关键词集合的第二相似度;具体包括:
针对两个非标签关键词的相似度,由于其都不在路径编码树中存在,所以借助于,基于大规模语料库训练的word2vec模型,计算得到两个关键词在同一向量空间中的向量之间的距离,并以此向量距离作为两个非标签关键词的相似度;之后同样参考平均绝对误差的思想,通过集合()中任意两个关键词的相似度得到集合的相似度;即。
实际应用中,同样参考平均绝对误差的思想,按照步骤S104中提到的由集合中关键词的相似度得到集合相似度的计算方法,得到非标签关键词集合C2的相似度值;即标签关键词集合C2()的相似度计算公式可以表示为:
步骤S104,根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度;
在本发明实施例中,通过以上获取的标签关键词集合和非标签关键词集合的相似度,基于混合策略对两个集合相似度值进行加权,得到最终的文本相似度,具体包括:
基于以上方法可以得到两条文本的标签关键词集合和非标签关键词集合的相似度,,,但是,需要根据两种类别的关键词对于两条文本的相似度的重要程度,按照不同的权值加权。本发明中,在两条文本的关键词集合中,如果都存在标签关键词和非标签关键词的情况下,采用作为权重调节因子,则两条文本的相似度:
具体地,步骤S104,根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度,如图6所示,包括:
步骤S601,获取用于表示第一相似度与所述第二相似度关联关系的权重调节因子;
步骤S602,根据所述第一相似度和所述第二相似度以及所述权重调节因子计算所述文本相似度。
在实际应用中,通过上述实施例得到两条待比较文本的标签关键词集合和非标签关键词集合的相似度值:
即,;但是标签关键词和非标签关键词对于文本的重要程度是不同的,所以,需要根据关键词对于文本的重要程度,按照不同的权值加权计算文本的相似度值。本发明中,在两条待比较文本的关键词集合中,如果都存在标签关键词和非标签关键词的情况下,采用作为权重调节因子,则:两条待比较文本的相似度:
=0.79*0.6+0.62*0.4=0.722。
最后实现根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度,通过提取文本中的关键词,并利用关键词计算出文本之间的相似度,从而达到快速计文本相似度的目的。
如图7所示,在本发明的又一实施例中,本发明还提供了一种文本相似度计算装置,根据本发明实施例提供的上述文本相似度计算方法进行实施处理,包括:
第一确定模块01,用于分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
第二确定模块02,用于基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
第三确定模块03,用于基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
第四确定模块04,用于根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度。
在本发明的又一实施例中,还提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现方法实施例所述的文本相似度计算方法。
本发明实施例提供的电子设备,处理器通过分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;先基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;然后再基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;最后根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度,通过提取文本中的关键词,并利用关键词计算出文本之间的相似度,从而达到快速计文本相似度的目的。上述电子设备提到的通信总线1140可以是串行外设接口总线(Serial Peripheral Interface,简称SPI)或者集成电路总线(Inter-IntegratedCircuit,简称ICC)等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种文本相似度计算方法,其特征在于,所述方法包括:
分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度。
2.根据权利要求1所述的文本相似度计算方法,其特征在于,所述层次树包含有多个节点,其中,所述多个节点中各节点中存储有关键词的属性信息。
3.根据权利要求2所述的文本相似度计算方法,其特征在于,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,则根据所述关键词a和所述关键词b的属性信息计算所述关键词a与所述关键词b的相似度;
基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度。
5.根据权利要求1所述的文本相似度计算方法,其特征在于,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点不同,则将预设的最低相似度设置为所述第一相似度。
6.根据权利要求1所述的文本相似度计算方法,其特征在于,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,且所述关键词a与所述关键词b语义相同,则将预设的最高相似度设置为所述第一相似度。
7.根据权利要求3所述的文本相似度计算方法,其特征在于,基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度的步骤,包括:
分别确定所述第一标签关键词集合与所述第二标签关键词的集合长度;
根据所述第一标签关键词集合与所述第二标签关键词的集合长度以及所述关键词a与所述关键词b的相似度计算所述第一相似度。
8.根据权利要求1所述的文本相似度计算方法,其特征在于,基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度的步骤,包括:
针对于所述第一非标签关键词集合中的关键词c与所述第二非标签关键词集合中的关键词d,将所述关键词c与所述关键词d输入至所述语义模型中,以在向量空间中确定所述关键词c的向量与所述关键词d的向量的间距;
根据所述间距确定所述关键词c与所述关键词d的相似度;
基于所述关键词c与所述关键词d的相似度确定所述第二相似度。
9.根据权利要求1所述的文本相似度计算方法,其特征在于,根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度的步骤,包括:
获取用于表示第一相似度与所述第二相似度关联关系的权重调节因子;
根据所述第一相似度和所述第二相似度以及所述权重调节因子计算所述文本相似度。
10.一种文本相似度计算装置,其特征在于,根据如权利要求1-9任一项所述的文本相似度计算方法进行实施处理,包括:
第一确定模块,用于分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
第二确定模块,用于基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
第三确定模块,用于基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
第四确定模块,用于根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110046179.4A CN112364947B (zh) | 2021-01-14 | 2021-01-14 | 一种文本相似度计算方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110046179.4A CN112364947B (zh) | 2021-01-14 | 2021-01-14 | 一种文本相似度计算方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364947A true CN112364947A (zh) | 2021-02-12 |
CN112364947B CN112364947B (zh) | 2021-06-29 |
Family
ID=74535005
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110046179.4A Active CN112364947B (zh) | 2021-01-14 | 2021-01-14 | 一种文本相似度计算方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364947B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283230A (zh) * | 2021-06-24 | 2021-08-20 | 中国平安人寿保险股份有限公司 | 文本相似度计算模型的更新方法、装置、设备及存储介质 |
CN113449078A (zh) * | 2021-06-25 | 2021-09-28 | 完美世界控股集团有限公司 | 相似新闻识别方法、设备、系统及存储介质 |
CN113780449A (zh) * | 2021-09-16 | 2021-12-10 | 平安科技(深圳)有限公司 | 文本相似度的计算方法、装置、存储介质及计算机设备 |
CN116805044A (zh) * | 2023-08-17 | 2023-09-26 | 北京睿企信息科技有限公司 | 一种标签的获取方法、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100042576A1 (en) * | 2008-08-13 | 2010-02-18 | Siemens Aktiengesellschaft | Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge |
CN103617157A (zh) * | 2013-12-10 | 2014-03-05 | 东北师范大学 | 基于语义的文本相似度计算方法 |
CN106598944A (zh) * | 2016-11-25 | 2017-04-26 | 中国民航大学 | 一种民航安保舆情情感分析方法 |
CN106776881A (zh) * | 2016-11-28 | 2017-05-31 | 中国科学院软件研究所 | 一种基于微博平台的领域信息推荐系统及方法 |
CN107436864A (zh) * | 2017-08-04 | 2017-12-05 | 逸途(北京)科技有限公司 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
CN109492213A (zh) * | 2017-09-11 | 2019-03-19 | 阿里巴巴集团控股有限公司 | 句子相似度计算方法和装置 |
CN109885657A (zh) * | 2019-02-18 | 2019-06-14 | 武汉瓯越网视有限公司 | 一种文本相似度的计算方法、装置及存储介质 |
CN109960786A (zh) * | 2019-03-27 | 2019-07-02 | 北京信息科技大学 | 基于融合策略的中文词语相似度计算方法 |
CN110991180A (zh) * | 2019-11-28 | 2020-04-10 | 同济人工智能研究院(苏州)有限公司 | 一种基于关键词和Word2Vec的命令识别方法 |
CN111737997A (zh) * | 2020-06-18 | 2020-10-02 | 达而观信息科技(上海)有限公司 | 一种文本相似度确定方法、设备及储存介质 |
-
2021
- 2021-01-14 CN CN202110046179.4A patent/CN112364947B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100042576A1 (en) * | 2008-08-13 | 2010-02-18 | Siemens Aktiengesellschaft | Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge |
CN103617157A (zh) * | 2013-12-10 | 2014-03-05 | 东北师范大学 | 基于语义的文本相似度计算方法 |
CN106598944A (zh) * | 2016-11-25 | 2017-04-26 | 中国民航大学 | 一种民航安保舆情情感分析方法 |
CN106776881A (zh) * | 2016-11-28 | 2017-05-31 | 中国科学院软件研究所 | 一种基于微博平台的领域信息推荐系统及方法 |
CN107436864A (zh) * | 2017-08-04 | 2017-12-05 | 逸途(北京)科技有限公司 | 一种基于Word2Vec的中文问答语义相似度计算方法 |
CN109492213A (zh) * | 2017-09-11 | 2019-03-19 | 阿里巴巴集团控股有限公司 | 句子相似度计算方法和装置 |
CN109885657A (zh) * | 2019-02-18 | 2019-06-14 | 武汉瓯越网视有限公司 | 一种文本相似度的计算方法、装置及存储介质 |
CN109960786A (zh) * | 2019-03-27 | 2019-07-02 | 北京信息科技大学 | 基于融合策略的中文词语相似度计算方法 |
CN110991180A (zh) * | 2019-11-28 | 2020-04-10 | 同济人工智能研究院(苏州)有限公司 | 一种基于关键词和Word2Vec的命令识别方法 |
CN111737997A (zh) * | 2020-06-18 | 2020-10-02 | 达而观信息科技(上海)有限公司 | 一种文本相似度确定方法、设备及储存介质 |
Non-Patent Citations (4)
Title |
---|
冯高磊 等: "基于向量空间模型结合语义的文本相似度算法", 《现代电子技术》 * |
杨方颖 等: "基于本体结构的语义相似度计算", 《计算机技术与发展》 * |
范弘屹: "一种基于 HowNet 的词语语义相似度计算方法", 《北京信息科技大学学报》 * |
赵小谦 等: "概念树在短文本语义相似度上的应用", 《计算机技术与发展》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113283230A (zh) * | 2021-06-24 | 2021-08-20 | 中国平安人寿保险股份有限公司 | 文本相似度计算模型的更新方法、装置、设备及存储介质 |
CN113283230B (zh) * | 2021-06-24 | 2023-02-03 | 中国平安人寿保险股份有限公司 | 文本相似度计算模型的更新方法、装置、设备及存储介质 |
CN113449078A (zh) * | 2021-06-25 | 2021-09-28 | 完美世界控股集团有限公司 | 相似新闻识别方法、设备、系统及存储介质 |
CN113780449A (zh) * | 2021-09-16 | 2021-12-10 | 平安科技(深圳)有限公司 | 文本相似度的计算方法、装置、存储介质及计算机设备 |
CN113780449B (zh) * | 2021-09-16 | 2023-08-25 | 平安科技(深圳)有限公司 | 文本相似度的计算方法、装置、存储介质及计算机设备 |
CN116805044A (zh) * | 2023-08-17 | 2023-09-26 | 北京睿企信息科技有限公司 | 一种标签的获取方法、电子设备及存储介质 |
CN116805044B (zh) * | 2023-08-17 | 2023-11-17 | 北京睿企信息科技有限公司 | 一种标签的获取方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112364947B (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364947B (zh) | 一种文本相似度计算方法和装置 | |
US11301637B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN110674317B (zh) | 一种基于图神经网络的实体链接方法及装置 | |
CN111737476A (zh) | 文本处理方法、装置、计算机可读存储介质及电子设备 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
US20210042344A1 (en) | Generating or modifying an ontology representing relationships within input data | |
WO2017193685A1 (zh) | 社交网络中数据的处理方法和装置 | |
WO2023029506A1 (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN111353303B (zh) | 词向量构建方法、装置、电子设备及存储介质 | |
CN111967264B (zh) | 一种命名实体识别方法 | |
CN112084789A (zh) | 文本处理方法、装置、设备及存储介质 | |
CN105279264A (zh) | 一种文档的语义相关度计算方法 | |
CN111259647A (zh) | 基于人工智能的问答文本匹配方法、装置、介质及电子设备 | |
CN109117474A (zh) | 语句相似度的计算方法、装置及存储介质 | |
WO2020020085A1 (zh) | 表示学习方法及装置 | |
CN112948676A (zh) | 文本特征提取模型的训练方法、文本推荐方法及装置 | |
CN111881292A (zh) | 一种文本分类方法及装置 | |
CN112507106A (zh) | 深度学习模型的训练方法、装置和faq相似度判别方法 | |
CN113535912B (zh) | 基于图卷积网络和注意力机制的文本关联方法及相关设备 | |
CN108763221B (zh) | 一种属性名表征方法及装置 | |
CN116386895B (zh) | 基于异构图神经网络的流行病舆情实体识别方法与装置 | |
CN116028613B (zh) | 常识问答方法、系统、计算机设备和存储介质 | |
CN112131884A (zh) | 用于实体分类的方法和装置、用于实体呈现的方法和装置 | |
CN111767720A (zh) | 一种标题生成方法、计算机及可读存储介质 | |
WO2023272563A1 (zh) | 智能分诊方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Unit 1, Room 202, Club 3, floor 2, building 2, No.1 xidawang Road, Chaoyang District, Beijing Applicant after: Beijing yuxueyuan Health Management Center Co.,Ltd. Address before: 408, floor 4, building 1, yard 16, Taiyanggong Middle Road, Chaoyang District, Beijing Applicant before: BEIJING CUIYUTAO CHILDREN HEALTH MANAGEMENT CENTER Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |