CN112364947A - 一种文本相似度计算方法和装置 - Google Patents

一种文本相似度计算方法和装置 Download PDF

Info

Publication number
CN112364947A
CN112364947A CN202110046179.4A CN202110046179A CN112364947A CN 112364947 A CN112364947 A CN 112364947A CN 202110046179 A CN202110046179 A CN 202110046179A CN 112364947 A CN112364947 A CN 112364947A
Authority
CN
China
Prior art keywords
keyword
similarity
text
keywords
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110046179.4A
Other languages
English (en)
Other versions
CN112364947B (zh
Inventor
张姗姗
姜巍
于游
赵永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cuiyutao Children Health Management Center Co ltd
Original Assignee
Beijing Cuiyutao Children Health Management Center Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cuiyutao Children Health Management Center Co ltd filed Critical Beijing Cuiyutao Children Health Management Center Co ltd
Priority to CN202110046179.4A priority Critical patent/CN112364947B/zh
Publication of CN112364947A publication Critical patent/CN112364947A/zh
Application granted granted Critical
Publication of CN112364947B publication Critical patent/CN112364947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种文本相似度计算方法和装置,本发明实施例通过分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;先基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;然后再基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;最后根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度,通过提取文本中的关键词,并利用关键词计算出文本之间的相似度,从而达到快速计文本相似度的目的。

Description

一种文本相似度计算方法和装置
技术领域
本发明属于互联网技术领域,尤其涉及一种文本相似度计算方法和装置。
背景技术
随着互联网信息技术的快速发展,人们可以方便地上传或下载共享的文档信息,这种共享模式将直接导致了海量文档的存在。当前主要采用整句匹配,或者关键词匹配的方式确定文本之间的相似度,然而,由于中文句子的语法结构的复杂多变,语义语境的多异性等因素,增加了中文句子相似度计算难度,所以现有技术无法从批量文档中,快速精准的获取相似文档。
鉴于此种情况,现有技术中提出了大量的解决方法,主要分为:现有技术1,将句子直接转换为空间向量的方法,结合统计实现的基于向量空间模型(VSM)的方法;现有技术2,基于构建的语义知识库进行计算的语义模型的方法。
虽然,在学者们的不断研究过程中,对当前方法进行了一定程度的改进,但是仍然存在一定的问题。其中,现有技术1基于向量空间模型(VSM)的方法,只是通过比较句子向量之间的关系来得到文本间相似度,在整个计算模型中,各词语是相互独立的,并无语义层面的关系,因此其分析文本间相似度结果往往不够准确;而现有技术2基于构建的语义知识库进行计算的语义模型的方法,虽然充分考虑了语义层面的关系,使得计算结果与人类的主观判断更加相符,但是,由于整个计算过程中,文本的全部句法结构,语义信息被考虑,增加了模型的计算复杂度,因此,如何从批量文档中,快速精准的获取相似文档,从而有效的进行信息检索就变得尤为重要。
发明内容
为了解决上述现有技术中文本相似度计算结果的精度较低的技术问题,本申请提供了一种文本相似度计算方法和装置。
第一方面,本发明提供了一种文本相似度计算方法,所述方法包括:
分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度。
可选地,所述层次树包含有多个节点,其中,所述多个节点中各节点中存储有关键词的属性信息,所述属性信息包括所述关键词在所述层次树中的深度信息、语义路径以及该节点在所述层次树中所处等级密度信息。
可选地,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,则根据所述关键词a和所述关键词b的属性信息计算所述关键词a与所述关键词b的相似度;
基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度。
可选地,所述属性信息包括关键词在所述层次树中的语义路径信息;
根据所述关键词a和所述关键词b的属性信息计算所述关键词a与所述关键词b的相似度的计算公式如下:
simi(
Figure 105602DEST_PATH_IMAGE001
)=
Figure 209694DEST_PATH_IMAGE002
其中,simi(
Figure 927114DEST_PATH_IMAGE001
)表示所述关键词a与所述关键词b的相似度,且
Figure 10739DEST_PATH_IMAGE003
Figure 28373DEST_PATH_IMAGE004
为两个关键词(
Figure 37786DEST_PATH_IMAGE001
)的最短路径,即根据所述语义路径信息确定的关键词在层次树中,沿着树状结构,从标签关键词w1到标签关键词w2经历的最少步数,
Figure 773661DEST_PATH_IMAGE005
Figure 910244DEST_PATH_IMAGE006
在层次树中的路径编码树的深度,
Figure 1960DEST_PATH_IMAGE007
Figure 933006DEST_PATH_IMAGE008
在层次树中的路径编码树的深度,
Figure 874286DEST_PATH_IMAGE009
为两个关键词(
Figure 548981DEST_PATH_IMAGE001
)的最大公共节点的深度,即
Figure 760782DEST_PATH_IMAGE010
可选地,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点不同,则将预设的最低相似度设置为所述第一相似度。
可选地,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,且所述关键词a与所述关键词b语义相同,则将预设的最高相似度设置为所述第一相似度。
可选地,基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度的步骤,包括:
分别确定所述第一标签关键词集合与所述第二标签关键词的集合长度;
根据所述第一标签关键词集合与所述第二标签关键词的集合长度以及所述关键词a与所述关键词b的相似度计算所述第一相似度。
可选地,基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度的步骤,包括:
针对于所述第一非标签关键词集合中的关键词c与所述第二非标签关键词集合中的关键词d,将所述关键词c与所述关键词d输入至所述语义模型中,以在向量空间中确定所述关键词c的向量与所述关键词d的向量的间距;
根据所述间距确定所述关键词c与所述关键词d的相似度;
基于所述关键词c与所述关键词d的相似度确定所述第二相似度。
可选地,根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度的步骤,包括:
获取用于表示第一相似度与所述第二相似度关联关系的权重调节因子;
根据所述第一相似度和所述第二相似度以及所述权重调节因子计算所述文本相似度。
第二方面,本发明提供了一种文本相似度计算装置,根据文本相似度计算方法进行实施处理,包括:
第一确定模块,用于分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
第二确定模块,用于基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
第三确定模块,用于基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
第四确定模块,用于根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例通过分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;先基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;然后再基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;最后根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度,通过提取文本中的关键词,并利用关键词计算出文本之间的相似度,从而达到快速计文本相似度的目的。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的一种文本相似度计算方法步骤流程图;
图2是本申请实施例的图1中步骤S102的流程图;
图3是本申请实施例的层次树示意图;
图4是本申请实施例的图2中步骤S202的流程图;
图5是本申请实施例的图1中步骤S103的流程图;
图6是本申请实施例的图1中步骤S104的流程图;
图7是本申请实施例的一种文本相似度计算装置模块示意图;
图8是本申请实施例的一种电子设备结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
在现有技术中,随着互联网信息技术的快速发展,人们可以方便地上传或下载共享的文档信息,这种共享模式将直接导致了海量文档的存在。然而,由于中文句子的语法结构的复杂多变,语义语境的多异性等因素,增加了中文句子相似度计算难度。鉴于此种情况,现有技术提出了大量的解决方法,主要分为:现有技术1,将句子直接转换为空间向量的方法,结合统计实现的基于向量空间模型(VSM)的方法;现有技术2,基于构建的语义知识库进行计算的语义模型的方法。
虽然,在学者们的不断研究过程中,对当前方法进行了一定程度的改进,但是仍然存在一定的问题。其中,现有技术1基于向量空间模型(VSM)的方法,只是通过比较句子向量之间的关系来得到文本间相似度,在整个计算模型中,各词语是相互独立的,并无语义层面的关系,因此其分析文本间相似度结果往往不够准确;而现有技术2基于构建的语义知识库进行计算的语义模型的方法,虽然充分考虑了语义层面的关系,使得计算结果与人类的主观判断更加相符,但是,由于整个计算过程中,文本的全部句法结构,语义信息被考虑,增加了模型的计算复杂度,因此,如何从批量文档中,快速精准的获取相似文档,从而有效的进行信息检索就变得尤为重要,基于此,本发明实施例首先提供了一种文本相似度计算方法,如图1所示,所述方法包括:
步骤S101,分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
在该步骤中,第一文本与第二文本为待计算文本相似度的两个文本,其中,标签关键词可以是指用于表示文本内容的词汇,针对于词汇是否为研发人员预先设置的标签关键词,可以采用查找字典的方式,以判断筛选出的词汇归纳为标签关键词还是非标签关键词。
在实际应用中,可以基于统计和语义距离相结合的方法获取文本中的主要关键词集合;如果当前关键词是字典中的词汇(例如:层次树的某个节点),则将当前关键词放入标签关键词集合;否则,将当前关键词放入非标签关键词集合。
步骤S102,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
在该步骤中,层次树用于表示关键词之间关联关系,在实际应用中,将面向母婴领域的标签分类关键词表抽象成层次树结构,而每个标签关键词为层次树中的节点,并将层次树的结构信息进行保存,具体地,在知网(hownet,知网,知网是一个把概念与概念之间的关系以及概念的属性与属性之间的关系形成一个网状的知识系统,涉及到得领域比较广泛,但是发明人在研究过程中发现母婴领域涉及得很少,所以本发明可以参考其泛化概念层级关系得方式,整理得面向母婴领域的关键词表,构建成对应的概念层级树,来表征关键词表的上下层级关系;其中的标签分类关键词表可以是根据母婴领域的知识储备,人工构建总结出来的)的启发下,将专业人员标注的面向母婴领域的标签分类关键词表,按照适合年龄段(层次树中的根节点)、分类等级抽象成层次树结构,而每个标签关键词为层次树中的节点,每个层次树的根节点为年龄段的统称;并依据层次树,对标签关键词的名称,路径,等级,上级标签,编码等信息进行保存。从而在计算第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合,可以根据标签关键词集合中的关键词在层次树中的名称,路径,等级,上级标签,编码等预设的信息确定相似度。因此说,本发明实施例所采用的文本相似度计算方法是基于研究人员对母婴特定技术领域,并采用特定方法(例如:基于预设的用于表示关键词之间关联关系的层次树,按照适合年龄段(层次树中的根节点)、分类等级抽象成层次树结构)实现的第一文本的第一标签关键词集合与第二文本的第二标签关键词集合的第一相似度确定实施。需要特殊说明的是,现有技术中标签关键词集合的相似度确定方式较多,但是基于母婴特定场景,适用于母婴特定场景下实施关键词集合中的关键词在层次树中的名称,路径,等级,上级标签,编码等预设的信息确定现有技术中并不多见。
具体地,在本发明实施例中,所述层次树包含有多个节点,其中,所述多个节点中各节点中存储有关键词的属性信息,所述属性信息可以包括所述关键词在所述层次树中的深度信息、语义路径以及该节点在所述层次树中所处等级密度信息中一项或多项,具体可以根据实际情况而定。
相应地,步骤S102,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度,如图2所示,包括:
步骤S201,若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,则根据所述关键词a和所述关键词b的属性信息计算所述关键词a与所述关键词b的相似度;
在该步骤中,针对于关键词a与关键词b在所述层次树中所述的根节点相同时,代表关键词a与关键词b具有一定的相关性。
另一方面,若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点不同,代表关键词a与关键词b不具有相关性,则将预设的最低相似度设置为所述第一相似度。
再者,若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,且所述关键词a与所述关键词b语义相同,则将预设的最高相似度设置为所述第一相似度,其中,极端情况下关键词a与关键词b可以为同一个词。
举例说明:在实际应用场景中,如图3所示,假设抽象的层次树结构如下图所示,则其适合的年龄段为育儿期(根节点为年龄段的统称);图3中每个节点都是标签关键词标签,关键词“翻身时间”对应的路径为:/育儿期/生长发育/发育/大运动/翻身/翻身时间,等级为5,上级标签为:翻身,编码
Figure 128310DEST_PATH_IMAGE011
为:100010001000100020001(其中标签关键词的编码的定制规则:根节点育儿期用编码1表示;根节点孕期用编码0表示;然后每个标签关键词的路径为,从根节点出发,到当前标签关键词的最短路径;路径中以“/”作为级别划分,每级用一个4位数字表示;其中这个4位数字需遵循的原则为:一旦某个关键词用4位编码表示,则遵循确定且唯一性,同时,同级别的4位数字不能重复,而不同级别的4位数字可以重复,即第2级可能存在0001,第3级也可能存在0001,但第2级只能有一个0001;比如:翻身时间(/1/生长发育/发育/大运动/翻身/0001)生长(/1/生长发育/发育/大运动/翻身/0002) 其中,翻身时间与翻身练习同处在一级,所以一个用0001表示,一个用0002表示,之前的每个级别都如此规划,最终得到编码),标签关键词“翻身练习”对应的路径为:/育儿期/生长发育/发育/大运动/翻身/翻身练习,等级为5,上级标签为:翻身,编码
Figure 291307DEST_PATH_IMAGE012
为:100010001000100020002。
在上述示例中,编码用于表示当前标签唯一的标识,并且参与计算;其中参与计算的核心部分,是标签的层级,如果当前关键词是层次树的某个节点,则将当前关键词放入标签关键词集合;否则,将当前关键词放入非标签关键词集合;
具体地,针对两个标签关键词的相似度,如果两个标签关键词所属年龄段相同,但两个标签关键词并不相同,则依据关键词在层次树具体深度、语义路径以及所处等级等因素进行计算;
极端情况之一:
如果两个标签关键词所属年龄段相同,且两个标签关键词也相同,则默认两个标签关键词是同一个词,其相似度值为1;
极端情况之二:
如果两个标签关键词所属年龄段不同,不管两个标签关键词是否相同,都认为其关联性较弱,则两个关键词的相似度值也会越低,于是采用一个接近于0的值,即将预设的最低相似度设置为所述第一相似度(为了便于后面的计算,以及保证算法的严谨性,两个关键词的相似度值再低,也要用一个很小的值表征)。
普通常见情况之三:
其中,计算两个标签关键词(
Figure 769692DEST_PATH_IMAGE001
)的相似度,如果两个标签关键词对应的所属年龄段相同,且
Figure 95720DEST_PATH_IMAGE003
Figure 634148DEST_PATH_IMAGE004
为两个关键词(
Figure 550021DEST_PATH_IMAGE001
)的最短路径(在层次树中,沿着树状结构,从标签关键词w1到w2经历的最少步数),
Figure 566518DEST_PATH_IMAGE005
Figure 752911DEST_PATH_IMAGE006
在层次树中的路径编码树的深度,
Figure 462241DEST_PATH_IMAGE007
Figure 865409DEST_PATH_IMAGE008
在层次树中的路径编码树的深度(上述路径编码树又称标签路径编码树),
Figure 951177DEST_PATH_IMAGE009
为两个关键词(
Figure 726497DEST_PATH_IMAGE001
)的最大公共节点的深度,即
Figure 606729DEST_PATH_IMAGE010
,其中
Figure 497193DEST_PATH_IMAGE013
的计算,可以参考如下公式:
Figure 855493DEST_PATH_IMAGE014
,同样的
Figure 531325DEST_PATH_IMAGE007
则也可以根据
Figure 598770DEST_PATH_IMAGE013
的计算公式形式实施计算;则simi(
Figure 461683DEST_PATH_IMAGE001
)=
Figure 138521DEST_PATH_IMAGE002
;其中,e为正数或是常数;
如果两个标签关键词(
Figure 403280DEST_PATH_IMAGE001
)所属年龄段相同,且
Figure 890894DEST_PATH_IMAGE015
,则相当于两个标签关键词是相同的,即
Figure 251556DEST_PATH_IMAGE016
;
如果两个标签关键词(
Figure 482817DEST_PATH_IMAGE001
)所属的年龄段不同,则不管标签关键词是否相同,本发明中将其相似度值表示为:simi(
Figure 116929DEST_PATH_IMAGE001
)=
Figure 244285DEST_PATH_IMAGE017
具体地,计算两个标签关键词(翻身时间,翻身练习)的相似度;则可以根据
Figure 347371DEST_PATH_IMAGE018
Figure 867476DEST_PATH_IMAGE019
对应的值为:5;同理得到
Figure 106827DEST_PATH_IMAGE020
的值为5,
Figure 919932DEST_PATH_IMAGE021
的值为:4,则两个关键词的最短路径
Figure 510313DEST_PATH_IMAGE022
;从而
Figure 83377DEST_PATH_IMAGE023
如果两个标签关键词在同一个年龄段,且标签关键词相同,基于同样的层次树结构,标签关键词(翻身时间,翻身时间)的相似度值
Figure 927967DEST_PATH_IMAGE024
如果两个标签关键词(翻身时间,翻身时间)在不同的层次树中,例如,一个在育儿期的层次树中,另一个在孕期(建设哺乳期)的层次树中,则两个算关键词的相似度为:
Figure 928284DEST_PATH_IMAGE025
步骤S202,基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度。
在本发明实施例中,分别从两个标签关键词集合中的确定关键词a与关键词b,参考平均绝对误差的思想,以及相同关键词在所有关键词中的比重,采用某种策略实现由关键词的相似度得到两个集合的相似度;
具体地,如果两个标签关键词集合中,存在相同标签关键词,参考平均绝对误差的思想,将一个标签关键词与另一个集合中的标签关键词进行求相似度并取平均,在一定程度上,降低了相同标签关键词在集合相似度计算上的贡献度,与人的主观判断差距较远;所以,本发明充分考虑相同关键词在所有关键词的比重,并且认为两个相同关键词的相似度为1。同时,为了不影响非相同关键词的相似度计算部分,本发明将相同标签关键词从一个集合中剔除,在另一个集合中保留,从而参与到相似度计算中,以达到精准的效果。
具体地,针对两个标签关键词集合C1(
Figure 724071DEST_PATH_IMAGE026
)的相似度,如果两个关键词集合存在相同的关键词,则充分考虑相同关键词占所有关键词的比例,参数
Figure 100825DEST_PATH_IMAGE027
为相同关键词占所有关键词的比例,
Figure 314769DEST_PATH_IMAGE028
为相同关键词集合,即
Figure 971141DEST_PATH_IMAGE029
; (
Figure 270535DEST_PATH_IMAGE030
)为剔除相同关键词之后的集合;则两个标签关键词集合相似度表示为:
Figure 169090DEST_PATH_IMAGE031
如果两个标签关键词集合中不存在相同的关键词,则两个关键词集合的相似度可以被表示为:
Figure 237540DEST_PATH_IMAGE032
其中,关于
Figure 58953DEST_PATH_IMAGE033
两个值的计算,都是参考平均绝对误差的思想,由集合中任意两个关键词的相似度得到集合的相似度;如果用m表示
Figure 845644DEST_PATH_IMAGE034
集合的长度,n表示
Figure 298622DEST_PATH_IMAGE035
集合的长度,
Figure 470846DEST_PATH_IMAGE036
表示
Figure 983867DEST_PATH_IMAGE034
集合中第i个标签关键词与
Figure 8586DEST_PATH_IMAGE037
集合中第j个标签关键词的相似度,具体相似度值的计算,最后再参考两个关键词之间的相似度,则两个标签关键词集合的相似度可以表示为:
Figure 265255DEST_PATH_IMAGE038
例如:基于S101中构建的层次树结构,计算标签关键词集合C11(翻身时间,翻身练习,抓挠,趴)和C12(翻身时间,翻身练习,翻滚)的相似度;按照上述的方法,确定两个标签关键词集合的相同关键词集合
Figure 308297DEST_PATH_IMAGE028
= (翻身时间,翻身练习),求解上述相同关键词占所有关键词的比例,即
Figure 241487DEST_PATH_IMAGE039
,然后剔除相同关键词之后的得到集合
Figure 737190DEST_PATH_IMAGE040
=(抓挠,趴)从一个集合中剔除,在另一个集合中保留,从而参与到相似度计算中,以达到精准的效果,具体计算如下:
Figure DEST_PATH_IMAGE041
Figure 485966DEST_PATH_IMAGE042
;两个标签关键词集合C11和C12的相似度为:
Figure DEST_PATH_IMAGE043
发明人在研究过程中发现两个关键词集合进行相似度计算,如果里面相同的词,直接相同,就从两个集合中剔除,且相似度值都为最高值1;那么,无形当中,引入了很大误差,因为研究人员不能确定,两个相同的关键词在表达文本主题方面的贡献度相同;所以,本发明实施例采用从一个集合中剔除共有关键词,这样另一个集合中的共有关键词还是参与相似度计算的;所以在一定的程度上减少了误差的引入;因此说,本申请实施例涉及的上述“剔除”技术点也是本申请实施例的主要技术创新之一,对此详见上述技术内容。
进一步地,步骤S202,基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度,如图4所示,包括:
步骤S401,分别确定所述第一标签关键词集合与所述第二标签关键词的集合长度;
步骤S402,根据所述第一标签关键词集合与所述第二标签关键词的集合长度以及所述关键词a与所述关键词b的相似度计算所述第一相似度;
在本发明实施例中,以上所述的参考平均绝对误差的思想,通过集合中任意两个关键词的相似度得到集合的相似度,具体包括:
基于以上方法,得到关键词集合中任意两个关键词的相似度;参考平均绝对误差的思想,针对关键词集合(
Figure 836044DEST_PATH_IMAGE044
) m为
Figure DEST_PATH_IMAGE045
的集合长度,n为
Figure 848125DEST_PATH_IMAGE046
的集合长度,
Figure 831125DEST_PATH_IMAGE047
表示为两个关键词
Figure 413285DEST_PATH_IMAGE048
的相似度,则两个关键词集合的相似度为:
Figure 899761DEST_PATH_IMAGE049
;。
步骤S103,基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
在该步骤中,所述针对非标签关键词集合中标签关键词的相似度,则将关键词映射到向量空间,通过两向量之间的距离,得到两个关键词之间的相似度值,进一步地,步骤S103,基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度,如图5所示,包括:
步骤S501,针对于所述第一非标签关键词集合中的关键词c与所述第二非标签关键词集合中的关键词d,将所述关键词c与所述关键词d输入至所述语义模型中,以在向量空间中确定所述关键词c的向量与所述关键词d的向量的间距;
步骤S502,根据所述间距确定所述关键词c与所述关键词d的相似度;
步骤S503,基于所述关键词c与所述关键词d的相似度确定所述第二相似度。
通过非标签关键词的相似度得到用于表示两个非标签关键词集合的第二相似度;具体包括:
针对两个非标签关键词的相似度,由于其都不在路径编码树中存在,所以借助于,基于大规模语料库训练的word2vec模型,计算得到两个关键词在同一向量空间中的向量之间的距离,并以此向量距离作为两个非标签关键词的相似度;之后同样参考平均绝对误差的思想,通过集合(
Figure 506296DEST_PATH_IMAGE050
)中任意两个关键词的相似度得到集合的相似度;即
Figure 694701DEST_PATH_IMAGE051
实际应用中,同样参考平均绝对误差的思想,按照步骤S104中提到的由集合中关键词的相似度得到集合相似度的计算方法,得到非标签关键词集合C2的相似度值;即标签关键词集合C2(
Figure 565705DEST_PATH_IMAGE050
)的相似度计算公式可以表示为:
Figure 437846DEST_PATH_IMAGE052
,其中
Figure 119625DEST_PATH_IMAGE053
表示
Figure 795326DEST_PATH_IMAGE054
集合中第i个非标签关键词与
Figure 470021DEST_PATH_IMAGE055
集合中第j个非标签关键词的相似度。
例如:非标签关键词集合分别为C21(洗澡,浴盆),C22(洗头,淋浴),且通过word2vec模型给出任意两个非标签关键词的相似度值为:
Figure 681822DEST_PATH_IMAGE056
;则
Figure 49349DEST_PATH_IMAGE057
+
Figure 477925DEST_PATH_IMAGE058
)/2=0.62。
步骤S104,根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度;
在本发明实施例中,通过以上获取的标签关键词集合和非标签关键词集合的相似度,基于混合策略对两个集合相似度值进行加权,得到最终的文本相似度,具体包括:
基于以上方法可以得到两条文本的标签关键词集合和非标签关键词集合的相似度,
Figure 956311DEST_PATH_IMAGE059
,
Figure 288198DEST_PATH_IMAGE060
,但是,需要根据两种类别的关键词对于两条文本的相似度的重要程度,按照不同的权值加权。本发明中,在两条文本的关键词集合中,如果都存在标签关键词和非标签关键词的情况下,采用
Figure 561047DEST_PATH_IMAGE061
作为权重调节因子,则两条文本的相似度:
Figure 476919DEST_PATH_IMAGE062
;如果两条文本的关键词集合中,只存在一种类型的关键词,则全部按照当前类型关键词相似度计算公式进行计算,即
Figure 493417DEST_PATH_IMAGE061
取值为0或1。
具体地,步骤S104,根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度,如图6所示,包括:
步骤S601,获取用于表示第一相似度与所述第二相似度关联关系的权重调节因子;
步骤S602,根据所述第一相似度和所述第二相似度以及所述权重调节因子计算所述文本相似度。
在实际应用中,通过上述实施例得到两条待比较文本的标签关键词集合和非标签关键词集合的相似度值:
Figure 673951DEST_PATH_IMAGE059
,
Figure 117701DEST_PATH_IMAGE060
;但是标签关键词和非标签关键词对于文本的重要程度是不同的,所以,需要根据关键词对于文本的重要程度,按照不同的权值加权计算文本的相似度值。本发明中,在两条待比较文本的关键词集合中,如果都存在标签关键词和非标签关键词的情况下,采用
Figure 255291DEST_PATH_IMAGE061
作为权重调节因子,则:两条待比较文本的相似度:
Figure 75479DEST_PATH_IMAGE063
;如果两条待比较文本的关键词集合中,只存在一种类型的关键词,则全部照当前类型关键词相似度计算公式进行计算,即
Figure 116378DEST_PATH_IMAGE061
取值为0或1。
例如:
Figure 340818DEST_PATH_IMAGE061
取值为0.6,则两条待比较文本的相似度值可以表示为
Figure 732747DEST_PATH_IMAGE064
=0.79*0.6+0.62*0.4=0.722。
如果两条待比较文本只存在标签关键词集合C1,则
Figure 356626DEST_PATH_IMAGE061
应该取值为1,即
Figure 281726DEST_PATH_IMAGE065
;
如果两条待比较文本只存在非标签关键词集合C2,则
Figure 332858DEST_PATH_IMAGE061
应该取值为0,即
Figure 461351DEST_PATH_IMAGE066
最后实现根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度,通过提取文本中的关键词,并利用关键词计算出文本之间的相似度,从而达到快速计文本相似度的目的。
如图7所示,在本发明的又一实施例中,本发明还提供了一种文本相似度计算装置,根据本发明实施例提供的上述文本相似度计算方法进行实施处理,包括:
第一确定模块01,用于分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
第二确定模块02,用于基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
第三确定模块03,用于基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
第四确定模块04,用于根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度。
在本发明的又一实施例中,还提供一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现方法实施例所述的文本相似度计算方法。
本发明实施例提供的电子设备,处理器通过分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;先基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;然后再基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;最后根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度,通过提取文本中的关键词,并利用关键词计算出文本之间的相似度,从而达到快速计文本相似度的目的。上述电子设备提到的通信总线1140可以是串行外设接口总线(Serial Peripheral Interface,简称SPI)或者集成电路总线(Inter-IntegratedCircuit,简称ICC)等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(RandomAccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(CentralProcessingUnit,简称CPU)、网络处理器(NetworkProcessor,简称NP)等;还可以是数字信号处理器(DigitalSignalProcessing,简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种文本相似度计算方法,其特征在于,所述方法包括:
分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度。
2.根据权利要求1所述的文本相似度计算方法,其特征在于,所述层次树包含有多个节点,其中,所述多个节点中各节点中存储有关键词的属性信息。
3.根据权利要求2所述的文本相似度计算方法,其特征在于,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,则根据所述关键词a和所述关键词b的属性信息计算所述关键词a与所述关键词b的相似度;
基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度。
4.根据权利要求3所述的文本相似度计算方法,其特征在于,所述属性信息包括关键词在所述层次树中的语义路径信息;
根据所述关键词a和所述关键词b的属性信息计算所述关键词a与所述关键词b的相似度的计算公式如下:
simi(
Figure 72707DEST_PATH_IMAGE001
)=
Figure 373107DEST_PATH_IMAGE002
其中,simi(
Figure 236021DEST_PATH_IMAGE001
)表示所述关键词a与所述关键词b的相似度,且
Figure 257067DEST_PATH_IMAGE003
Figure 505514DEST_PATH_IMAGE004
为两个关键词(
Figure 461969DEST_PATH_IMAGE001
)的最短路径,即根据所述语义路径信息确定的关键词在层次树中,沿着树状结构,从标签关键词w1到标签关键词w2经历的最少步数,
Figure 795867DEST_PATH_IMAGE005
Figure 355025DEST_PATH_IMAGE006
在层次树中的路径编码树的深度,
Figure 208711DEST_PATH_IMAGE007
Figure 54176DEST_PATH_IMAGE008
在层次树中的路径编码树的深度;其中,e为常数;
Figure 750737DEST_PATH_IMAGE009
为两个关键词(
Figure 988951DEST_PATH_IMAGE001
)的最大公共节点的深度,即
Figure 946412DEST_PATH_IMAGE010
5.根据权利要求1所述的文本相似度计算方法,其特征在于,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点不同,则将预设的最低相似度设置为所述第一相似度。
6.根据权利要求1所述的文本相似度计算方法,其特征在于,基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度的步骤,包括:
若所述第一标签关键词集合中的关键词a与所述第二标签关键词集合中的关键词b在所述层次树中所述的根节点相同,且所述关键词a与所述关键词b语义相同,则将预设的最高相似度设置为所述第一相似度。
7.根据权利要求3所述的文本相似度计算方法,其特征在于,基于所述关键词a与所述关键词b的相似度确定所述第一标签关键词集合与所述第二标签关键词集合的第一相似度的步骤,包括:
分别确定所述第一标签关键词集合与所述第二标签关键词的集合长度;
根据所述第一标签关键词集合与所述第二标签关键词的集合长度以及所述关键词a与所述关键词b的相似度计算所述第一相似度。
8.根据权利要求1所述的文本相似度计算方法,其特征在于,基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度的步骤,包括:
针对于所述第一非标签关键词集合中的关键词c与所述第二非标签关键词集合中的关键词d,将所述关键词c与所述关键词d输入至所述语义模型中,以在向量空间中确定所述关键词c的向量与所述关键词d的向量的间距;
根据所述间距确定所述关键词c与所述关键词d的相似度;
基于所述关键词c与所述关键词d的相似度确定所述第二相似度。
9.根据权利要求1所述的文本相似度计算方法,其特征在于,根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度的步骤,包括:
获取用于表示第一相似度与所述第二相似度关联关系的权重调节因子;
根据所述第一相似度和所述第二相似度以及所述权重调节因子计算所述文本相似度。
10.一种文本相似度计算装置,其特征在于,根据如权利要求1-9任一项所述的文本相似度计算方法进行实施处理,包括:
第一确定模块,用于分别确定第一文本与第二文本中的标签关键词集合和非标签关键词集合;
第二确定模块,用于基于预设的用于表示关键词之间关联关系的层次树,确定所述第一文本的第一标签关键词集合与所述第二文本的第二标签关键词集合的第一相似度;
第三确定模块,用于基于预设的语义模型确定所述第一文本的第一非标签关键词集合与所述第二文本的第二非标签关键词集合的第二相似度;
第四确定模块,用于根据所述第一相似度和所述第二相似度确定所述第一文本与所述第二文本的文本相似度。
CN202110046179.4A 2021-01-14 2021-01-14 一种文本相似度计算方法和装置 Active CN112364947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110046179.4A CN112364947B (zh) 2021-01-14 2021-01-14 一种文本相似度计算方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110046179.4A CN112364947B (zh) 2021-01-14 2021-01-14 一种文本相似度计算方法和装置

Publications (2)

Publication Number Publication Date
CN112364947A true CN112364947A (zh) 2021-02-12
CN112364947B CN112364947B (zh) 2021-06-29

Family

ID=74535005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110046179.4A Active CN112364947B (zh) 2021-01-14 2021-01-14 一种文本相似度计算方法和装置

Country Status (1)

Country Link
CN (1) CN112364947B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283230A (zh) * 2021-06-24 2021-08-20 中国平安人寿保险股份有限公司 文本相似度计算模型的更新方法、装置、设备及存储介质
CN113449078A (zh) * 2021-06-25 2021-09-28 完美世界控股集团有限公司 相似新闻识别方法、设备、系统及存储介质
CN113780449A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 文本相似度的计算方法、装置、存储介质及计算机设备
CN116805044A (zh) * 2023-08-17 2023-09-26 北京睿企信息科技有限公司 一种标签的获取方法、电子设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100042576A1 (en) * 2008-08-13 2010-02-18 Siemens Aktiengesellschaft Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN106598944A (zh) * 2016-11-25 2017-04-26 中国民航大学 一种民航安保舆情情感分析方法
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法
CN107436864A (zh) * 2017-08-04 2017-12-05 逸途(北京)科技有限公司 一种基于Word2Vec的中文问答语义相似度计算方法
CN109492213A (zh) * 2017-09-11 2019-03-19 阿里巴巴集团控股有限公司 句子相似度计算方法和装置
CN109885657A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种文本相似度的计算方法、装置及存储介质
CN109960786A (zh) * 2019-03-27 2019-07-02 北京信息科技大学 基于融合策略的中文词语相似度计算方法
CN110991180A (zh) * 2019-11-28 2020-04-10 同济人工智能研究院(苏州)有限公司 一种基于关键词和Word2Vec的命令识别方法
CN111737997A (zh) * 2020-06-18 2020-10-02 达而观信息科技(上海)有限公司 一种文本相似度确定方法、设备及储存介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100042576A1 (en) * 2008-08-13 2010-02-18 Siemens Aktiengesellschaft Automated computation of semantic similarity of pairs of named entity phrases using electronic document corpora as background knowledge
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN106598944A (zh) * 2016-11-25 2017-04-26 中国民航大学 一种民航安保舆情情感分析方法
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法
CN107436864A (zh) * 2017-08-04 2017-12-05 逸途(北京)科技有限公司 一种基于Word2Vec的中文问答语义相似度计算方法
CN109492213A (zh) * 2017-09-11 2019-03-19 阿里巴巴集团控股有限公司 句子相似度计算方法和装置
CN109885657A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种文本相似度的计算方法、装置及存储介质
CN109960786A (zh) * 2019-03-27 2019-07-02 北京信息科技大学 基于融合策略的中文词语相似度计算方法
CN110991180A (zh) * 2019-11-28 2020-04-10 同济人工智能研究院(苏州)有限公司 一种基于关键词和Word2Vec的命令识别方法
CN111737997A (zh) * 2020-06-18 2020-10-02 达而观信息科技(上海)有限公司 一种文本相似度确定方法、设备及储存介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
冯高磊 等: "基于向量空间模型结合语义的文本相似度算法", 《现代电子技术》 *
杨方颖 等: "基于本体结构的语义相似度计算", 《计算机技术与发展》 *
范弘屹: "一种基于 HowNet 的词语语义相似度计算方法", 《北京信息科技大学学报》 *
赵小谦 等: "概念树在短文本语义相似度上的应用", 《计算机技术与发展》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283230A (zh) * 2021-06-24 2021-08-20 中国平安人寿保险股份有限公司 文本相似度计算模型的更新方法、装置、设备及存储介质
CN113283230B (zh) * 2021-06-24 2023-02-03 中国平安人寿保险股份有限公司 文本相似度计算模型的更新方法、装置、设备及存储介质
CN113449078A (zh) * 2021-06-25 2021-09-28 完美世界控股集团有限公司 相似新闻识别方法、设备、系统及存储介质
CN113780449A (zh) * 2021-09-16 2021-12-10 平安科技(深圳)有限公司 文本相似度的计算方法、装置、存储介质及计算机设备
CN113780449B (zh) * 2021-09-16 2023-08-25 平安科技(深圳)有限公司 文本相似度的计算方法、装置、存储介质及计算机设备
CN116805044A (zh) * 2023-08-17 2023-09-26 北京睿企信息科技有限公司 一种标签的获取方法、电子设备及存储介质
CN116805044B (zh) * 2023-08-17 2023-11-17 北京睿企信息科技有限公司 一种标签的获取方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN112364947B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
CN112364947B (zh) 一种文本相似度计算方法和装置
US11301637B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN110674317B (zh) 一种基于图神经网络的实体链接方法及装置
CN111737476A (zh) 文本处理方法、装置、计算机可读存储介质及电子设备
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
US20210042344A1 (en) Generating or modifying an ontology representing relationships within input data
WO2017193685A1 (zh) 社交网络中数据的处理方法和装置
WO2023029506A1 (zh) 病情分析方法、装置、电子设备及存储介质
CN111353303B (zh) 词向量构建方法、装置、电子设备及存储介质
CN111967264B (zh) 一种命名实体识别方法
CN112084789A (zh) 文本处理方法、装置、设备及存储介质
CN105279264A (zh) 一种文档的语义相关度计算方法
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
CN109117474A (zh) 语句相似度的计算方法、装置及存储介质
WO2020020085A1 (zh) 表示学习方法及装置
CN112948676A (zh) 文本特征提取模型的训练方法、文本推荐方法及装置
CN111881292A (zh) 一种文本分类方法及装置
CN112507106A (zh) 深度学习模型的训练方法、装置和faq相似度判别方法
CN113535912B (zh) 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN108763221B (zh) 一种属性名表征方法及装置
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116028613B (zh) 常识问答方法、系统、计算机设备和存储介质
CN112131884A (zh) 用于实体分类的方法和装置、用于实体呈现的方法和装置
CN111767720A (zh) 一种标题生成方法、计算机及可读存储介质
WO2023272563A1 (zh) 智能分诊方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Unit 1, Room 202, Club 3, floor 2, building 2, No.1 xidawang Road, Chaoyang District, Beijing

Applicant after: Beijing yuxueyuan Health Management Center Co.,Ltd.

Address before: 408, floor 4, building 1, yard 16, Taiyanggong Middle Road, Chaoyang District, Beijing

Applicant before: BEIJING CUIYUTAO CHILDREN HEALTH MANAGEMENT CENTER Co.,Ltd.

GR01 Patent grant
GR01 Patent grant