CN111539197B - 文本匹配方法和装置以及计算机系统和可读存储介质 - Google Patents

文本匹配方法和装置以及计算机系统和可读存储介质 Download PDF

Info

Publication number
CN111539197B
CN111539197B CN202010297578.3A CN202010297578A CN111539197B CN 111539197 B CN111539197 B CN 111539197B CN 202010297578 A CN202010297578 A CN 202010297578A CN 111539197 B CN111539197 B CN 111539197B
Authority
CN
China
Prior art keywords
text
target
similarity
keyword
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010297578.3A
Other languages
English (en)
Other versions
CN111539197A (zh
Inventor
詹俊峰
薛璐影
施鹏
张文君
庞海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010297578.3A priority Critical patent/CN111539197B/zh
Publication of CN111539197A publication Critical patent/CN111539197A/zh
Application granted granted Critical
Publication of CN111539197B publication Critical patent/CN111539197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本公开提供了一种文本匹配方法,该方法包括:获取待匹配的第一文本和第二文本;使用目标知识图谱,确定第一文本与第二文本之间的第一相似度;使用目标匹配模型,确定第一文本与第二文本之间的第二相似度;以及根据第一相似度与第二相似度,确定第一文本和第二文本之间的匹配度。本公开还提供了一种文本匹配装置、一种计算机系统以及一种计算机可读存储介质。

Description

文本匹配方法和装置以及计算机系统和可读存储介质
技术领域
本公开涉及互联网技术领域,更具体地,涉及一种文本匹配方法和装置以及计算机系统和可读存储介质。
背景技术
随着互联网技术的发展,人们越来越依赖于通过互联网获取信息。为了便于向用户提供精准的信息,文本匹配技术得到发展。其中,文本匹配技术是指在自然语言处理中衡量文本之间语义相似度或相关性的技术。该技术可以应用于检索、推荐和内容分析等多个应用场景。
相关的文本匹配技术中,通常采用关键字匹配方法、基于主题模型进行匹配的方法和采用深度学习进行匹配的方法。但该些文本匹配技术存在匹配精度较低的缺陷。
发明内容
有鉴于此,本公开提供了一种能够提高匹配精度的文本匹配方法和装置以及计算机系统和计算机可读存储介质。
本公开的一个方面提供了一种文本匹配方法,该方法包括:获取待匹配的第一文本和第二文本;使用目标知识图谱,确定第一文本与第二文本之间的第一相似度;使用目标匹配模型,确定第一文本与第二文本之间的第二相似度;以及根据第一相似度与第二相似度,确定第一文本和第二文本之间的匹配度。
根据本公开的实施例,使用目标知识图谱,确定第一文本与第二文本之间的第一相似度包括:基于第一文本得到针对第一文本的第一词序列;基于第二文本得到针对第二文本的第二词序列;根据目标知识图谱和第一词序列,得到第一文本相对于目标知识图谱的第一得分向量;根据目标知识图谱和第二词序列,得到第二文本相对于目标知识图谱的第二得分向量;以及确定第一得分向量与第二得分向量之间的相似度为第一相似度,其中,采用与得到针对所述第一文本的第一词序列的方式相同的方式来得到针对所述第二文本的第二词序列。
根据本公开的实施例,上述基于第一文本得到针对第一文本的第一词序列包括:从第一文本中提取多个第一关键词及多个第一关键词各自的置信度;确定多个第一关键词中置信度不小于预定置信度的第一关键词作为目标关键词;以及根据目标关键词来确定针对第一文本的第一词序列。
根据本公开的实施例,上述基于第一文本得到针对第一文本的第一词序列包括:从第一文本中提取多个第一关键词;获取针对多个第一关键词各自的描述文本;确定多个第一关键词中描述文本与第一文本的相似度不小于目标相似度的第一关键词,作为目标关键词;以及根据目标关键词来确定针对第一文本的第一词序列。
根据本公开的实施例,上述目标知识图谱包括多个节点及多个边,每个节点表征一个词,每个边连接两个节点;上述根据目标关键词来确定针对第一文本的第一词序列包括:确定目标知识图谱中针对目标关键词的节点所表征的词,作为针对目标关键词的关联关键词,其中针对目标关键词的节点包括目标知识图谱中与表征目标关键词的节点通过边连接的节点;以及组合目标关键词及针对目标关键词的关联关键词以得到第一词序列。
根据本公开的实施例,上述第一词序列的数量为多个,得到第一文本相对于目标知识图谱的第一得分向量包括:根据目标知识图谱,确定针对第一文本的多个第一词序列中每个第一词序列的得分子向量;以及对所确定的得分子向量累加求和,得到第一文本相对于目标知识图谱的第一得分向量。
根据本公开的实施例,目标知识图谱包括至少两层的节点及多个边;每层包括多个节点,每个节点表征一个词,属于同一层的多个节点表征的词的粒度相同;每个边连接属于不同层的两个节点,每个边连接的两个节点表征的两个词具有不同粒度;其中,每个节点均分配有节点权重;上述根据目标知识图谱,确定针对第一文本的多个第一词序列中每个第一词序列的得分子向量包括:确定目标知识图谱中表征每个第一词序列包括的多个词的节点,得到多个节点;根据多个节点各自的节点权重及多个节点各自表征的词的置信度,得到多个词各自相对于目标知识图谱的得分,得到多个得分;以及根据多个得分,得到每个第一词序列的得分子向量。
根据本公开的实施例,上述每个第一词序列包括的多个词包括:采用词提取模型从第一文本中提取得到的第一关键词,以及针对第一关键词的关联关键词。其中,第一关键词的置信度由词提取模型得到,关联关键词的置信度是预分配的。
根据本公开的实施例,为表征粗粒度的词的节点分配的节点权重小于为表征细粒度的词的节点分配的节点权重。
根据本公开的实施例,目标匹配模型包括关键词匹配模型;上述使用目标匹配模型,确定第一文本与第二文本之间的第二相似度包括:从第一文本中提取多个第一关键词,从第二文本中提取多个第二关键词;从多个第一关键词中去除第一文本的目标关键词,并从多个第二关键词中去除第二文本的目标关键词;根据去除了目标关键词的第一关键词得到针对第一文本的第一词向量,并根据去除了目标关键词的第二关键词得到针对第二文本的第二词向量;以及确定第一词向量与第二词向量之间的相似度为第二相似度。
根据本公开的实施例,采用与得到针对第一文本的第一词序列的方式相同的方式来得到针对第二文本的第二词序列。
根据本公开的实施例,采用与得到第一文本相对于目标知识图谱的第一得分向量的方式相同的方式来得到第二文本相对于目标知识图谱的第二得分向量。
根据本公开的实施例,目标匹配模型包括:粗粒度匹配模型和细粒度匹配模型;上述根据第一相似度与第二相似度,确定第一文本和第二文本之间的匹配度包括:根据使用粗粒度匹配模型确定的第二相似度,得到第一匹配度;根据第一相似度及使用细粒度匹配模型确定的第二相似度,得到第二匹配度;以及根据为粗粒度匹配模型和细粒度匹配模型预分配的模型权重、第一匹配度和第二匹配度,得到第一文本和第二文本之间的匹配度。
根据本公开的实施例,粗粒度匹配模型包括以下至少之一:基于主题模型的匹配模型和语义匹配模型;细粒度匹配模型包括:关键词匹配模型。
本公开的另一方面提供了一种文本匹配装置,该装置包括:获取模块,用于获取待匹配的第一文本和第二文本;第一匹配模块,用于使用目标知识图谱,确定第一文本与第二文本之间的第一相似度;第二匹配模块,用于使用目标匹配模型,确定第一文本与第二文本之间的第二相似度;以及匹配度确定模块,用于根据第一相似度与第二相似度,确定第一文本和第二文本之间的匹配度。
本公开的另一方面提供了一种计算机系统,该计算机系统包括:一个或多个处理器;以及存储装置,用于存储一个或多个程序。其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器执行如上所述的文本匹配方法。
本公开的另一方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的文本匹配方法。
本公开的另一方面提供了一种计算机程序,该计算机程序包括计算机可执行指令,该指令在被执行时用于实现如上所述的文本匹配方法。
本公开的另一方面提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的文本匹配方法。
根据本公开的实施例,可以至少部分地避免相关文本匹配方法存在的匹配精确度低的缺陷,并因此通过将使用知识图谱得到的相似度与使用相关文本匹配方法得到的相似度来得到两个文本的匹配度,可以在文本匹配过程中融入知识图谱包括的先验知识,从而有效提高文本匹配的精确度。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的文本匹配方法和装置、以及计算机系统和可读存储介质的应用场景;
图2示意性示出了根据本公开实施例的文本匹配方法的流程图;
图3示意性示出了根据本公开实施例的使用目标知识图谱确定第一相似度的流程图;
图4A示意性示出了根据本公开实施例的基于第一文本得到第一词序列的流程图;
图4B示意性示出了根据本公开实施例的基于第二文本得到第二词序列的流程图;
图4C示意性示出了根据本公开另一实施例的基于第一文本得到第一词序列的流程图;
图4D示意性示出了根据本公开另一实施例的基于第二文本得到第二词序列的流程图;
图5A示意性示出了根据本公开实施例的根据目标关键词确定第一词序列的流程图;
图5B示意性示出了根据本公开实施例的根据目标关键词确定第二词序列的流程图;
图6A示意性示出了根据本公开实施例的得到第一文本相对于目标知识图谱的第一得分向量的流程图;
图6B示意性示出了根据本公开实施例的得到第二文本相对于目标知识图谱的第二得分向量的流程图;
图7A示意性示出了根据本公开实施例的根据目标知识图谱确定针对每个第一词序列的得分子向量的流程图;
图7B示意性示出了根据本公开实施例的根据目标知识图谱确定针对每个第二词序列的得分子向量的流程图;
图8示意性示出了根据本公开实施例的根据关键词匹配模型确定第二相似度的流程图;
图9示意性示出了根据本公开实施例的确定第一文本和第二文本之间的匹配度的流程图;
图10示意性示出了根据本公开实施例的文本匹配装置的结构框图;以及
图11示意性示出了根据本公开实施例的适于执行文本匹配方法的计算机系统的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开实施例提供了一种能够提高文本匹配精度,且适用于多个场景的文本匹配方法和装置。该文本匹配方法包括文本匹配过程和相似度融合过程。在文本匹配过程中,先获取待匹配的第一文本和第二文本。然后分别使用目标知识图谱和目标匹配模型,确定第一文本和第二文本之间的相似度,分别得到第一相似度和第二相似度。在相似度融合过程中,根据第一相似度和第二相似度来确定第一文本和第二文本之间的匹配度。
图1示意性示出了根据本公开实施例的文本匹配方法和装置、以及计算机系统和可读存储介质的应用场景100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、或场景。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线或无线通信链路等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用,例如网页浏览器应用、搜索类应用、购物类应用等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。用户例如可以通过终端设备101、102、103输入检索式等第一文本,该终端设备101、102、103可以通过与服务器105的交互获取与该第一文本匹配的第二文本,并将该第二文本推荐给用户。
服务器105例如可以是提供各种服务的服务器,例如可以对用户利用终端设备101、102、103输入的第一文本进行处理,并从存储的大量文本中确定与该第一文本匹配的第二文本,并将该第二文本反馈给终端设备101、102、103。
需要说明的是,本公开实施例所提供的文本匹配方法一般可以由服务器105执行。相应地,本公开实施例所提供的文本匹配装置一般可以设置于服务器105中。本公开实施例所提供的文本匹配方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的文本匹配装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目和类型仅仅是示意性的。根据实现需要,可以具有任意数目和类型的终端设备、网络和服务器。
以下将结合图2~图3、图4A~图4D、图5A~图5B、图6A~图6B、图7A~图7B、图8~图9对本公开实施例的文本匹配方法进行详细描述。
图2示意性示出了根据本公开实施例的文本匹配方法的流程图。
如图2所示,该实施例的文本匹配方法例如可以包括操作S210~操作S240。其中,本公开对操作S220和操作S230的执行顺序不作限定,该操作S220和操作S230可以同时执行,也可以根据任意顺序依次执行。
在操作S210,获取待匹配的第一文本和第二文本。
根据本公开的实施例,第一文本例如可以是用户通过终端设备101、102、103输入的文本,或者用户通过终端设备101、102、103浏览的文本。该第一文本例如可以包括用户输入的检索式或者问答语句。或者,该第一文本例如可以为用户浏览的各种格式(例如pdf格式、doc格式)的文本。
根据本公开的实施例,第二文本例如可以为服务器105中存储的与第一文本相关的文本。服务器105中例如可以存储有大量的文本,服务器105可以根据该大量的文本所记载内容所属的领域对该大量的文本进行分类存储。
根据本公开的实施例,该第一文本和第二文本例如均可以为长文本或者均为短文本。或者,第一文本和第二文本中例如可以一个为短文本,另一个为长文本。其中,短文本例如可以指包括的字符数不超预设阈值(例如一百)的文本,长文本例如指字符数超过预设阈值的文本。在不同的应用场景下,该第一文本和第二文本可以为长文本和短文本的特定组合。例如,在智能问答场景下,该第一文本可以为短文本,第二文本为长文本。在推荐场景下,该第一文本和第二文本可以均为长文本,或者第一文本为短文本,第二文本为长文本等。
在一实施例中,可以先接收用户通过终端设备101、102、103输入的文本或获取终端设备101、102、103当前展示的文本作为第一文本。然后从存储的大量文本中获取与该第一文本属于同一类别(例如属于同一领域)的任意文本作为第二文本。其中,领域例如可以包括:自然科学领域、人文社科领域、艺术领域等。可以理解的是,领域类型仅作为示例以利于理解本公开,根据实际需求,可以将大量文本根据其他任意的方式进行分类存储。在一实施例中,获取的第二文本例如也可以为服务器105中存储的任意文本。
在操作S220,使用目标知识图谱,确定第一文本与第二文本之间的第一相似度。
根据本公开的实施例,目标知识图谱例如可以是根据服务器105中存储的大量文本构建得到的。该目标知识图谱例如可以包括多个节点和多个边,每个节点表征一个词,每个该节点表征的词例如可以用于表示对象或者对象的属性。每个边连接两个节点,每个边连接的两个节点表征的两个词例如可以具有关联关系。例如,该两个词可以为具有上下位关系的两个词。在一实施例中,该两个词可以包括女性和女青年,女性为上位词,女青年为下位词。或者,该两个词中的一个词可以表示对象,另一个词可以表示该对象对应的属性。在一实施例中,该两个词例如可以包括手提包和白色,手提包为对象,白色为该对象对应的属性。
该目标知识图谱的构建过程可以通过各种方式来实现。例如,先从大量文本中提取出表述对象的词、表述对象的属性的词以及表述两个对象之间的关联关系的词,在此基础上将提取出的词进行知识融合,以消除因同一对象具有不同表述而存在的歧义等。知识融合后进行知识加工,根据两个对象之间的关联关系,进行对应于表述一个对象的词的第一节点与对应于表述另一对象的词的第二节点之间连接的边的构建,形成知识图谱。在一实施例中,对象例如可以包括实体对象和抽象对象,抽象对象例如可以包括前述的女性等。
根据本公开的实施例,该操作S220例如可以根据第一文本包括的关键词与第二文本包括的关键词在目标知识图谱中的关联关系来确定第一相似度。若第一文本包括的关键词对应的节点与第二文本包括的关键词对应的节点之间通过边连接,则认为第一文本包括的关键词与第二文本包括的关键词之间存在关联关系,意味着第一文本与第二文本之间存在一定的相似性。若第一文本包括的关键词对应的节点中与第二文本包括的关键词对应的节点通过边连接的节点个数越多,则第一相似度越大。在一实施例中,该操作S220例如可以通过图3描述的流程来实现,在此不再赘述。
在操作S230,使用目标匹配模型,确定第一文本与第二文本之间的第二相似度。
根据本公开的实施例,目标匹配模型例如可以包括以下至少之一:基于主题模型的匹配模型、语义匹配模型和关键词匹配模型。基于主题模型的匹配模型例如可以包括LDA(隐含狄利克雷分布,Latent Dirichlet allocation)主题模型、sentence-LDA(句子-隐含狄利克雷分布)主题模型或ESIM(增强的序列推论模型,Enhanced Sequential InferenceModel)等。语义匹配模型例如可以包括DSSM(深度结构化语义模型,Deep StructuredSemantic Models)、CNN-DSSM(基于卷积神经网络的深度结构化语义模型)或LSTM-DSSM(基于长短时记忆网络的深度结构化语义模型)。关键词匹配模型例如可以包括基于TF-IDF(词频-逆文档频率,Term Frequency-Inverse Document Frequency)的匹配模型。
根据本公开的实施例,根据不同的应用场景,可以选择不同的目标匹配模型。例如,在第一文本和第二文本均为短文本时,该目标匹配模型可以包括以下至少之一:关键词匹配模型、基于主题模型的匹配模型包括的sentence-LDA主题模型或ESIM。例如,在第一文本和第二文本中的一个为短文本而另一个为长文本时,该目标匹配模型例如可以包括前述基于主题模型的匹配模型、语义匹配模型和关键词匹配模型中的任意组合。在第一文本和第二文本均为长文本时,该目标匹配模型可以为基于主题的匹配模型和/或语义匹配模型。
根据本公开的实施例,在根据应用场景确定了目标匹配模型后,可采用目标匹配模型计算文本相似度的方法来确定第一文本与第二文本之间的第二相似度。
在一实施例中,在目标匹配模型为关键词匹配模型时,可以提取第一文本的关键词,将该提取得到的关键词以向量形式表示得到第一文本的词向量,并提取第二文本的关键词,将该提取得到的关键词以向量形式表示得到第二文本的词向量。可以将第一文本的词向量和第二文本的词向量之间的相似度作为第二相似度。其中,两个词向量之间的相似度例如可以采用以下任意一种参数形式来体现:余弦相似度、欧式距离、曼哈顿距离、皮尔逊相关系数、斯皮尔曼相关系数、杰卡德相似系数或汉明距离等。其中,提取关键词的过程例如可以采用切词方法或TF-IDF方法来实现,将关键词以向量形式表示的过程例如可以采用word2vec模型来实现。
例如,该实施例可以设定q个词,对于q个词中的每个词,若从第一文本中提取出的关键词中包括与该词相同的关键词,则为该词赋值为1,若第一文本中提取的关键词中不包括与该词相同的关键词,则为该词赋值为0。以此类推,得到第一文本针对q个词的q个赋值,该q个赋值组成的向量可以作为第一文本的词向量。类似地,可以得到第二文本的词向量。
在一实施例中,在目标匹配模型为基于主题模型的匹配模型、且第一文本和第二文本均为长文本时,可以先采用LDA主题模型确定第一文本的主题分布向量以及确定第二文本的主题分布向量。例如,该实施例可以设定m个主题,对于第一文本,可以确定该第一文本对应到m个主题中每个主题的概率,得到m个概率值,将该m个概率值组成的向量作为第一文本的主题分布向量。类似地,可以得到第二文本的主题分布向量。然后确定该第一文本的主题分布向量与第二文本的主题分布向量之间的相似度为第二相似度。其中,两个主题分布向量之间的相似度可以采用前述的余弦相似度、杰卡德相似系数等多种参数形式中的任意一种参数形式来体现。
在一实施例中,在目标匹配模型为基于主题模型的匹配模型,且第一文本为短文本,第二文本为长文本时,可以先采用LDA主题模型确定第二文本的主题分布向量,提取第一文本的关键词以得到多个关键词,然后根据该第二文本的主题分布向量确定第二文本生成第一文本中提取的多个关键词中每个关键词的概率以得到多个概率值,并将该多个概率值求和,得到第一文本和第二文本之间的第二相似度。
例如,该实施例可以预设定m个主题,每个主题可以对应生成n个词,每个主题生成对应的n个词中第i个词的概率为ti,且t1+t2+……+ti+……+tn=1。其中,第二文本的主题分布向量可以由第二文本属于m个主题中每个主题的概率值组合得到。第一文本的关键词可以为l个。可以通过以下方法确定第二文本生成该l个关键词中任意一个关键词的概率:确定该任意一个关键词被m个主题生成的概率,得到针对该任意一个关键词的m个概率值,然后将该m个概率值组成的向量与第二文本的主题分布向量点乘,得到第二文本生成该任意一个关键词的概率。可以将该第二文本生成l个关键词中每个关键词的概率相加,得到第一文本和第二文本之间的第二相似度。
在一实施例中,语义匹配模型例如可以是通过标注的有监督数据的语料训练得到的深度学习模型,其中,标注的有监督数据的语料例如可以包括:有表征“匹配”的标注的语料和有表征“不匹配”的标注的语料。在目标匹配模型为通过这种训练得到的语义匹配模型时,可以对第一文本预处理以得到与第一文本对应的第一输入向量,并对第二文本预处理以得到与第二文本对应的第二输入向量,将该第一输入向量和第二输入向量拼接后作为语义匹配模型的输入,从而语义匹配模型输出得到该第一文本与第二文本之间的第二相似度。第一输入向量和第二输入向量的拼接包括:将第二输入向量中的多个元素添加到第一输入向量中的最后一个元素之后,以将第一输入向量和第二输入向量组合拼接为一个向量。
对第一文本和第二文本中任一文本的预处理例如可以包括:先对该任一文本进行分词处理,然后将分词处理得到的每个词映射到一个唯一的索引编号,从而将分词处理得到的词序列转换为索引序列。将该索引序列转化为向量得到与该任一文本对应的输入向量。可以理解的是,上述对任一文本的预处理仅作为示例以利于理解本公开,本公开对此不作限定。
例如,该实施例中,上述深度学习模型例如可以为基于卷积神经网络的模型。语义匹配模型可以通过采用标注“匹配”和“不匹配”的正负样本构建卷积神经网络得到。该语义匹配模型例如可以采用余弦相似度来作为衡量第二相似度的指标。
在操作S240,根据第一相似度与第二相似度,确定第一文本和第二文本之间的匹配度。
根据本公开的实施例,在得到第一相似度和第二相似度后,例如可以根据预先为第一相似度和第二相似度分配的相似度权重,来计算得到第一文本和第二文本之间的匹配度。
在一实施例中,该操作S240例如可以通过图9描述的流程来实现,在此不再赘述。
综上可知,相较于仅根据匹配模型确定文本匹配度的相关技术,本公开实施例通过借助于根据大量文本构建的目标知识图谱和目标匹配模型两者来分别得到第一相似度和第二相似度,并根据第一相似度和第二相似度确定二者的匹配度,可以有效引入先验知识,从而可以在一定程度上提高确定的匹配度的准确性。在将该文本匹配方法应用于推荐、语义搜索和智能问答等场景时,可以使得向用户提供的文本更为符合用户需求,从而提高用户体验。
图3示意性示出了根据本公开实施例的使用目标知识图谱确定第一相似度的流程图。
如图3所示,使用目标知识图谱确定第一相似度的操作S220例如可以包括操作S321~操作S325。
在操作S321,基于第一文本得到针对第一文本的第一词序列。
根据本公开的实施例,可以先采用TD-IDF等方法提取该第一文本的关键词,得到多个第一关键词,然后根据该第一关键词确定第一词序列,例如可以通过将每个第一关键词组合得到第一词序列。
根据本公开的实施例,为了提高文本匹配的准确性,在根据第一关键词确定第一词序列的情况下,例如可以先对第一关键词进行预处理,得到目标关键词,然后再根据目标关键词确定第一词序列。可以通过多种方式对第一关键词进行预处理。例如,在一些实施例中,可以获取多个第一关键词各自的置信度,将所述多个第一关键词中置信度不小于预定置信度的第一关键词作为目标关键词,下文将参考图4A进行详细说明,在此不再详述。在一实施例中,可以获取针对多个第一关键词各自的描述文本,将所述多个第一关键词中描述文本与第一文本的相似度不小于目标相似度的第一关键词作为目标关键词,下文将参考图4C进行详细说明,在此不再详述。
在操作S322,基于第二文本得到针对第二文本的第二词序列。
根据本公开的实施例,可以先提取该第二文本的关键词,得到多个第二关键词,然后根据该第二关键词确定第二词序列,例如可以通过将每个第二关键词组合得到第二词序列。
根据本公开的实施例,例如可以先对第二关键词进行预处理,得到目标关键词,然后再根据目标关键词确定第二词序列。可以通过多种方式对第二关键词进行预处理。在一些实施例中,可以采用下文参考图4B描述的方法确定目标关键词,或者采用下文参考图4D描述的方法确定目标关键词,在此不再详述。该操作S322例如可以采用与操作S321得到针对第一文本的第一词序列的方式相同的方式来得到针对第二文本的第二词序列。
在操作S323,根据目标知识图谱和第一词序列,得到第一文本相对于目标知识图谱的第一得分向量。
在一实施例中,假定目标知识图谱包括p个节点。对于该p个节点表征的p个词中的每个词,若第一词序列包括的多个关键词包括与该词相同的关键词,则为该词赋值为1,若第一词序列包括的多个关键词不包括与该词相同的关键词,则为该词赋值为0。以此类推,得到针对p个词的p个赋值。可以将该p个赋值按照预定顺序排列以组合形成第一文本相对于目标知识图谱的第一得分向量。
在一实施例中,由于第一词序列包括的多个关键词在第一文本中会有不同的重要程度,因此在得到第一得分向量时,可以考虑该第一词序列包括的多个关键词在第一文本中的置信度,以此提高最终确定的第一相似度的准确性。操作S323例如可以包括:先确定该第一词序列包括的多个关键词是否包括目标知识图谱中各个节点表征的词;若包括某个节点表征的词,则为该某个节点表征的词赋值为该词在第一文本中的置信度,若不包括某个节点表征的词,则为该某个节点表征的词赋值为0。以此类推,得到针对目标知识图谱包括的p个节点表征的p个词的p个赋值,将该p个赋值按照预定顺序排列以组合形成第一文本相对于目标知识图谱的第一得分向量。其中,第一词序列包括的多个关键词的置信度可以根据从第一文本中提取该多个关键词时采用的词提取模型(例如TF-IDF)得到,该置信度用于表征关键词在第一文本中的重要程度。
在一实施例中,该操作S323例如可以通过图6A和图7A描述的流程来实现,在此不再赘述。
在操作S324,根据目标知识图谱和第二词序列,得到第二文本相对于目标知识图谱的第二得分向量。
在一实施例中,可以确定该第二词序列包括的多个关键词是否包括目标知识图谱中各个节点表征的词,若包括某个节点表征的词,则为该某个节点表征的词赋值为1,若不包括该某个节点表征的词,则赋值为0。以此类推,得到针对目标知识图谱包括的p个节点表征的p个词的p个赋值。可以将该p个赋值按照预定顺序排列以组合形成第二文本相对于目标知识图谱的第二得分向量。
在一实施例中,操作S324例如可以包括:先确定该第二词序列包括的多个关键词是否包括目标知识图谱中各个节点表征的词;若包括某个节点表征的词,则为该某个节点表征的词赋值为该某个节点表征的词在第二文本中的置信度,若不包括某个节点表征的关键词,则赋值为0。以此类推,得到针对目标知识图谱包括的p个节点的p个赋值,将该p个赋值按照预定顺序排列以组合形成第二文本相对于目标知识图谱的第二得分向量。其中,第二词序列包括的多个关键词的置信度可以根据从第二文本中提取该多个关键词时采用的词提取模型(例如TF-IDF)得到,该置信度用于表征关键词在第二文本中的重要程度。
在一实施例中,该操作S324例如可以通过图6B和图7B描述的流程来实现,在此不再赘述。
在操作S325,确定第一得分向量与第二得分向量之间的相似度为第一相似度。
根据本公开的实施例,该第一得分向量与第二得分向量之间的相似度例如可以采用前述描述的余弦相似度、杰卡德相似系数等任意一种参数形式来体现。
图4A示意性示出了根据本公开实施例的基于第一文本得到第一词序列的流程图。
如图4A所示,在一实施例中,基于第一文本得到第一词序列例如可以包括操作S411a~操作S413a。
在操作S411a,从第一文本中提取多个第一关键词及多个第一关键词各自的置信度。
根据本公开的实施例,该操作S411a例如可以采用TF-IDF方法提取得到第一文本包括的多个第一关键词及该多个第一关键词各自的置信度。该多个第一关键词各自的置信度可以为通过TF-IDF方法确定的该多个第一关键词各自在第一文本中的重要程度。
在操作S412a,确定多个第一关键词中置信度不小于预定置信度的第一关键词作为目标关键词。例如可以从多个第一关键词中剔除置信度小于预定置信度的第一关键词,剩余的第一关键词即为目标关键词。其中,预定置信度例如可以为0.3、0.4、0.5等,本公开对该预定置信度的取值不作限定,可以根据实际需求来设定该预定置信度。
在操作S413a,根据目标关键词来确定针对第一文本的第一词序列。例如可以通过将操作S412a确定的目标关键词组合形成第一词序列。
根据本公开的实施例,为了进一步扩展第一词序列的语义信息,从而提高采用目标知识图谱确定的第一相似度的准确性,在根据目标关键词确定第一词序列时,还可以根据目标知识图谱来增加目标关键词,下文将参考图5A来对此进行详细说明,在此不再详述。
图4B示意性示出了根据本公开实施例的基于第二文本得到第二词序列的流程图。
如图4B所示,在一实施例中,基于第二文本得到第二词序列的操作S322例如可以包括操作S411b~操作S413b。
在操作S411b,从第二文本中提取多个第二关键词及多个第二关键词各自的置信度。该操作S411b可以采用与操作S411a相同的方式来得到多个第二关键词及该多个第二关键词各自的置信度。
在操作S412b,确定多个第二关键词中置信度不小于预定置信度的第二关键词作为目标关键词。该操作S412b可以采用与操作S412a相同的方式来得到第二关键词中的目标关键词。
在操作S413b,根据目标关键词来确定针对第二文本的第二词序列。例如可以通过将操作S412b中确定的目标关键词组合形成第二词序列。
根据本公开的实施例,为了进一步扩展第二词序列的语义信息,从而提高采用目标知识图谱确定的第一相似度的准确性,在根据目标关键词确定第二词序列时,还可以根据目标知识图谱来增加目标关键词,下文将参考图5B来对此进行详细说明,在此不再详述。
综上可知,本公开实施例通过对两个文本的关键词做根据置信度进行筛选的预处理,可以仅根据两个文本的核心词来进行两个文本的相似度的确定。因此可以在保证匹配准确性的同时,提高匹配效率。
图4C示意性示出了根据本公开另一实施例的基于第一文本得到第一词序列的流程图。
如图4C所示,在一实施例中,基于第一文本得到第一词序列例如可以包括操作S411c~操作S414c。
在操作S411c,从第一文本中提取多个第一关键词。该操作S411c与操作S411a类似,在此不再赘述。
在操作S412c,获取针对多个第一关键词各自的描述文本。
根据本公开的实施例,该针对多个第一关键词各自的描述文本例如可以由服务器105预先存储。每个第一关键词表示一个实体,则针对该每个第一关键词的描述文本为对该实体的描述性文本。例如,若第一关键词为“苹果”,则该描述文本可以包括对实体“苹果”的介绍文本。
在操作S413c,确定多个第一关键词中描述文本与第一文本的相似度不小于目标相似度的第一关键词,作为目标关键词。
根据本公开的实施例,可以先确定多个第一关键词中每个第一关键词的描述文本与第一文本的相似度,得到针对每个第一关键词的相似度,然后确定多个第一关键词中所针对的相似度不小于目标相似度的第一关键词为目标关键词。
根据本公开的实施例,描述文本与第一文本的相似度例如可以采用前述操作S230中的目标匹配模型来确定。在一实施例中,可以采用LDA主题模型得到描述文本的主题分布向量,并采用LDA主题模型得到第一文本的主题分布向量。可以将该描述文本的主题分布向量与第一文本的主题分布向量之间的相似度作为描述文本与第一文本的相似度。
在操作S414c,根据目标关键词来确定针对第一文本的第一词序列。该操作S414c例如可以采用与操作S413a确定第一词序列的方式相同的方式得到第一词序列,在此不再赘述。
图4D示意性示出了根据本公开另一实施例的基于第二文本得到第二词序列的流程图。
如图4D所示,在一实施例中,基于第二文本得到第二词序列例如可以包括操作S411d~操作S414d。
在操作S411d,从第二文本中提取多个第二关键词。该操作S411d可以采用与操作S411a得到第一关键词的方式相同的方式来得到多个第二关键词。
在操作S412d,获取针对多个第二关键词各自的描述文本。该操作S412d可以采用与操作S412c获取针对多个第一关键词各自的描述文本的方式类似的方式来得到多个第二关键词各自的描述文本。
在操作S413d,确定多个第二关键词中描述文本与第二文本的相似度不小于目标相似度的第二关键词作为目标关键词。该操作S413d可以采用与操作S413c类似的方法来得到描述文本与第二文本的相似度不小于目标相似度的第二关键词。
在操作S414d,根据目标关键词来确定针对第二文本的第二词序列。该操作S414d例如可以采用与操作S413b确定第二词序列的方法类似的方法得到第二词序列。
综上可知,本公开实施例通过根据第一关键词的描述文本与第一文本的相似度来对第一关键词进行筛选的预处理,以及通过根据第二关键词的描述文本与第二文本的相似度来对第二关键词进行筛选的预处理,可以将在第一文本和第二文本中的语义与描述文本表述的语义不一致的关键词剔除。以该筛选得到的目标关键词得到的第一词序列和第二词序列可以更为准确的表征第一文本和第二文本,并因此可以提高确定的第一相似度的准确性。
图5A示意性示出了根据本公开实施例的根据目标关键词确定第一词序列的流程图。
如图5A所示,根据目标关键词来确定针对第一文本的第一词序列例如可以包括操作S5111~操作S5112。
在操作S5111,确定目标知识图谱中针对目标关键词的节点所表征的词,作为针对目标关键词的关联关键词。其中,针对目标关键词的节点包括目标知识图谱中与表征目标关键词的节点通过边连接的节点。
根据本公开的实施例,可以先确定目标知识图谱中表征目标关键词的节点。然后确定连接该表征目标关键词的节点的边。最后将确定的边连接的除表征目标关键词的节点外的另一节点为关联节点,则该关联节点所表征的词即为针对目标关键词的关联关键词。在一实施例中,连接表征目标关键词的节点的边可以有多个,该表征目标关键词的节点的关联节点为与多个边连接的多个节点。例如,若目标关键词为“水果”,连接表征“水果”的节点的边有两个,两个边中的一个边连接表征“苹果”的节点和表征“水果”的节点,两个边中的另一个边连接表征“梨”的节点和表征“水果”的节点,表征“水果”的节点的关联节点包括:表征“苹果”的节点和表征“梨”的节点。
根据本公开的实施例,在目标关键词为多个时,操作S5111中得到的关联关键词则为针对多个目标关键词的关联关键词的组合。
在一实施例中,若针对不同的目标关键词的关联关键词包括相同的词,则操作S511得到的关联关键词为针对多个目标关键词的关联关键词形成的关键词集合。考虑到该相同的词出现多次,则说明重要性较高,则在后续通过操作S323得到第一得分向量时,可以为该相同的词分配较高的置信度。
在操作S5112,组合目标关键词及针对目标关键词的关联关键词以得到第一词序列。
图5B示意性示出了根据本公开实施例的根据目标关键词确定第二词序列的流程图。
如图5B所示,根据目标关键词来确定针对第二文本的第二词序列例如可以包括操作S5113~操作S5114。
在操作S5113,确定目标知识图谱中针对目标关键词的节点所表征的词,作为针对目标关键词的关联关键词。该操作S5113可以采用与操作S5111确定关联关键词的方式相同的方式来确定关键关键词。
在操作S5114,组合目标关键词及针对目标关键词的关联关键词以得到第二词序列。该操作S5114采用与操作S5112得到第一词序列的方式相同的方式得到第二词序列。
综上可知,本公开实施例通过根据目标知识图谱对目标关键词进行扩充,可以丰富最终得到的第一词序列和第二词序列的语义信息。因此,可以提高根据第一词序列和第二词序列确定的第一相似度的准确性。
根据本公开的实施例,在从多个第一关键词中确定的目标关键词为多个的情况下,在对目标关键词进行扩充时,也可以针对每个目标关键词得到一个第一词序列,从而得到多个第一词序列。其中,针对每个目标关键词的第一词序列由该每个目标关键词及针对该每个目标关键词的关联关键词组合得到。此时,第一文本相对于目标知识图谱的第一得分向量可以通过图6A描述的流程来实现。
图6A示意性示出了根据本公开实施例的得到第一文本相对于目标知识图谱的第一得分向量的流程图。
如图6A所示,在第一词序列为多个时,得到第一文本相对于目标知识图谱的第一得分向量例如可以包括操作S631~操作S632。
在操作S631,根据目标知识图谱,确定针对第一文本的多个第一词序列中每个第一词序列的得分子向量。
根据本公开的实施例,该操作S631例如可以采用类似于前述操作S323中得到第一得分向量的方法来得到针对每个第一词序列的得分子向量。在此不再赘述。
在一实施例中,为了提高目标知识图谱的置信度,从而提高确定的第一相似度的准确性,该实施例还可以为目标知识图谱中的每个节点分配节点权重。此时,该操作S631例如可以通过图7A描述的流程来得到每个第一词序列的得分子向量,在此不再详述。
在操作S632,对所确定的得分子向量累加求和,得到第一文本相对于目标知识图谱的第一得分向量。例如可以将操作S631中得到的针对多个第一词序列的多个得分子向量进行累加求和,得到第一得分向量。例如可以将多个得分子向量各自包括的第k个元素求和,得到第一得分向量的第k个元素。
根据本公开的实施例,在从多个第二关键词中确定的目标关键词为多个的情况下,在对目标关键词进行扩充时,可以针对每个目标关键词得到一个第二词序列,从而得到多个第二词序列。其中,针对每个目标关键词的第二词序列由该每个目标关键词及针对该每个目标关键词的关联关键词组合得到。此时,第二文本相对于目标知识图谱的第二得分向量可以通过图6B描述的流程来实现。
图6B示意性示出了根据本公开实施例的得到第二文本相对于目标知识图谱的第二得分向量的流程图。
如图6B所示,在第二词序列为多个时,得到第二文本相对于目标知识图谱的第二得分向量例如可以包括操作S641~操作S642。
在操作S641,根据目标知识图谱,确定针对第二文本的多个第二词序列中每个第二词序列的得分子向量。该操作S641可以采用与操作S631确定每个第一词序列的得分子向量的方法类似的方法来得到每个第二词序列的得分子向量。
在操作S642,对所确定的得分子向量累加求和,得到第二文本相对于目标知识图谱的第二得分向量。例如可以将操作S641中得到的针对多个第二词序列的多个得分子向量进行累加,得到第二得分向量。
图7A示意性示出了根据本公开实施例的根据目标知识图谱确定针对每个第一词序列的得分子向量的流程图。
根据本公开的实施例,为了提高目标知识图谱的置信度,并进一步地准确表示各个关键词的重要程度。可以为目标知识图谱中的各个节点分配节点权重。此时,根据目标知识图谱确定针对每个第一词序列的得分子向量例如可以包括如图7A所示的操作S7311~操作S7313。
在操作S7311,确定目标知识图谱中表征每个第一词序列包括的多个词的节点,得到多个节点。
在一实施例中,每个第一词序列包括的多个词包括:采用词提取模型(例如TF-IDF模型)从第一文本中提取得到的第一关键词,以及通过类似于操作S5111描述的方法得到的针对提取到的第一关键词的关联关键词。
在操作S7312,根据多个节点各自的节点权重及多个节点各自表征的词的置信度,得到多个词各自相对于目标知识图谱的得分,得到多个得分。
根据本公开的实施例,考虑到由每个第一关键词及该第一关键词的关联关键词组成的第一词序列中可能包括不同粒度的词。为了保证第一相似度的准确性,不同粒度的词应具有不同的重要性。例如,细粒度的词应能够为两个文本的匹配带来较大的影响。因此,为了进一步提高目标知识图谱的置信度,提高第一相似度的准确性,可以将目标知识图谱构建为分层结构。
在一实施例中,该目标知识图谱的分层结构中,不同层的节点所表征的词的粒度可以不同,例如按照层数从高到低,粒度可以由粗到细,或者由细到粗。因此,该目标知识图谱包括至少两层的节点及多个边;每层包括多个节点,每个节点表征一个词,属于同一层的多个节点表征的词的粒度相同。每个边连接属于不同层的两个节点,每个边连接的两个节点表征的两个词具有不同粒度。其中,考虑到细粒度的词应能够为文本匹配带来较大的影响,因此,该至少两层的节点中,为表征粗粒度的词的节点分配的节点权重应小于为表征细粒度的词的节点分配的节点权重。
根据本公开的实施例,操作S7312中从第一文本中提取得到的第一关键词的置信度例如可以由词提取模型(TF-IDF模型)得到。该置信度用于表示提取得到的第一关键词在第一文本中的重要性。在一实施例中,该提取得到的第一关键词例如可以为通过前述的预处理得到的目标关键词。为了便于后续处理,可以为针对提取到的第一关键词的关联关联词预分配置信度,该预分配的置信度例如可以为1、0.9、0.8或其他的任意值。该预分配的置信度可以根据实际需求进行设定,本公开对此不作限定。
根据本公开的实施例,操作S7312中可以将操作S7311中确定的多个节点各自的节点权重与该多个节点各自表征的词的置信度相乘,得到第一词序列中多个词各自相对于目标知识图谱的得分。
在操作S7313,根据多个得分,得到每个第一词序列的得分子向量。例如可以将该多个得分组成多维向量,并将该多维向量作为第一词序列的得分子向量。
在一实施中,目标知识图谱例如可以包括三层节点,该三层节点表征的词按照层数自上至下粒度依次变细。该三层节点中,例如可以包括表征艺人、作家等e个词的e个粗粒度节点、表征制片人、男明星、女明星等f个词的f个中粒度节点以及表征人物1、人物2、人物3等g个词的g个细粒度节点。粗粒度节点的节点权重为0.2,中粒度节点的节点权重为0.3,细粒度节点的节点权重为0.5。第一文本相对于目标知识图谱的第一得分向量例如可以通过以下方法得到:若第一文本中提取到了关键词“人物1”和“人物2”,且关键词“人物1”通过TF-IDF方法得到的置信度为0.4,关键词“人物2”通过TF-IDF方法得到的置信度为0.6。针对关键词“人物1”,扩充得到的第一词序列为{人物1,男明星,艺人},针对关键词“人物2”,扩充得到的第一词序列为{人物2,男明星,制片人,艺人}。第一词序列{人物1,男明星,艺人}的得分子向量为[0.4*0.5,…,0.3,…,0.2,…]。其中,由于“人物1”对应的节点为细粒度节点,则“人物1”对应的得分为细粒度节点的节点权重*词的置信度,由于“男明星”为扩充得到的关联关键词,为其预分配的置信度为1,因此其得分为对应节点的节点权重*1,即男明星的得分为0.3。相应地,艺人的得分为0.2。该得分子向量的维度为e+f+g维,其中“…”部分(若存在的话)均为0。类似地,可以得到第一词序列{人物2,男明星,制片人,艺人}的得分子向量。最后,将第一文本包括的多个目标关键词中每个目标关键词对应的第一词序列的得分子向量求和得到针对该第一文本的第一得分向量。通过与前述类似的方法,可以得到第二文本的第二得分向量。最后,计算两个得分向量的相似度,作为第一文本与第二文本的第一相似度。
图7B示意性示出了根据本公开实施例的根据目标知识图谱确定针对每个第二词序列的得分子向量的流程图。
如图7B所示,根据目标知识图谱确定针对每个第二词序列的得分子向量例如可以包括操作S7411~操作S7413。
在操作S7411,确定目标知识图谱中表征每个第二词序列包括的多个词的节点,得到多个节点。该操作S7411可以采用与操作S7311得到多个节点的方式相同的方式得到多个节点。
在一实施例中,每个第二词序列包括的多个词包括:采用词提取模型(例如TF-IDF模型)从第二文本中提取得到的第二关键词,以及通过类似于操作S5113描述的方法得到的针对提取到的第二关键词的关联关键词。
在操作S7412,根据多个节点各自的节点权重及多个节点各自表征的词的置信度,得到多个词各自相对于目标知识图谱的得分,得到多个得分。该操作S7412可以采用与操作S7312相似的方式得到多个词各自相对于目标知识图谱的得分。
在操作S7413,根据多个得分,得到每个第二词序列的得分子向量。该操作S7413可以采用与操作S7313相似的方式得到每个第二词序列的得分子向量。
图8示意性示出了根据本公开实施例的根据关键词匹配模型确定第二相似度的流程图。
根据本公开的实施例,考虑到采用目标知识图谱得到第一相似度时是基于关键词来进行的,且最终的匹配度是第一相似度和第二相似度融合得到的。因此,为了避免因不同模型根据同一关键词得到相似度导致该同一关键词对匹配度结果的影响增大的情况,在目标匹配模型为关键词匹配模型时,可以将从第一文本和第二文本中提取得到的关键词中剔除前述确定的目标关键词。因此,如图8所示,在目标匹配模型为关键词匹配模型时,例如可以通过以下操作S831~操作S834来确定第二相似度。
在操作S831,从第一文本中提取多个第一关键词,从第二文本中提取多个第二关键词。该第一关键词例如可以采用与前述操作S411a类似的方法提取得到,第二关键词例如可以采用与前述操作S411b描述的方法类似的方法提取得到,在此不再赘述。
在操作S832,从多个第一关键词中去除第一文本的目标关键词,并从多个第二关键词中去除第二文本的目标关键词。
其中,第一文本的目标关键词例如可以是通过前述操作S412a描述的方法或前述操作S413c描述的方法确定的目标关键词。第二文本的目标关键词例如可以是通过类似于前述操作S412b描述的方法或类似于前述操作S413d描述的方法确定的目标关键词,在此不再赘述。
在操作S833,根据去除了目标关键词的第一关键词得到针对第一文本的第一词向量,并根据去除了目标关键词的第二关键词得到针对第二文本的第二词向量。
根据本公开的实施例,该实施例可以预先设定有q个词,该q个词包括从服务器105中存储的大量文本中提取得到的关键词,该q个词包括从第一文本中提取到的第一关键词和从第二文本中提取得到的第二关键词。在操作S833中,可以确定去除了目标关键词的第一关键词是否包括q个词中的每一个词。对于q个词中的每个词,若存在与该词相同的第一关键词,则为该词赋值为1,若不存在与该词相同的第一关键词,则为该词赋值为0。以此类推,得到针对q个词的q个赋值,该q个赋值组成的向量可以作为针对第一文本的第一词向量。针对第二文本的第二词向量同样通过上述方法得到。
在操作S834,确定第一词向量与第二词向量之间的相似度为第二相似度。例如可以如上所述计算第一词向量和第二词向量之间的余弦相似度或杰卡德相似系数或其组合作为第一词向量和第二词向量之间的相似度。
图9示意性示出了根据本公开实施例的确定第一文本和第二文本之间的匹配度的流程图。
为了进一步提高文本匹配的准确性,在一实施例中,目标匹配模型例如可以包括有细粒度匹配模型和粗粒度匹配模型。可以为粗粒度匹配模型得到的匹配结果与细粒度匹配模型得到的匹配结果分配不同的权重,最终通过对两者的匹配结果进行融合得到两个文本之间的相似度。其中,考虑到细粒度匹配模型的匹配准确性较高,因此,可以为细粒度匹配模型分配较大的权重。再者,考虑到使用目标知识图谱进行两个文本匹配的方法是基于关键词进行的文本匹配,因此,可以将该使用目标知识图谱得到的两个文本的相似度与细粒度匹配模型的匹配结果进行融合后,再与粗粒度匹配模型的匹配结果进行融合。因此,如图9所示,确定第一文本和第二文本之间的匹配度例如可以包括操作S941~操作S943。
在操作S941,根据使用粗粒度匹配模型确定的第二相似度,得到第一匹配度。
根据本公开的实施例,粗粒度匹配模型例如可以包括一个或多个子模型,例如可以包括基于主题模型的匹配模型和/或语义匹配模型。在该粗粒度匹配模型包括多个子模型时,可以根据为每个子模型分配的子模型权重及根据各个子模型得到的第二相似度,计算第一匹配度。其中,为粗粒度匹配模型的多个子模型分配子模型权重时,可以根据该多个子模型的相对精度来分配,精度相对高的子模型,分配得到的子模型权重较高。在一实施例中,粗粒度匹配模型包括基于主题模型的匹配模型和语义匹配模型。根据基于主题模型的匹配模型确定的第二相似度为S1,为基于主题模型的匹配模型分配的权重为w1,根据语义匹配模型确定的第二相似度为S2,为语义匹配模型分配的权重为w2,第一匹配度P1=w1*S1+w2*S2
在一实施例中,粗粒度匹配模型例如可以包括一个子模型,则该操作S941可以将根据该单个子模型确定的第二相似度作为第一匹配度。
在操作S942,根据第一相似度及使用细粒度匹配模型确定的第二相似度,得到第二匹配度。
根据本公开的实施例,细粒度匹配模型可以包括一个或多个子模型,例如包括关键词匹配模型。例如可以根据为目标知识图谱和关键词匹配模型分配的子模型权重、第一相似度及根据关键词匹配模型确定的第二相似度,计算第二匹配度。在一实施例中,根据目标知识图谱确定的第一相似度为S3,为目标知识图谱分配的权重为w3,根据关键词匹配模型确定的第二相似度为S4,为关键词匹配模型分配的权重为w4,第二匹配度P2=w3*S3+w4*S4
在一实施例中,细粒度匹配模型可以为采用目标知识图谱得到相似度的模型,操作S941可以将采用目标知识图谱确定的第一相似度作为第二匹配度。
在操作S943,根据为粗粒度匹配模型和细粒度匹配模型预分配的模型权重、第一匹配度和第二匹配度,得到第一文本和第二文本之间的匹配度。其中,考虑到细粒度匹配模型的精度较高,因此,可以为细粒度匹配模型分配较大的模型权重。
根据本公开的实施例,为粗粒度匹配模型分配的模型权重和为细粒度匹配模型分配的模型权重例如可以通过多次训练得到。为粗粒度匹配模型中各个子模型分配的子模型权重,和/或为细粒度匹配模型中各个子模型分配的子权重例如也可以通过多次训练得到。
图10示意性示出了根据本公开实施例的文本匹配装置的结构框图。
如图10所示,本公开实施例的文本匹配装置1000例如可以包括获取模块1010、第一匹配模块1020、第二匹配模块1030和匹配度确定模块1040。
获取模块1010用于获取待匹配的第一文本和第二文本。该获取模块1010例如可以用于执行图2所示的操作S210,在此不再赘述。
第一匹配模块1020用于使用目标知识图谱,确定第一文本与第二文本之间的第一相似度。该第一匹配模块1020例如可以用于执行图2所示的操作S220,在此不再赘述。
第二匹配模块1030用于使用目标匹配模型,确定第一文本与第二文本之间的第二相似度。该第二匹配模块1030例如可以用于执行图2所示的操作S230,在此不再赘述。
匹配度确定模块1040用于根据第一相似度与第二相似度,确定第一文本和第二文本之间的匹配度。该匹配度确定模块1040例如可以用于执行图2所示的操作S240,在此不再赘述。
根据本公开的实施例,上述第一匹配模块1020例如可以包括词向量获得子模块、得分向量获得子模块和相似度确定子模块。词向量获得子模块用于:基于第一文本得到针对第一文本的第一词序列以及基于第二文本得到针对第二文本的第二词序列,该词向量获得子模块例如可以用于执行图3所示的操作S321~操作S322,在此不再赘述。得分向量获得子模块用于:根据目标知识图谱和第一词序列,得到第一文本相对于目标知识图谱的第一得分向量;以及根据目标知识图谱和第二词序列,得到第二文本相对于目标知识图谱的第二得分向量。该得分向量获得子模块例如可以用于执行图3所示的操作S323~操作S324,在此不再赘述。相似度确定子模块用于确定第一得分向量与第二得分向量之间的相似度为第一相似度,该相似度确定子模块例如可以用于执行如图3所示的操作S325,在此不再赘述。
在一实施例中,词向量获得子模块例如可以包括关键词提取单元、目标关键词确定单元和词向量确定单元。关键词提取单元用于从第一文本中提取多个第一关键词及多个第一关键词各自的置信度。目标关键词确定单元用于确定多个第一关键词中置信度不小于预定置信度的第一关键词作为目标关键词。词向量确定单元用于根据目标关键词来确定针对第一文本的第一词序列。该关键词提取单元、目标关键词确定单元和词向量确定单元例如可以分别用于执行图4A所示的操作S411a~操作S413a,在此不再赘述。其中,该词向量获得子模块包括的各单元可以采用与上述得到第一词序列的方式相同的方式来得到第二词序列,关键词提取单元、目标关键词确定单元和词向量确定单元例如还可以分别用于执行图4B所示的操作S411b~操作S413b。
在一实施例中,词向量获得子模块例如可以包括关键词提取单元、描述文本获取单元、目标关键词确定单元和词向量确定单元。关键词提取单元用于从第一文本中提取多个第一关键词。描述文本获取单元用于获取针对多个第一关键词各自的描述文本。目标关键词确定单元用于确定多个第一关键词中描述文本与第一文本的相似度不小于目标相似度的第一关键词,作为目标关键词。词向量确定单元用于根据目标关键词来确定针对第一文本的第一词序列。关键词提取单元、描述文本获取单元、目标关键词确定单元和词向量确定单元例如可以分别用于执行图4C所示的操作S411c~操作S414c,在此不再赘述。其中,该词向量获得子模块包括的各单元可以采用与上述得到第一词序列的方式相同的方式来得到第二词序列,关键词提取单元、描述文本获取单元、目标关键词确定单元和词向量确定单元例如还可以分别用于执行图4D所示的操作S411d~操作S414d。
根据本公开的实施例,目标知识图谱包括多个节点及多个边,每个节点表征一个词,每个边连接两个节点。词向量确定单元例如可以包括关键词确定子单元和组合子单元。关键词确定子单元用于确定目标知识图谱中针对目标关键词的节点所表征的词,作为针对目标关键词的关联关键词。其中针对目标关键词的节点包括目标知识图谱中与表征目标关键词的节点通过边连接的节点。组合子单元用于组合目标关键词及针对目标关键词的关联关键词以得到第一词序列。关键词确定子单元和组合子单元例如可以分别用于执行图5A描述的操作S5111和操作S5112,在此不再赘述。在一实施例中,该关键词确定子单元和组合子单元例如还可以分别用于执行图5B描述的操作S5113和操作S5114,在此不再赘述。
根据本公开的实施例,第一词序列的数量为多个,得分向量获得子模块包括子向量确定单元和向量累加单元。子向量确定单元用于根据目标知识图谱,确定针对第一文本的多个第一词序列中每个第一词序列的得分子向量。向量累加单元用于对所确定的得分子向量累加求和,得到第一文本相对于目标知识图谱的第一得分向量。子向量确定单元和向量累加单元例如可以分别用于执行图6A描述的操作S631和操作S632,在此不再赘述。在一实施例中,该子向量确定单元和向量累加单元例如还可以分别用于执行图6B描述的操作S641和操作S642,在此不再赘述。
根据本公开的实施例,目标知识图谱包括至少两层的节点及多个边;每层包括多个节点,每个节点表征一个词,属于同一层的多个节点表征的词的粒度相同;每个边连接属于不同层的两个节点,每个边连接的两个节点表征的两个词具有不同粒度;其中,每个节点均分配有节点权重。上述子向量确定单元包括节点确定子单元、得分获得子单元和子向量获得子单元。节点确定子单元用于确定目标知识图谱中表征每个第一词序列包括的多个词的节点,得到多个节点。得分获得子单元用于根据多个节点各自的节点权重及多个节点各自表征的词的置信度,得到多个词各自相对于目标知识图谱的得分,得到多个得分。子向量获得子单元用于根据多个得分,得到每个第一词序列的得分子向量。节点确定子单元、得分获得子单元和子向量获得子单元例如可以分别用于执行图7A描述的操作S7311~操作S7313,在此不再赘述。在一实施例中,该节点确定子单元、得分获得子单元和子向量获得子单元例如还可以分别用于执行图7B描述的操作S7411~操作S7413,在此不再赘述。
根据本公开的实施例,每个第一词序列包括的多个词包括:采用词提取模型从第一文本中提取得到的第一关键词,以及针对第一关键词的关联关键词。其中,第一关键词的置信度由词提取模型得到,关联关键词的置信度是预分配的。
根据本公开的实施例,为表征粗粒度的词的节点分配的节点权重小于为表征细粒度的词的节点分配的节点权重。
根据本公开的实施例,目标匹配模型包括关键词匹配模型。上述第二匹配模块1030例如可以包括提取子模块、去除子模块、向量获得子模块和相似度确定子模块。提取子模块用于从第一文本中提取多个第一关键词,从第二文本中提取多个第二关键词。去除子模块用于从多个第一关键词中去除第一文本的目标关键词,并从多个第二关键词中去除第二文本的目标关键词。向量获得子模块用于根据去除了目标关键词的第一关键词得到针对第一文本的第一词向量,并根据去除了目标关键词的第二关键词得到针对第二文本的第二词向量。相似度确定子模块用于确定第一词向量与第二词向量之间的相似度为第二相似度。提取子模块、去除子模块、向量获得子模块和相似度确定子模块例如可以分别用于执行图8描述的操作S831~操作S834,在此不再赘述。
根据本公开的实施例,采用与得到针对第一文本的第一词序列的方式相同的方式来得到针对第二文本的第二词序列。
根据本公开的实施例,采用与得到第一文本相对于目标知识图谱的第一得分向量的方式相同的方式来得到第二文本相对于目标知识图谱的第二得分向量。
根据本公开的实施例,目标匹配模型包括粗粒度匹配模型和细粒度匹配模型。上述匹配度确定模块包括第一获得子模块、第二获得子模块和第三获得子模块。第一获得子模块用于根据使用粗粒度匹配模型确定的第二相似度,得到第一匹配度。第二获得子模块用于根据第一相似度及使用细粒度匹配模型确定的第二相似度,得到第二匹配度。第三获得子模块用于根据为粗粒度匹配模型和细粒度匹配模型预分配的模型权重、第一匹配度和第二匹配度,得到第一文本和第二文本之间的匹配度。第一获得子模块、第二获得子模块和第三获得子模块例如可以分别用于执行图9描述的操作S941~操作S943,在此不再赘述。
根据本公开的实施例,粗粒度匹配模型包括以下至少之一:基于主题模型的匹配模型和语义匹配模型;细粒度匹配模型包括关键词匹配模型。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
基于上述文本匹配方法,本公开还提供了一种计算机系统、一种可读存储介质和一种计算机程序产品。其中,计算机程序产品包括计算机程序,该计算机程序在被处理器执行时可以实现上述任意实施例的方法。
图11示意性示出了根据本公开实施例的适于执行文本匹配方法的计算机系统的方框图。图11示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图11所示,根据本公开实施例的计算机系统1100包括处理器1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。处理器1101例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1101还可以包括用于缓存用途的板载存储器。处理器1101可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 1103中,存储有系统1100操作所需的各种程序和数据。处理器1101、ROM1102以及RAM 1103通过总线1104彼此相连。处理器1101通过执行ROM 1102和/或RAM 1103中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 1102和RAM 1103以外的一个或多个存储器中。处理器1101也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,系统1100还可以包括输入/输出(I/O)接口1105,输入/输出(I/O)接口1105也连接至总线1104。系统1100还可以包括连接至I/O接口1105的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被处理器1101执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1102和/或RAM 1103和/或ROM 1102和RAM 1103以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (15)

1.一种文本匹配方法,包括:
获取待匹配的第一文本和第二文本;
使用目标知识图谱,确定所述第一文本与所述第二文本之间的第一相似度;
使用目标匹配模型,确定所述第一文本与所述第二文本之间的第二相似度;以及
根据所述第一相似度与所述第二相似度,确定所述第一文本和所述第二文本之间的匹配度;
其中,所述目标匹配模型包括:粗粒度匹配模型和细粒度匹配模型;所述根据所述第一相似度与所述第二相似度,确定所述第一文本和所述第二文本之间的匹配度包括:
根据使用所述粗粒度匹配模型确定的第二相似度,得到第一匹配度;
根据所述第一相似度及使用所述细粒度匹配模型确定的第二相似度,得到第二匹配度;以及
根据为所述粗粒度匹配模型和所述细粒度匹配模型预分配的模型权重、所述第一匹配度和所述第二匹配度,得到所述第一文本和所述第二文本之间的匹配度。
2.根据权利要求1所述的方法,其中,所述使用目标知识图谱,确定所述第一文本与所述第二文本之间的第一相似度包括:
基于所述第一文本得到针对所述第一文本的第一词序列;
基于所述第二文本得到针对所述第二文本的第二词序列;
根据所述目标知识图谱和所述第一词序列,得到所述第一文本相对于所述目标知识图谱的第一得分向量;
根据所述目标知识图谱和所述第二词序列,得到所述第二文本相对于所述目标知识图谱的第二得分向量;以及
确定所述第一得分向量与所述第二得分向量之间的相似度为所述第一相似度,
其中,采用与得到针对所述第一文本的第一词序列的方式相同的方式来得到针对所述第二文本的第二词序列。
3.根据权利要求2所述的方法,其中,所述基于所述第一文本得到针对所述第一文本的第一词序列包括:
从所述第一文本中提取多个第一关键词及所述多个第一关键词各自的置信度;
确定所述多个第一关键词中置信度不小于预定置信度的第一关键词作为目标关键词;以及
根据所述目标关键词来确定针对所述第一文本的第一词序列。
4.根据权利要求2所述的方法,其中,所述基于所述第一文本得到针对所述第一文本的第一词序列包括:
从所述第一文本中提取多个第一关键词;
获取针对所述多个第一关键词各自的描述文本;
确定所述多个第一关键词中描述文本与所述第一文本的相似度不小于目标相似度的第一关键词,作为目标关键词;以及
根据所述目标关键词来确定针对所述第一文本的第一词序列。
5.根据权利要求3或4所述的方法,其中,
所述目标知识图谱包括多个节点及多个边,每个节点表征一个词,每个边连接两个节点;
所述根据所述目标关键词来确定针对所述第一文本的第一词序列包括:
确定所述目标知识图谱中针对所述目标关键词的节点所表征的词,作为针对所述目标关键词的关联关键词,其中针对所述目标关键词的节点包括所述目标知识图谱中与表征所述目标关键词的节点通过边连接的节点;以及
组合所述目标关键词及针对所述目标关键词的关联关键词以得到第一词序列。
6.根据权利要求2所述的方法,其中,所述第一词序列的数量为多个,所述得到所述第一文本相对于所述目标知识图谱的第一得分向量包括:
根据所述目标知识图谱,确定针对所述第一文本的多个第一词序列中每个第一词序列的得分子向量;以及
对所确定的得分子向量累加求和,得到所述第一文本相对于所述目标知识图谱的第一得分向量。
7.根据权利要求6所述的方法,其中:
所述目标知识图谱包括至少两层的节点及多个边;每层包括多个节点,每个节点表征一个词,属于同一层的多个节点表征的词的粒度相同;每个边连接属于不同层的两个节点,所述每个边连接的两个节点表征的两个词具有不同粒度;其中,每个节点均分配有节点权重;
所述根据所述目标知识图谱,确定针对所述第一文本的多个第一词序列中每个第一词序列的得分子向量包括:
确定所述目标知识图谱中表征所述每个第一词序列包括的多个词的节点,得到多个节点;
根据所述多个节点各自的节点权重及所述多个节点各自表征的词的置信度,得到所述多个词各自相对于所述目标知识图谱的得分,得到多个得分;以及
根据所述多个得分,得到所述每个第一词序列的得分子向量。
8.根据权利要求7所述的方法,其中:
所述每个第一词序列包括的多个词包括:采用词提取模型从所述第一文本中提取得到的第一关键词,以及针对所述第一关键词的关联关键词,
其中,所述第一关键词的置信度由所述词提取模型得到,所述关联关键词的置信度是预分配的。
9.根据权利要求7所述的方法,其中,为表征粗粒度的词的节点分配的节点权重小于为表征细粒度的词的节点分配的节点权重。
10.根据权利要求3或4所述的方法,其中,
所述目标匹配模型包括关键词匹配模型;
所述使用目标匹配模型,确定所述第一文本与所述第二文本之间的第二相似度包括:
从所述第一文本中提取多个第一关键词,从所述第二文本中提取多个第二关键词;
从所述多个第一关键词中去除所述第一文本的目标关键词,并从所述多个第二关键词中去除所述第二文本的目标关键词;
根据去除了目标关键词的第一关键词得到针对第一文本的第一词向量,并根据去除了目标关键词的第二关键词得到针对第二文本的第二词向量;以及
确定所述第一文本向量与所述第二文本向量之间的相似度为所述第二相似度。
11.根据权利要求2所述的方法,其中,采用与得到所述第一文本相对于所述目标知识图谱的第一得分向量的方式相同的方式来得到所述第二文本相对于所述目标知识图谱的第二得分向量。
12.根据权利要求1所述的方法,其中:
所述粗粒度匹配模型包括以下至少之一:基于主题模型的匹配模型和语义匹配模型;
所述细粒度匹配模型包括:关键词匹配模型。
13.一种文本匹配装置,包括:
获取模块,用于获取待匹配的第一文本和第二文本;
第一匹配模块,用于使用目标知识图谱,确定所述第一文本与所述第二文本之间的第一相似度;
第二匹配模块,用于使用目标匹配模型,确定所述第一文本与所述第二文本之间的第二相似度;以及
匹配度确定模块,用于根据所述第一相似度与所述第二相似度,确定所述第一文本和所述第二文本之间的匹配度;
其中,所述目标匹配模型包括:粗粒度匹配模型和细粒度匹配模型;所述匹配度确定模块包括:
第一获得子模块,用于根据使用粗粒度匹配模型确定的第二相似度,得到第一匹配度;
第二获得子模块,用于根据所述第一相似度及使用所述细粒度匹配模型确定的第二相似度,得到第二匹配度;以及
第三获得子模块,用于根据为所述粗粒度匹配模型和所述细粒度匹配模型预分配的模型权重、所述第一匹配度和所述第二匹配度,得到所述第一文本和所述第二文本之间的匹配度。
14.一种计算机系统,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行权利要求1~12中任一项所述的文本匹配方法。
15.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行权利要求1~12中任一项所述的文本匹配方法。
CN202010297578.3A 2020-04-15 2020-04-15 文本匹配方法和装置以及计算机系统和可读存储介质 Active CN111539197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010297578.3A CN111539197B (zh) 2020-04-15 2020-04-15 文本匹配方法和装置以及计算机系统和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010297578.3A CN111539197B (zh) 2020-04-15 2020-04-15 文本匹配方法和装置以及计算机系统和可读存储介质

Publications (2)

Publication Number Publication Date
CN111539197A CN111539197A (zh) 2020-08-14
CN111539197B true CN111539197B (zh) 2023-08-15

Family

ID=71974968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010297578.3A Active CN111539197B (zh) 2020-04-15 2020-04-15 文本匹配方法和装置以及计算机系统和可读存储介质

Country Status (1)

Country Link
CN (1) CN111539197B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100999B (zh) * 2020-09-11 2023-02-03 河北冀联人力资源服务集团有限公司 一种简历文本相似度匹配方法和系统
CN111930898B (zh) * 2020-09-18 2021-01-05 北京合享智慧科技有限公司 文本评价方法、装置、电子设备及存储介质
CN112507192A (zh) * 2020-09-24 2021-03-16 厦门立马耀网络科技有限公司 一种应用对比匹配方法、介质、系统和设备
CN112800197A (zh) * 2021-01-18 2021-05-14 北京明略软件系统有限公司 一种目标故障信息的确定方法和装置
CN113836942B (zh) * 2021-02-08 2022-09-20 宏龙科技(杭州)有限公司 一种基于隐关键词的文本匹配方法
CN113282709B (zh) * 2021-06-01 2022-11-04 平安国际智慧城市科技股份有限公司 文本匹配方法、装置、设备及计算机可读存储介质
CN113449074A (zh) * 2021-06-22 2021-09-28 重庆长安汽车股份有限公司 一种含专有名词的句子向量相似度匹配优化方法、装置及存储介质
CN115239214B (zh) * 2022-09-23 2022-12-27 建信金融科技有限责任公司 企业的评估处理方法、装置及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN103544140A (zh) * 2012-07-12 2014-01-29 国际商业机器公司 一种数据处理方法、展示方法和相应的装置
EP2999228A1 (en) * 2014-09-17 2016-03-23 Samsung Electronics Co., Ltd Mobile device, image reproducing device and server for providing relevant information about image captured by image reproducing device, and method thereof
CN107862037A (zh) * 2017-11-03 2018-03-30 哈尔滨工业大学 一种基于实体连通图的事件模版构造方法
CN108536677A (zh) * 2018-04-09 2018-09-14 北京信息科技大学 一种专利文本相似度计算方法
US10095775B1 (en) * 2017-06-14 2018-10-09 International Business Machines Corporation Gap identification in corpora
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN109948401A (zh) * 2017-12-20 2019-06-28 北京京东尚科信息技术有限公司 用于文本的数据处理方法及其系统
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110489751A (zh) * 2019-08-13 2019-11-22 腾讯科技(深圳)有限公司 文本相似度计算方法及装置、存储介质、电子设备
CN110717092A (zh) * 2018-06-27 2020-01-21 北京京东尚科信息技术有限公司 为文章匹配对象的方法、系统、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095858A (zh) * 2016-06-02 2016-11-09 海信集团有限公司 一种音视频搜索方法、装置和终端

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184169A (zh) * 2011-04-20 2011-09-14 北京百度网讯科技有限公司 用于确定字符串信息间相似度信息的方法、装置和设备
CN103544140A (zh) * 2012-07-12 2014-01-29 国际商业机器公司 一种数据处理方法、展示方法和相应的装置
EP2999228A1 (en) * 2014-09-17 2016-03-23 Samsung Electronics Co., Ltd Mobile device, image reproducing device and server for providing relevant information about image captured by image reproducing device, and method thereof
US10095775B1 (en) * 2017-06-14 2018-10-09 International Business Machines Corporation Gap identification in corpora
CN107862037A (zh) * 2017-11-03 2018-03-30 哈尔滨工业大学 一种基于实体连通图的事件模版构造方法
CN109948401A (zh) * 2017-12-20 2019-06-28 北京京东尚科信息技术有限公司 用于文本的数据处理方法及其系统
CN108536677A (zh) * 2018-04-09 2018-09-14 北京信息科技大学 一种专利文本相似度计算方法
CN110717092A (zh) * 2018-06-27 2020-01-21 北京京东尚科信息技术有限公司 为文章匹配对象的方法、系统、设备及存储介质
CN108984745A (zh) * 2018-07-16 2018-12-11 福州大学 一种融合多知识图谱的神经网络文本分类方法
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110489751A (zh) * 2019-08-13 2019-11-22 腾讯科技(深圳)有限公司 文本相似度计算方法及装置、存储介质、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王瑞 等.《中文信息学报》.《基于上下文词向量和主题模型的实体消歧方法》.2019,全文. *

Also Published As

Publication number Publication date
CN111539197A (zh) 2020-08-14

Similar Documents

Publication Publication Date Title
CN111539197B (zh) 文本匹配方法和装置以及计算机系统和可读存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN109815308B (zh) 意图识别模型的确定及检索意图识别方法、装置
CN108846077B (zh) 问答文本的语义匹配方法、装置、介质及电子设备
CN106951422B (zh) 网页训练的方法和装置、搜索意图识别的方法和装置
KR101754473B1 (ko) 문서를 이미지 기반 컨텐츠로 요약하여 제공하는 방법 및 시스템
US20170193086A1 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN105760363B (zh) 文本文件的词义消歧方法及装置
US20220269939A1 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
US11886515B2 (en) Hierarchical clustering on graphs for taxonomy extraction and applications thereof
CN110717038B (zh) 对象分类方法及装置
CN114077661A (zh) 信息处理装置、信息处理方法和计算机可读介质
CN114997288A (zh) 一种设计资源关联方法
CN113535912B (zh) 基于图卷积网络和注意力机制的文本关联方法及相关设备
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN112926341A (zh) 文本数据处理方法、装置
CN113515589A (zh) 数据推荐方法、装置、设备以及介质
CN110851600A (zh) 基于深度学习的文本数据处理方法及装置
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
CN111507098B (zh) 多义词识别方法、装置、电子设备及计算机可读存储介质
US11822609B2 (en) Prediction of future prominence attributes in data set

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant