CN116029290A - 文本匹配方法、装置、设备、介质及产品 - Google Patents

文本匹配方法、装置、设备、介质及产品 Download PDF

Info

Publication number
CN116029290A
CN116029290A CN202310103238.6A CN202310103238A CN116029290A CN 116029290 A CN116029290 A CN 116029290A CN 202310103238 A CN202310103238 A CN 202310103238A CN 116029290 A CN116029290 A CN 116029290A
Authority
CN
China
Prior art keywords
word
entity
target
identified
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310103238.6A
Other languages
English (en)
Inventor
黄正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202310103238.6A priority Critical patent/CN116029290A/zh
Publication of CN116029290A publication Critical patent/CN116029290A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供了一种文本匹配方法、装置、设备、介质及产品,涉及计算机以及人工智能技术领域,其中方法包括:获取待识别实体和多个参考实体;分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。通过对待识别实体的分词与参考实体的分词进行匹配来确定匹配值,在匹配过程没有上下文信息的情况下,采用上述步骤可以提高匹配准确率。

Description

文本匹配方法、装置、设备、介质及产品
技术领域
本申请涉及计算机以及人工智能技术领域,特别是涉及一种文本匹配方法、装置、设备、介质及产品。
背景技术
文本匹配可拆分为多个步骤,第一个步骤是将文本分解为可以由程序比对的子部分,第二个步骤是将这些组分按照某种规则转换为相似度算法的输入,第三个步骤是应用相似度算法,计算得出匹配程度,进而判断两段文本含义有多相似。
在对文本的相似度进行判断时,可以基于深度学习,使用对大量上下文信息的编码来表示中间的文本,但是对于低频词汇,训练数据不足会导致词嵌入表示效果不佳。训练样本中未出现过的词语,预训练模型难以生成有意义的词嵌入。对于同类型词汇(如同为公司且业务相同),基于挖去填充进行无监督训练的词嵌入往往难以做出有效区分,无法拉开不同实体在样本空间中的距离。
在输入样本不具备句子结构的情况下,无法大规模生成自然语言供微调训练。也就是说,目前的文本相似度判定方法,匹配准确度较低。
发明内容
本申请提供的一种文本匹配方法、装置、设备、介质及产品,能够提高文本匹配的准确性。
第一方面,本申请实施例提供一种文本匹配方法,方法包括:
获取待识别实体和多个参考实体;
分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;
依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;
将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。
第二方面,本申请提供一种文本匹配装置,该装置包括:
第一获取模块,用于获取待识别实体和多个参考实体;
第二获取模块,用于分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;
匹配模块,用于依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;
判定模块,用于将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:处理器以及存储有计算机程序指令的存储器;
处理器执行计算机程序指令时实现如第一方面中任意一个实施例中的文本匹配方法。
第四方面,本申请实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面中任意一个实施例中的文本匹配方法。
第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品中的指令由电子设备的处理器执行时,使得电子设备执行实现如上述第一方面中任意一个实施例中的文本匹配方法。
在本申请实施例的文本匹配方法、装置、设备、介质及产品,其中,方法包括:获取待识别实体和多个参考实体;分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。通过对待识别实体的分词与参考实体的分词进行匹配来确定匹配值,在匹配过程没有上下文信息的情况下,采用上述步骤可以提高匹配准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的文本匹配方法的流程示意图;
图2是本申请实施例提供的一种文本匹配装置的结构示意图;
图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
为了解决现有技术问题,本申请实施例提供了一种文本匹配方法、装置、设备、介质及产品。下面首先对本申请实施例所提供的文本匹配方法进行介绍。
图1示出了本申请一个实施例提供的文本匹配方法的流程示意图。如图1所示,该方法具体可以包括如下步骤:
步骤101,获取待识别实体和多个参考实体。
可从待识别文本中获取待识别实体,待识别文本可以是互联网文本。待识别实体可以是公司名称、商店名称、商品名称、地址名称等等实体名称。参考实体可以理解为正确的实体名称,举例来说,若待识别实体是公司名称,则参考实体为正确的公司名称,具体可以是公开的工商信息库中的公司名称。
由于待识别文本中的待识别实体可能采用了简称,或者相类似的名称,使得待识别实体与正确的实体名称不相同,而本申请提供的方法可以将待识别实体与多个参考实体进行匹配,确定出与待识别实体最匹配的参考实体。
步骤102,分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词。
进行分词处理时,可以是进行全分词处理,全分词处理可以将实体中的所有可能词汇截取出,与常规分词方法不同,全分词不仅会输出可能性最高的断句方式,也会获得其他断句方式的分词结果,除此之外,这种分词方法不会进行去重,对于多次出现的相同分词都会保留。
对待识别实体,以及每个参考实体分别进行分词处理,获得待识别实体的多个第一目标分词,以及参考实体对应的多个第二目标分词,每个参考实体进行全分词处理后,会获得对应的多个第二目标分词。
步骤103,依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值。
例如,若参考实体有N个,N为大于1的正整数,将待识别实体的多个第一目标分词与第一个参考实体的多个第二目标分词进行匹配,获得一个匹配值;将待识别实体的多个第一目标分词与第二个参考实体的多个第二目标分词进行匹配,获得一个匹配值,依次类推,获得N个匹配值,也就是说,待识别实体与一个参考实体之间对应有一个匹配值。
步骤104,将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。
本实施例中,获取待识别实体和多个参考实体;分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。通过上述步骤,通过对待识别实体的分词与参考实体的分词进行匹配来确定匹配值,在匹配过程没有上下文信息的情况下,采用上述步骤可以提高匹配准确率。另外,由于不需要考虑上下文信息,可以简化匹配过程的输入信息,提高匹配效率。
在本申请一种实施例中,所述分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词,包括:
对所述待识别实体进行全分词处理,获得多个第一中间分词;
对所述参考实体进行全分词处理,获得所述参考实体对应的多个第二中间分词;
对所述多个第一中间分词进行增删处理,获得所述多个第一目标分词;
对所述多个第二中间分词进行增删处理,获得所述多个第二目标分词。
具体地,全分词处理可以将实体中的所有可能词汇截取出,与常规分词方法不同,全分词不仅会输出可能性最高的断句方式,也会获得其他断句方式的分词结果,除此之外,这种分词方法不会进行去重,对于多次出现的相同分词都会保留。
对待识别实体进行全分词处理,获得多个第一中间分词,对多个第一中间分词进行增删处理,获得多个第一目标分词,例如,增删处理可以是删除一个或多个第一中间分词,增加新的分词等等,举例来说,对于某些干扰词、无用词进行删除,干扰词或无用词可以预先设置。
对每个参考实体进行全分词处理,获得每个参考实体对应的多个第二中间分词,并对多个第二中间分词进行增删处理,获得每个参考实体对应的多个第二目标分词,例如,增删处理可以是删除一个或多个第二中间分词,增加新的分词等等,举例来说,对于某些干扰词、无用词进行删除,干扰词或无用词可以预先设置。
例如,若待识别实体是公司名称,参考实体是工商信息中公开的名称,表示行政区划或公司架构的词语往往会干扰匹配,可以预设停用词表,停用词表中包括行政区划或公司架构的词语,参照停用词表可以将停用词表中包括的词语删去,减少后续匹配干扰,从而提高后续匹配的精度。
需要说明的是,为增强可解释性,可采用全分词引擎对待识别实体和参考实体进行全分词处理,可以为全分词引擎设置一个用户词典,用户词典中的词可以预先设置,全分词引擎在进行全分词处理时,可以根据用户词典中的词进行分词,从而提高用户词典中的指定词汇被选出的概率,在可能产生歧义的实体中仍然能够切分出关键信息。
本实施例中,可以对待识别实体进行全分词处理,获得多个第一中间分词,并对多个第一中间分词进行增删处理,获得多个第一目标分词,对参考实体也是采用相同的处理方式,获得每个参考实体对应的第二目标分词。通过上述步骤对多个第一中间分词和多个第二中间分词进行增删处理,可以提高后续匹配的精度。
在本申请一种实施例中,所述对所述多个第一中间分词进行增删处理,获得所述多个第一目标分词,包括:
若所述多个第一中间分词包括第一分词,且所述第一分词是预设的停用词表中的词,则将所述多个第一中间分词中的所述第一分词删除,获得所述多个第一目标分词;
所述对所述多个第二中间分词进行增删处理,获得所述多个第二目标分词,包括:
若所述多个第二中间分词包括第二分词,且所述第二分词是所述停用词表中的词,则将所述多个第二中间分词中的所述第二分词删除,获得所述多个第二目标分词。
具体地,在停用词表中添加多个词,例如,表示行政区划或公司架构的词语等等,若多个第一中间分词包括的第一分词是停用词表中的词,则将第一分词删除,剩余的第二中间分词构成多个第一目标分词,即,剩余的每个第二中间分词均为一个第一目标分词。第一分词是多个第一中间分词中的任意一个中间分词。
同样地,对每个参考实体对应的多个第二中间分词也采用上述相同的处理方式,若多个第二中间分词包括的第二分词是停用词表中的词,则将第二分词删除,剩余的第二中间分词构成多个第二目标分词,即,剩余的每个第二中间分词均为一个第二目标分词。第二分词是多个第二中间分词中的任意一个中间分词
通过上述步骤,可以对待识别实体对应的多个第一中间分词,以及参考实体对应的多个第二中间分词进行筛选,以删除停用词表中的词语,以减少后续匹配干扰,提高匹配精度。上述方式中,用户只需要维护停用词表,既可调整需要删除的词语,实现简单,维护效率高。
在本申请又一种实施例中,所述对所述多个第一中间分词进行增删处理,获得所述多个第一目标分词,包括:
若所述多个第一中间分词包括第三分词,且所述第三分词是简称词,则将所述第三分词对应的全称词添加到所述多个第一中间分词中,获得所述第一目标分词;
或者,若所述多个第一中间分词包括第三分词,且所述第三分词是全称词,则将所述第三分词对应的简称词添加到所述多个第一中间分词中,获得所述第一目标分词;
所述对所述多个第二中间分词进行增删处理,获得所述多个第二目标分词,包括:
若所述多个第二中间分词包括第四分词,且所述第四分词是简称词,则将所述第四分词对应的全称词添加到所述多个第二中间分词中,获得所述第二目标分词;
或者,若所述多个第二中间分词包括第四分词,且所述第四分词是全称词,则将所述第四分词对应的简称词添加到所述多个第二中间分词中,获得所述第二目标分词。
具体地,可以预先设置一个简称词和全称词的对应表,简称词可以是省份或直辖市的简称,例如湖南省的简称为湘,重庆市的简称为渝,全称词可以是省份的全称,例如,湘的全称为湖南或湖南省,渝的全称为重庆或重庆市
通过查找该对应表,若第三分词为简称词,则将第三分词对应的全称词添加到多个第一中间分词中;若第三分词为全称词,则将第三分词对应的简称词添加到多个第一中间分词中。
通过查找该对应表,若第四分词为简称词,则将第四分词对应的全称词添加到多个第二中间分词中;若第四分词为全称词,则将第四分词对应的简称词添加到多个第二中间分词中。
本实施例中,可以基于多个第一中间分词,添加简称词或全称词,同样地,基于多个第二中间分词,添加简称词或全称词,以提高后续匹配的准确性。
需要说明的是,上文中记载的基于停用词表进行词语删减的步骤,与增加全称词或简称词的步骤之间的顺序并无限定,可以先基于停用词表进行词语删减,然后进行全称词或简称词添加的步骤,也可以先进行全称词或简称词添加的步骤,再基于停用词表进行词语删减。
在本申请一种实施例中,所述依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值,包括:
依次将所述多个第一目标分词中的分词与所述参考实体的多个第二目标分词中的分词进行匹配,若所述多个第一目标分词中的第五分词与所述参考实体的多个第二目标分词中的第六分词相同,则增加所述待识别实体和所述参考实体之间的匹配值。
例如,若参考实体有N个,将待识别实体的多个第一目标分词与参考实体1的多个第二目标分词进行匹配,若多个第一目标分词中的第五分词与参考实体1对应的多个第二目标分词中的第六分词相同,即第五分词和第六分词为相同分词,则增加待识别实体和参考实体1之间的匹配值,例如,增加的匹配值为1。
需要说得是,由于对待识别实体和参考实体进行全分词处理时,未进行去重处理,这可能会造成多个第一目标分词中有相同的分词,多个第二目标分词中有相同的分词,例如,若多个第一目标分词中有2个“公司”,为便于区分描述,这2个“公司”分别称为公司1和公司2,参考实体1的多个第二目标分词中有1个“公司”,为便于区分描述,这个“公司”分别称为公司3,则在进行匹配时,公司1先与多个第二目标分词进行匹配,公司1与公司3所指代的分词都是“公司”,匹配成功,增加匹配值1;公司2与多个第二目标分词进行匹配时,由于公司3已经参与过匹配,即使公司2和公司3所指代的分词都是“公司”,但是匹配失败,不增加匹配值。
同样地,采用上述过程,将待识别实体的多个第一目标分词与参考实体2的多个第二目标分词进行匹配,获得匹配值,以此类推,直到待识别实体与每个参考实体匹配完成。
本步骤也可以采用图的最大流算法来确定匹配值,可以将待识别实体的多个第一目标分词和参考实体的多个第二目标分词抽象为一张二分图(Bipartite Graph),其节点为每个目标分词,若第一目标分词与第二目标分词相同,则这两者之间有连线连接。根据连线的数量来确定匹配值,例如,连线为3,匹配值为3,连线为4,匹配值为4。
本实施中,依次将所述多个第一目标分词中的分词与所述参考实体的多个第二目标分词中的分词进行匹配,若所述多个第一目标分词中的第五分词与所述参考实体的多个第二目标分词中的第六分词相同,则增加所述待识别实体和所述参考实体之间的匹配值,通过上述步骤来确定匹配值,实现过程简单,不需要参考上下文信息,可以在保证匹配精度的同时,提高计算速度。
以下以待识别实体是公司名称为例进行如下举例说明。
第一步,使用全分词的方式将待识别名称和目标名称均转换为词表。
假定有如下情形,公司现已部署有一个实体识别模型,可以从互联网文本中提取出实体名称,称之为待识别名称,也可以称为待识别实体。
除此之外,还有一个全名库,用于记录所有需要关心的实体的本体,即参考实体,参考实体为公开的工商信息中的名称,多个公司的工商信息中的名称可以组成一个全名库。
对于全名库中的每个名称和待识别名称,应用全分词方法将名称中的所有可能词汇截出,作为该名称的初始表达。与常规分词方法不同,全分词不仅会输出可能性最高的断句方式,还会把其他断句方式导致的分词结果也纳入输出。除此之外,这种分词方法还会保留多次出现的相同词汇,不会进行去重。
为增强可解释性,全分词引擎接受一个用户词典,可以提高指定词汇被选出的概率,从而在可能产生歧义的句子里仍然能够切分出关键信息,这在切分实体名称时尤其重要。
第二步,对词表进行增删。
实体名称中,表示行政区划或公司架构的词汇可能会对匹配过程进行干扰,在这一阶段,可以通过维护的停用词表将这些词语删去,从而提高后续匹配的精度。
对于一些常见的非字面简称,如省份及其单字缩写,在这一阶段我们会将匹配到的词汇的简称或全称加入特征,从而提高后续匹配成功的可能性。
停用词表、简称词与全称词的对应表均以纯文本形式维护,易于修改和检查。
第三步,使用图的最大流算法对名称进行匹配。
将待识别名称的词表和全名库中的参考实体的词表合起来抽象为一张二分图(Bipartite Graph),其节点第二步中获得的分词,连线表示两者相同,完全匹配。进一步精简这张图,可以将双方词表的集合置于中间,两侧节点表示分词前的原名称,两侧到中间的连线的流量表示该词在原名称中出现的次数,此时,从左侧源(source)到右侧的哪个汇(sink)流量最大,这两个节点的匹配度就最高。该算法可进一步简化,使用词典(数据结构)和倒排索引的方式实现,在精确匹配的同时保持远高于深度学习的计算效率。
本申请提供的方法在文本匹配这一问题上实现了比现有的开源技术方案更高的准确度,填补了基于知识图谱或深度学习的名称匹配算法在该任务上不适用或精度不佳留出的空白。由于仅需名称,即待识别实体作为输入,该方法具备良好的可用性,无需额外训练即可使用,适合作为实体识别模型的下游模型。用于限定匹配项的搜索范围,提升查询速度的工商信息是公开的,因此该技术在该领域具备极高的可用性。
本申请提供的文本匹配方法,具有如下有益效果:
A、仅需名称作为输入,无需包括上下文;
该限制源于实际需求,实体识别任务的输出中仅包含名称,将上下文纳入训练和计算开销极高,与任务效益不相称。该发明介绍的方法在此限制条件下能得到85%以上的匹配精度,能有效节省人工,符合生产需求。
B、使用全分词从待识别名称中获得初步特征;
相较于n-grams,使用分词避免了n-grams产生大量无意义词汇的问题。
相较于使用标准分词,使用全分词大大提高了准确率,实际测试表明,将句子中所有可能的词汇用于匹配比使用不交叠的词汇进行匹配,准确度会高出5%左右,消耗的时间则并不会显著增加。
C、使用分词词典,停用词和简称表对匹配过程进行调整;
相较于黑箱式的深度学习模型(如word2vec),这些配置文件的加入大大提高了人工干预匹配结果的能力,为匹配结果提供了可解释性和不断提升匹配精度的可能。
D、使用源于图最大流算法的思想计算名称间的相似度;
相比于L2范数等指标,图的最大流可以被直观地可视化,更加易于理解。在计算中,词语出现的频次这一信息被保留作为输入,符合自然语言的规律,实际测试中与不保留相比有1.2%的提升。
图2示出了本申请一个实施例提供的文本匹配装置的结构示意图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图2,文本匹配装置200可以包括:
第一获取模块201,用于获取待识别实体和多个参考实体;
第二获取模块202,用于分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;
匹配模块203,用于依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;
判定模块204,用于将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。
可选地,所述第二获取模块202,包括:
第一获取子模块,用于对所述待识别实体进行全分词处理,获得多个第一中间分词;
第二获取子模块,用于对所述参考实体进行全分词处理,获得所述参考实体对应的多个第二中间分词;
第三获取子模块,用于对所述多个第一中间分词进行增删处理,获得所述多个第一目标分词;
第四获取子模块,用于对所述多个第二中间分词进行增删处理,获得所述多个第二目标分词。
可选地,所述第三获取子模块,具体用于:
若所述多个第一中间分词包括第一分词,且所述第一分词是预设的停用词表中的词,则将所述多个第一中间分词中的所述第一分词删除,获得所述多个第一目标分词;
所述第四获取子模块,具体用于:
若所述多个第二中间分词包括第二分词,且所述第二分词是所述停用词表中的词,则将所述多个第二中间分词中的所述第二分词删除,获得所述多个第二目标分词。
可选地,所述第三获取子模块,具体用于:
若所述多个第一中间分词包括第三分词,且所述第三分词是简称词,则将所述第三分词对应的全称词添加到所述多个第一中间分词中,获得所述第一目标分词;
或者,若所述多个第一中间分词包括第三分词,且所述第三分词是全称词,则将所述第三分词对应的简称词添加到所述多个第一中间分词中,获得所述第一目标分词;
所述第四获取子模块,具体用于:
若所述多个第二中间分词包括第四分词,且所述第四分词是简称词,则将所述第四分词对应的全称词添加到所述多个第二中间分词中,获得所述第二目标分词;
或者,若所述多个第二中间分词包括第四分词,且所述第四分词是全称词,则将所述第四分词对应的简称词添加到所述多个第二中间分词中,获得所述第二目标分词。
可选地,匹配模块203,具体用于:
依次将所述多个第一目标分词中的分词与所述参考实体的多个第二目标分词中的分词进行匹配,若所述多个第一目标分词中的第五分词与所述参考实体的多个第二目标分词中的第六分词相同,则增加所述待识别实体和所述参考实体之间的匹配值。
本申请实施例提供的文本匹配装置200能够实现前述方法实施例实现的各个过程,为避免重复,这里不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图3示出了本申请实施例提供的电子设备的硬件结构示意图。
设备可以包括处理器301以及存储有程序指令的存储器302。
处理器301执行程序时实现上述任意各个方法实施例中的步骤。
示例性的,程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器302中,并由处理器301执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列程序指令段,该指令段用于描述程序在设备中的执行过程。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器301通过读取并执行存储器302中存储的程序指令,以实现上述实施例中的任意一种方法。
在一个示例中,电子设备还可包括通信接口303和总线310。其中,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有程序指令;该程序指令被处理器执行时实现上述实施例中的任意一种方法。
本申请实施例另提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网格被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置(系统)和程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种文本匹配方法,其特征在于,所述方法包括:
获取待识别实体和多个参考实体;
分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;
依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;
将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。
2.根据权利要求1所述的方法,其特征在于,所述分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词,包括:
对所述待识别实体进行全分词处理,获得多个第一中间分词;
对所述参考实体进行全分词处理,获得所述参考实体对应的多个第二中间分词;
对所述多个第一中间分词进行增删处理,获得所述多个第一目标分词;
对所述多个第二中间分词进行增删处理,获得所述多个第二目标分词。
3.根据权利要求2所述的方法,其特征在于,所述对所述多个第一中间分词进行增删处理,获得所述多个第一目标分词,包括:
若所述多个第一中间分词包括第一分词,且所述第一分词是预设的停用词表中的词,则将所述多个第一中间分词中的所述第一分词删除,获得所述多个第一目标分词;
所述对所述多个第二中间分词进行增删处理,获得所述多个第二目标分词,包括:
若所述多个第二中间分词包括第二分词,且所述第二分词是所述停用词表中的词,则将所述多个第二中间分词中的所述第二分词删除,获得所述多个第二目标分词。
4.根据权利要求2所述的方法,其特征在于,所述对所述多个第一中间分词进行增删处理,获得所述多个第一目标分词,包括:
若所述多个第一中间分词包括第三分词,且所述第三分词是简称词,则将所述第三分词对应的全称词添加到所述多个第一中间分词中,获得所述第一目标分词;
或者,若所述多个第一中间分词包括第三分词,且所述第三分词是全称词,则将所述第三分词对应的简称词添加到所述多个第一中间分词中,获得所述第一目标分词;
所述对所述多个第二中间分词进行增删处理,获得所述多个第二目标分词,包括:
若所述多个第二中间分词包括第四分词,且所述第四分词是简称词,则将所述第四分词对应的全称词添加到所述多个第二中间分词中,获得所述第二目标分词;
或者,若所述多个第二中间分词包括第四分词,且所述第四分词是全称词,则将所述第四分词对应的简称词添加到所述多个第二中间分词中,获得所述第二目标分词。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值,包括:
依次将所述多个第一目标分词中的分词与所述参考实体的多个第二目标分词中的分词进行匹配,若所述多个第一目标分词中的第五分词与所述参考实体的多个第二目标分词中的第六分词相同,则增加所述待识别实体和所述参考实体之间的匹配值。
6.一种文本匹配装置,其特征在于,所述装置包括:
第一获取模块,用于获取待识别实体和多个参考实体;
第二获取模块,用于分别对所述待识别实体和所述多个参考实体进行分词处理,获得所述待识别实体的多个第一目标分词,以及所述参考实体对应的多个第二目标分词;
匹配模块,用于依次对所述多个第一目标分词和所述多个第二目标分词进行匹配,确定所述待识别实体和各所述参考实体之间的匹配值;
判定模块,用于将最大匹配值对应的参考实体,判定为与所述待识别实体匹配的参考实体。
7.根据权利要求6所述的装置,其特征在于,所述第二获取模块,包括:
第一获取子模块,用于对所述待识别实体进行全分词处理,获得多个第一中间分词;
第二获取子模块,用于对所述参考实体进行全分词处理,获得所述参考实体对应的多个第二中间分词;
第三获取子模块,用于对所述多个第一中间分词进行增删处理,获得所述多个第一目标分词;
第四获取子模块,用于对所述多个第二中间分词进行增删处理,获得所述多个第二目标分词。
8.一种电子设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-5中任意一项所述的文本匹配方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-5中任意一项所述的文本匹配方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-5中任意一项所述的文本匹配方法。
CN202310103238.6A 2023-01-29 2023-01-29 文本匹配方法、装置、设备、介质及产品 Pending CN116029290A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310103238.6A CN116029290A (zh) 2023-01-29 2023-01-29 文本匹配方法、装置、设备、介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310103238.6A CN116029290A (zh) 2023-01-29 2023-01-29 文本匹配方法、装置、设备、介质及产品

Publications (1)

Publication Number Publication Date
CN116029290A true CN116029290A (zh) 2023-04-28

Family

ID=86075909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310103238.6A Pending CN116029290A (zh) 2023-01-29 2023-01-29 文本匹配方法、装置、设备、介质及产品

Country Status (1)

Country Link
CN (1) CN116029290A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522911A (zh) * 2023-06-29 2023-08-01 恒生电子股份有限公司 实体对齐方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522911A (zh) * 2023-06-29 2023-08-01 恒生电子股份有限公司 实体对齐方法及装置
CN116522911B (zh) * 2023-06-29 2023-10-03 恒生电子股份有限公司 实体对齐方法及装置

Similar Documents

Publication Publication Date Title
CN112988753B (zh) 一种数据搜索方法和装置
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
CN113986950A (zh) 一种sql语句处理方法、装置、设备及存储介质
CN116029290A (zh) 文本匹配方法、装置、设备、介质及产品
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN115858773A (zh) 适用于长文档的关键词挖掘方法、装置及介质
CN111753029A (zh) 实体关系抽取方法、装置
CN111325033A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN110674635A (zh) 一种用于文本段落划分的方法和装置
CN112528653B (zh) 短文本实体识别方法和系统
CN113987180A (zh) 用于输出信息和处理信息的方法和装置
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质
CN113312903B (zh) 一种5g移动业务产品词库的构建方法及系统
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
CN112541357B (zh) 实体识别方法、装置及智能设备
CN114117031A (zh) 名单筛查方法、装置、设备及计算机存储介质
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN110489127B (zh) 错误代码确定方法、装置、计算机可读存储介质及设备
CN109815996B (zh) 一种基于循环神经网络的场景自适配方法及装置
CN112989814B (zh) 检索图谱构建方法、检索方法、装置、设备及存储介质
CN111552864B (zh) 一种资讯去重的方法、系统、存储介质及电子设备
CN110705287A (zh) 一种用于文本摘要的生成方法和系统
CN115293158B (zh) 基于标签辅助的消歧方法及装置
CN116628315B (zh) 搜索方法、深度学习模型的训练方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination