CN114722821A - 一种文本匹配方法、装置、存储介质及电子设备 - Google Patents
一种文本匹配方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114722821A CN114722821A CN202210282222.1A CN202210282222A CN114722821A CN 114722821 A CN114722821 A CN 114722821A CN 202210282222 A CN202210282222 A CN 202210282222A CN 114722821 A CN114722821 A CN 114722821A
- Authority
- CN
- China
- Prior art keywords
- text
- entity
- target
- candidate
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000002372 labelling Methods 0.000 claims abstract description 95
- 238000012549 training Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010801 machine learning Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 6
- 239000002609 medium Substances 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 102100038612 Calmodulin-regulated spectrin-associated protein 3 Human genes 0.000 description 1
- 101000741294 Homo sapiens Calmodulin-regulated spectrin-associated protein 3 Proteins 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及人工智能,提供了一种文本匹配方法、装置、存储介质及电子设备,所述方法包括:获取目标文本及与所述目标文本进行匹配的候选文本;分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体;基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注;将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果。本发明实施例的方案,通过对待匹配的文本进行实体标注,可引导文本匹配模型重点关注待匹配文本中的实体部分是否具有相似性,大大提高了文本匹配的准确性。
Description
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种文本匹配方法、装置、存储介质及电子设备。
背景技术
文本匹配是自然语言处理(Natural Language Processing,NLP)领域中常见的应用场景,大量的NLP任务都是以文本匹配为出发点,例如,文本检索、机器翻译、对话系统及文本推荐系统等等,其本质都是文本匹配问题。
在传统的文本匹配算法中,主要基于通过余弦相似度、编辑距离等方式计算两文本间的相似度,然后根据相似度大小评价文本间的匹配程度。然而,上述方法对文本匹配的精度较低。
发明内容
本发明实施例提供一种文本匹配方法、装置、存储介质及电子设备,通过对待匹配的文本进行实体标注,可引导文本匹配模型重点关注待匹配文本中的实体部分是否具有相似性,大大提高了文本匹配的准确性。
第一方面,本发明实施例提供了一种文本匹配方法,包括:
获取目标文本及与所述目标文本进行匹配的候选文本;
分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体;
基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注;
将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果;其中,所述文本匹配模型为基于实体标注后的文本样本对训练集生成的机器学习模型。
第二方面,本发明实施例还提供了一种文本匹配装置,包括:
文本获取模块,用于获取目标文本及与所述目标文本进行匹配的候选文本;
实体确定模块,用于分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体;
文本标注模块,用于基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注;
匹配结果确定模块,用于将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果;其中,所述文本匹配模型为基于实体标注后的文本样本对训练集生成的机器学习模型。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例提供的文本匹配方法。
第四方面,本发明实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明实施例提供的文本匹配方法。
本发明实施例提供的文本匹配方案,获取目标文本及与所述目标文本进行匹配的候选文本;分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体;基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注;将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果;其中,所述文本匹配模型为基于实体标注后的文本样本对训练集生成的机器学习模型。本发明实施例提供的技术方案,通过对待匹配的文本进行实体标注,不仅可以解决基于实体的细粒度判断问题,引导文本匹配模型重点关注待匹配文本中的实体部分是否具有相似性,大大提高了文本匹配的准确性,一方面可以增强文本匹配模型对实体的判断效果;另一方面,通过引入实体标注,在遇到文本匹配模型未见过的实体类型时,也可以通过其附带的实体标签来辅助文本匹配模型识别,提高模型对的处理能力。
附图说明
图1是本发明一实施例提供的一种文本匹配方法的流程图;
图2是本发明一实施例提供的将目标向量输入至文本匹配模型的结构示意图;
图3为本发明另一实施例提供的文本匹配方法的流程图;
图4是本发明另一实施例中的一种文本匹配装置的结构示意图;
图5是本发明另一实施例中的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的实施例。虽然附图中显示了本发明的某些实施例,然而应当理解的是,本发明可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是,本发明的附图及实施例仅用于示例性作用,并非用于限制本发明的保护范围。
应当理解,本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
其中,本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
图1为本发明一实施例提供的一种文本匹配方法的流程图,本发明实施例可适用于对文本进行匹配的情况,该方法可以由文本匹配装置来执行,该装置可由硬件和/或软件组成,并一般可集成在电子设备中。如图1所示,该方法具体包括如下步骤:
步骤110,获取目标文本及与所述目标文本进行匹配的候选文本。
其中,目标文本可以是需要进行文本匹配的文本数据,目标文本中包括若干个由多个字符组成的词按照特定语义顺序构成的一个句子或多个句子的组合。目标文本可以为中文类型的文本,也可以为英文类型的文本,还可以为中英文结合类型的文本。在不同的应用场景下,目标文本的具体内容不同,如对于对话系统应用场景下,目标文本可以为用户输入的问题或对话内容;又如,对于机器翻译应用场景下,目标文本可以为待翻译的文本内容。候选文本可以理解为与目标文本进行文本匹配的待匹配文本。其中,候选文本可以为与目标文本对应的文本数据库中或待匹配文本集中的任意一个待匹配文本。
在本发明实施例中,可以直接接收用户输入的目标文本及与目标文本进行匹配的候选文本,也可以从其他终端设备中加载目标文本及与目标文本进行匹配的候选文本,还可以从本地存储的文本数据库中,读取目标文本及与目标文本进行匹配的候选文本。需要说明的是,本发明实施例对目标文本及与目标文本进行匹配的候选文本的获取方式不做限定。
步骤120,分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体。
其中,目标文本中包含的目标实体可以为一个也可以为多个,候选文本中的候选实体可以为一个也可以为多个,且目标实体的数量与候选实体的数量可以相同,也可以不同。另外,目标实体的类别与候选实体的类别可以相同,也可以不同。例如,目标实体与候选实体可以为人名、地名、银行、医院、学校、时间及疾病等类型中的任意一种。
在本发明实施例中,目标文本中包含的目标实体及候选文本中包含的候选实体的确定方式可以包括:分别对目标实体及候选实体进行实体识别和实体筛选,确定目标文本中包含的目标实体及候选文本中包含的候选实体。例如,将目标文本输入至预先训练的实体识别模型中,根据实体识别模型的输出结果,确定目标文本中包含的实体,并将该实体作为目标实体;同样的,将候选文本输入至预先训练的实体识别模型中,根据实体识别模型的输出结果,确定候选文本中包含的实体,并将该实体作为候选实体。示例性的,还可以根据用户对目标文本和候选文本的实体标注结果,确定目标文本中包含的目标实体及候选文本中包含的候选实体。需要说明的是,本发明实施例对目标实体及候选实体的确定方式不做限定。
示例性的,目标文本可以为“苹果手机怎么设置来电自动接听”,候选文本可以为“三星手机怎么自动接听”,则目标文本中的目标实体为“苹果”,候选文本中的候选实体为“三星”。
步骤130,基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注。
在本发明实施例中,基于目标实体对目标文本进行标注,也即在目标文本中标注出目标实体;基于候选实体对候选文本进行标注,也即在候选文本中标注出候选实体。其中,对于不同的实体类型,可以用不同的标识符对目标文本及候选文本中的实体进行标注。
可选的,在基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注之前,还包括:分别确定所述目标实体的第一类型及所述候选实体的第二类型;基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注,包括:在所述目标文本中所述目标实体前后相邻位置,分别插入与所述第一类型对应的起始实体元素向量及终止实体元素向量;在所述候选文本中所述候选实体前后相邻位置,分别插入与所述第二类型对应的起始实体元素向量及终止实体元素向量。这样设置的好处在于,不仅可以准确对目标文本及候选文本中所包含的实体进行标注,还可以准确、快速确定实体在目标文本及候选文本中所处的位置信息。
在本发明实施例中,在确定出目标实体和候选实体后,可分别对目标实体及候选实体进行实体类型识别,确定目标实体所属的类型及候选实体所属的类型。可选的,还可以根据用户输入的类型确定指令,确定目标实体所属的类型及候选实体所属的类型。为了方便描述,将目标实体所属的类型称为第一类型,将候选实体所属的类型称为第二类型。
在目标文本中目标实体前后相邻位置,分别插入与第一类型对应的起始实体元素向量及终止实体元素向量,也即在目标文本中目标实体前相邻位置处插入与目标实体所属类型对应的起始实体元素向量(一个特殊元素向量),用该起始实体元素向量表征目标实体在目标文本中的起始位置;在目标文本中目标实体后向量位置处插入与目标实体所属类型对应的终止实体元素向量(另一个特殊元素向量),用该终止实体元素向量表征目标实体在目标文本中的终止位置,从而实现对目标文本中目标实体的标注。在候选文本中候选实体前后相邻位置,分别插入与第二类型对应的起始实体元素向量及终止实体元素向量,也即在候选文本中候选实体前相邻位置处插入与候选实体所属类型对应的起始实体元素向量,用该起始实体元素向量表征候选实体在候选文本中的起始位置;在候选文本中候选实体后向量位置处插入与候选实体所属类型对应的终止实体元素向量,用该终止实体元素向量表征候选实体在候选文本中的终止位置,从而实现对候选文本中候选实体的标注。
示例性的,目标实体或候选实体所属的实体类型为医院,则可用标识符[nth]表征该实体类型对应的起始实体元素向量,用标识符[/nth]表征该实体类型对应的终止实体元素向量;目标实体或候选实体所属的实体类型为人名,则可用标识符[nr]表征该实体类型对应的起始实体元素向量,用标识符[/nr]表征该实体类型对应的终止实体元素向量;目标实体或候选实体所属的实体类型为地名,则可用标识符[ns]表征该实体类型对应的起始实体元素向量,用标识符[/ns]表征该实体类型对应的终止实体元素向量;目标实体或候选实体所属的实体类型为学校,则可用标识符[ntu]表征该实体类型对应的起始实体元素向量,用标识符[/ntu]表征该实体类型对应的终止实体元素向量;目标实体或候选实体所属的实体类型为公司,则可用标识符[ntc]表征该实体类型对应的起始实体元素向量,用标识符[/ntc]表征该实体类型对应的终止实体元素向量。例如,目标文本“苹果手机怎么设置来电自动接听”中的目标实体“苹果”所述实体类型为公司,候选文本“三星手机怎么自动接听”中的候选实体“三星”所属实体类型也为公司,则基于目标实体对目标文本标注后的结果可以表示为:“<ntc>苹果</ntc>手机怎么设置来电自动接听”,基于候选实体对候选文本标注后的结果可以表示为:“<ntc>三星</ntc>手机怎么自动接听”。
需要说明的是,本发明实施例对基于目标实体对目标文本进行标注及基于候选实体对候选文本进行标注的方式不做限定,还可以采用其他方式进行标注。
步骤140,将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果;其中,所述文本匹配模型为基于实体标注后的文本样本对训练集生成的机器学习模型。
其中,预先训练的文本匹配模型可以理解为能够快速确定文本匹配结果的机器学习模型。文本匹配模型可以为卷积神经网络模型,也可以为Bert模型、NEZHA模型或Ernie模型,需要说明的是,本发明实施例对文本匹配模型的模型类型不做限定。
示例性的,获取文本样本对训练集,其中,文本样本对训练集中包括第一文本样本及与第一文本样本进行匹配的第二文样本。分别确定第一文本样本中包含的第一实体及第二文本样本中包含的第二实体样本;分别基于第一实体对第一文本样本进行实体标注,并基于第二实体对第二文本样本进行实体标注。确定第一文本样本与第二文本样本间的匹配结果,基于该匹配结果对实体标注后的文本样本对训练集进行匹配结果标记,生成目标训练样本集。然后基于目标训练样本集对预设机器学习模型进行训练,生成文本匹配模型。
在本发明实施例中,将实体标注后的目标文本及实体标注后的候选文本同时输入至文本匹配模型中,使文本匹配模型对目标文本及候选文本进行分析,确定目标文本与候选文本的文本匹配结果。其中,文本匹配模型对目标文本及候选文本进行分析的过程中,可重点关注目标文本中的目标实体与候选文本中的候选实体,如目标实体在目标文本中的位置信息及目标实体的类型,以及候选实体在候选文本中的位置信息及候选实体的类型,从而实现对目标文本与候选文本的文本匹配结果的精调,得到准确的文本匹配结果。在本发明实施例中,目标文本与候选文本的匹配结果可以以两者的相似度值的方式来体现,其中,相似度值越大,表示目标文本与候选文本越匹配,两者差别越小,反之,相似度值越小,表示目标文本与候选文本越不匹配,两者差别越大。
本发明实施例提供的文本匹配方法,获取目标文本及与所述目标文本进行匹配的候选文本;分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体;基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注;将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果。本发明实施例提供的技术方案,通过对待匹配的文本进行实体标注,不仅可以解决基于实体的细粒度判断问题,引导文本匹配模型重点关注待匹配文本中的实体部分是否具有相似性,大大提高了文本匹配的准确性,一方面可以增强文本匹配模型对实体的判断效果;另一方面,通过引入实体标注,在遇到文本匹配模型未见过的实体类型时,也可以通过其附带的实体标签来辅助文本匹配模型识别,提高模型对的处理能力。
在一些实施例中,所述文本匹配模型包括Bert模型;将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,包括:将实体标注后的目标文本及实体标注后的候选文本进行拼接,生成拼接文本;计算所述拼接文本中每个字的词向量、分段向量及位置向量的向量和,并将所述向量和作为目标向量;将所述目标向量输入至所述预先训练的文本匹配模型中。
在本发明实施例中,实体标注后的目标文本及实体标注后的候选文本进行拼接,生成拼接文本,可以理解的是,拼接文本中同时包含了带实体标注的目标文本与候选文本。可选的,将实体标注后的目标文本及实体标注后的候选文本进行拼接,生成拼接文本,包括:在第一个文本前加入起始标识符,在所述第一个文本结尾处加入结尾标识符;在所述结尾标识符后接入第二个文本,并在所述第二个文本结尾处加入所述结尾标识符,生成拼接文本;其中,所述第一个文本为实体标注后的目标文本或实体标注后的候选文本;所述第二个文本为实体标注后的目标文本及实体标注后的候选文本中除所述第一个文本外的文本。
在本发明实施例中,在对实体标注后的目标文本与实体标注后的候选文本的拼接顺序不做限定。示例性的,可以将实体标注后的目标文本作为第一个文本(处于拼接文本中的在前位置),将实体标注后的候选文本作为第二个文本(处于拼接文本中的在后位置)进行拼接,生成拼接文本。也可以将实体标注后的候选文本作为第一个文本(处于拼接文本中的在前位置),将实体标注后的目标文本作为第二个文本(处于拼接文本中的在后位置)进行拼接,生成拼接文本。以将实体标注后的目标文本作为第一个文本,将实体标注后的候选文本作为第二个文本为例,进行拼接,则在实体标注后的目标文本前插入起始标识符,如起始标识符可以为[CLS],在实体标注后的目标文本结尾处插入结尾标识符,如结尾标识符可为[SEP],然后再在实体标注后的目标文本的结尾标识符后接入实体标注的候选文本,并在实体标注的候选文本的结尾处再插入结尾标识符,从而生成拼接文本。示例性的,按照上述拼接方式,对实体标注后的目标文本“<ntc>苹果</ntc>手机怎么设置来电自动接听”,及实体标注后的候选文本“<ntc>三星</ntc>手机怎么自动接听”拼接后的结果可以表示为:“[CLS]<ntc>苹果</ntc>手机怎么设置来电自动接听[SEP]<ntc>三星</ntc>手机怎么自动接听[SEP]”。在本发明实施例中,确定拼接文本中每个字的词向量(可表示为Tokenembedding)、分段向量(可表示为segment embedding)及位置向量(position embedding)。其中,拼接文本中每个字的词向量包括起始标识符的词向量、结尾标识符的词向量、目标实体所属实体类型对应的起始实体元素向量及终止实体元素向量、候选实体所属实体类型对应的起始实体元素向量及终止实体元素向量。分段向量用于表征拼接文本中的每个字是属于第一个文本(也即左文本)还是属于第二个文本(也即右文本)。位置向量用于拼接文本中每个字在拼接文本中所处的位置信息,比如把拼接文本分词为50个词,那么就有50个位置,即从位置0到位置49。计算拼接文本中每个字的词向量、分段向量及位置向量的向量和,将该向量和作为目标向量,然后将目标向量输入至预先训练的文本匹配模型中,使文本匹配模型对目标向量进行分析,确定目标文本与候选文本的匹配结果。
示例性的,图2为本发明实施例提供的将目标向量输入至文本匹配模型的结构示意图。
图3为本发明另一实施例提供的文本匹配方法的流程图,如图3所示,该方法包括:
步骤310,获取目标文本及与所述目标文本进行匹配的候选文本。
步骤320,计算所述目标文本及所述候选文本间的相似度。
示例性的,可以基于预设的相似度计算公式,计算目标文本与候选文本间的相似度,还可以基于相似度计算模型,确定目标文本与候选文本间的相似度。其中,预设的相似度计算公式可以包括余弦相似度计算公式、编辑距离相似度计算公式及Jaccard相似度计算公式。需要说明的是,本发明实施例对预设的相似度计算公式不做限定。示例性的,以基于Jaccard相似度计算公式,计算目标文本A“苹果手机怎么设置来电自动接听”与候选文本B“三星手机怎么自动接听”间的相似度为例进行说明。分别对目标文本A“苹果手机怎么设置来电自动接听”进行分字处理,变为{苹,果,手,机,怎,么,设,置,来,电,自,动,接,听};对候选文本B“三星手机怎么自动接听”进行分字处理,变为{三,星,手,机,怎,么,自,动,接,听},则A∩B=|{手,机,怎,么,自,动,接,听}|=8,A∩B=|{苹,果,手,机,怎,么,设,置,来,电,自,动,接,听,三,星}|=16,则目标文本与候选文本间的相似度可表示为
步骤330,判断所述相似度是否大于预设相似度阈值,若是,则执行步骤340,否则,执行步骤390。
步骤340,分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体。
步骤350,基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注。
步骤360,将实体标注后的目标文本及实体标注后的候选文本进行拼接,生成拼接文本。
步骤370,计算所述拼接文本中每个字的词向量、分段向量及位置向量的向量和,并将所述向量和作为目标向量。
步骤380,将所述目标向量输入至所述预先训练的文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果。
步骤390,将所述目标文本及所述候选文本输入至所述文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果。
在本发明实施例中,在实际的文本匹配中,对于细粒度的文本匹配,因为两段文本总体意思相近,只在某个维度上有一些差异,这往往导致模型无法很好的区分这部分差异。例如文本“苹果手机怎么设置来电自动接听”“三星手机怎么自动接听”,对于这类型的文本匹配,可以看出只需要着重体现“苹果”和“三星”的不同就可以,但目前的方法往往只能学到两句话都是指“手机自动接听”,于是判为相似。通过上述实例可以看出,“苹果”和“三星”可以归为不同的公司实体名,于是我们考虑是否可以将实体特征加入精调过程,引导文本匹配模型的重点关注方向。但并不是所有的文本匹配都属于实体类型的差异,如文本相似度较小的文本,对于这类文本,无需通过实体标注的方式,引导文本匹配模型去关注实体。因此,判断目标文本与候选文本间的相似度是否大于预设候选相似度阈值,若是,则确定目标文本中包含的目标实体与候选文本中包含的候选实体,并基于目标实体对目标文本进行标注,基于候选实体对候选文本进行标注,然后将实体标注后的目标文本与候选文本进行拼接,输入至文本匹配模型中。当目标文本与候选文本间的相似度小于预设候选相似度阈值时,则无需确定目标文本与候选文本中的实体,也无需对进行实体标注,可直接将目标文本与候选文本输入至文本匹配模型中,从而确定两者的文本匹配结果。
本发明实施例提供的技术方案,可根据待匹配文本的相似度判断是否需要对待匹配文本进行实体标注,当相似度大于相似度阈值时,通过对待匹配的文本进行实体标注,不仅可以解决基于实体的细粒度判断问题,引导文本匹配模型重点关注待匹配文本中的实体部分是否具有相似性,大大提高了文本匹配的准确性,一方面可以增强文本匹配模型对实体的判断效果;另一方面,通过引入实体标注,在遇到文本匹配模型未见过的实体类型时,也可以通过其附带的实体标签来辅助文本匹配模型识别,提高模型对的处理能力。
图4为本发明另一实施例提供的一种文本匹配装置的结构示意图。如图4所示,该装置包括:文本获取模块410,实体确定模块420,文本标注模块430和匹配结果确定模块440。其中,
文本获取模块410,用于获取目标文本及与所述目标文本进行匹配的候选文本;
实体确定模块420,用于分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体;
文本标注模块430,用于基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注;
匹配结果确定模块440,用于将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果;其中,所述文本匹配模型为基于实体标注后的文本样本对训练集生成的机器学习模型。
本发明实施例提供的文本匹配装置,获取目标文本及与所述目标文本进行匹配的候选文本;分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体;基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注;将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果;其中,所述文本匹配模型为基于实体标注后的文本样本对训练集生成的机器学习模型。本发明实施例提供的技术方案,通过对待匹配的文本进行实体标注,不仅可以解决基于实体的细粒度判断问题,引导文本匹配模型重点关注待匹配文本中的实体部分是否具有相似性,大大提高了文本匹配的准确性,一方面可以增强文本匹配模型对实体的判断效果;另一方面,通过引入实体标注,在遇到文本匹配模型未见过的实体类型时,也可以通过其附带的实体标签来辅助文本匹配模型识别,提高模型对的处理能力。
可选的,所述装置,还包括:
实体类型确定模块,用于在基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注之前,分别确定所述目标实体的第一类型及所述候选实体的第二类型;
所述文本标注模块,用于:
在所述目标文本中所述目标实体前后相邻位置,分别插入与所述第一类型对应的起始实体元素向量及终止实体元素向量;
在所述候选文本中所述候选实体前后相邻位置,分别插入与所述第二类型对应的起始实体元素向量及终止实体元素向量。
可选的,所述文本匹配模型包括Bert模型;
所述匹配结果确定模块,包括:
文本拼接单元,用于将实体标注后的目标文本及实体标注后的候选文本进行拼接,生成拼接文本;
目标向量计算单元,用于计算所述拼接文本中每个字的词向量、分段向量及位置向量的向量和,并将所述向量和作为目标向量;
目标向量输入单元,用于将所述目标向量输入至所述预先训练的文本匹配模型中。
可选的,所述文本拼接单元,用于:
在第一个文本前加入起始标识符,在所述第一个文本结尾处加入结尾标识符;在所述结尾标识符后接入第二个文本,并在所述第二个文本结尾处加入所述结尾标识符,生成拼接文本;其中,所述第一个文本为实体标注后的目标文本或实体标注后的候选文本;所述第二个文本为实体标注后的目标文本及实体标注后的候选文本中除所述第一个文本外的文本。
可选的,所述装置还包括:
相似度计算模块,用于在分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体之前,计算所述目标文本及所述候选文本间的相似度;
相似度判断模块,用于判断所述相似度是否大于预设相似度阈值;
所述实体确定模块,用于:
当所述相似度大于预设相似度阈值时,分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体。
可选的,所述相似度计算模块,用于:
基于预设的相似度计算公式计算所述目标文本及所述候选文本间的相似度。
可选的,所述装置还包括:
文本输入模块,用于当所述相似度小于所述预设相似度阈值时,将所述目标文本及所述候选文本输入至所述文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果。
上述装置可执行本发明前述所有实施例所提供的方法,具备执行上述方法相应的功能模块和有益效果。未在本发明实施例中详尽描述的技术细节,可参见本发明前述所有实施例所提供的方法。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例提供的文本匹配方法。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的文本匹配操作,还可以执行本发明任意实施例所提供的文本匹配方法中的相关操作。
本发明实施例提供了一种电子设备,该电子设备中可集成本发明实施例提供的文本匹配装置。图5为本发明实施例提供的一种电子设备的结构框图。电子设备500可以包括:存储器501,处理器502及存储在存储器501上并可在处理器运行的计算机程序,所述处理器502执行所述计算机程序时实现如本发明实施例所述的文本匹配方法。
本发明实施例中提供的电子设备,获取目标文本及与所述目标文本进行匹配的候选文本;分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体;基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注;将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果;其中,所述文本匹配模型为基于实体标注后的文本样本对训练集生成的机器学习模型。本发明实施例提供的技术方案,通过对待匹配的文本进行实体标注,不仅可以解决基于实体的细粒度判断问题,引导文本匹配模型重点关注待匹配文本中的实体部分是否具有相似性,大大提高了文本匹配的准确性,一方面可以增强文本匹配模型对实体的判断效果;另一方面,通过引入实体标注,在遇到文本匹配模型未见过的实体类型时,也可以通过其附带的实体标签来辅助文本匹配模型识别,提高模型对的处理能力。
上述实施例中提供的文本匹配装置、存储介质及电子设备可执行本发明任意实施例所提供的文本匹配方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的文本匹配方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种文本匹配方法,其特征在于,包括:
获取目标文本及与所述目标文本进行匹配的候选文本;
分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体;
基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注;
将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果;其中,所述文本匹配模型为基于实体标注后的文本样本对训练集生成的机器学习模型。
2.根据权利要求1所述的方法,其特征在于,在基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注之前,还包括:
分别确定所述目标实体的第一类型及所述候选实体的第二类型;
基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注,包括:
在所述目标文本中所述目标实体前后相邻位置,分别插入与所述第一类型对应的起始实体元素向量及终止实体元素向量;
在所述候选文本中所述候选实体前后相邻位置,分别插入与所述第二类型对应的起始实体元素向量及终止实体元素向量。
3.根据权利要求1所述的方法,其特征在于,所述文本匹配模型包括Bert模型;
将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,包括:
将实体标注后的目标文本及实体标注后的候选文本进行拼接,生成拼接文本;
计算所述拼接文本中每个字的词向量、分段向量及位置向量的向量和,并将所述向量和作为目标向量;
将所述目标向量输入至所述预先训练的文本匹配模型中。
4.根据权利要求3所述的方法,其特征在于,将实体标注后的目标文本及实体标注后的候选文本进行拼接,生成拼接文本,包括:
在第一个文本前加入起始标识符,在所述第一个文本结尾处加入结尾标识符;在所述结尾标识符后接入第二个文本,并在所述第二个文本结尾处加入所述结尾标识符,生成拼接文本;其中,所述第一个文本为实体标注后的目标文本或实体标注后的候选文本;所述第二个文本为实体标注后的目标文本及实体标注后的候选文本中除所述第一个文本外的文本。
5.根据权利要求1所述的方法,其特征在于,在分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体之前,还包括:
计算所述目标文本及所述候选文本间的相似度;
判断所述相似度是否大于预设相似度阈值;
分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体,包括:
当所述相似度大于预设相似度阈值时,分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体。
6.根据权利要求5所述的方法,其特征在于,计算所述目标文本及所述候选文本间的相似度,包括:
基于预设的相似度计算公式计算所述目标文本及所述候选文本间的相似度。
7.根据权利要求5所述的方法,其特征在于,还包括:
当所述相似度小于所述预设相似度阈值时,将所述目标文本及所述候选文本输入至所述文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果。
8.一种文本匹配装置,其特征在于,包括:
文本获取模块,用于获取目标文本及与所述目标文本进行匹配的候选文本;
实体确定模块,用于分别确定所述目标文本中包含的目标实体及候选文本中包含的候选实体;
文本标注模块,用于基于所述目标实体对所述目标文本进行标注,并基于所述候选实体对所述候选文本进行标注;
匹配结果确定模块,用于将实体标注后的目标文本及实体标注后的候选文本输入至预先训练的文本匹配模型中,根据所述文本匹配模型的输出结果确定所述目标文本及所述候选文本的匹配结果;其中,所述文本匹配模型为基于实体标注后的文本样本对训练集生成的机器学习模型。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现如权利要求1-7中任一所述的文本匹配方法。
10.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-7中任一所述的文本匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210282222.1A CN114722821A (zh) | 2022-03-21 | 2022-03-21 | 一种文本匹配方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210282222.1A CN114722821A (zh) | 2022-03-21 | 2022-03-21 | 一种文本匹配方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114722821A true CN114722821A (zh) | 2022-07-08 |
Family
ID=82239920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210282222.1A Pending CN114722821A (zh) | 2022-03-21 | 2022-03-21 | 一种文本匹配方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114722821A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688140A (zh) * | 2024-02-04 | 2024-03-12 | 深圳竹云科技股份有限公司 | 文档查询方法、装置、计算机设备和存储介质 |
-
2022
- 2022-03-21 CN CN202210282222.1A patent/CN114722821A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117688140A (zh) * | 2024-02-04 | 2024-03-12 | 深圳竹云科技股份有限公司 | 文档查询方法、装置、计算机设备和存储介质 |
CN117688140B (zh) * | 2024-02-04 | 2024-04-30 | 深圳竹云科技股份有限公司 | 文档查询方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507099A (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN110276023B (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN109033305A (zh) | 问题回答方法、设备及计算机可读存储介质 | |
CN111191032B (zh) | 语料扩充方法、装置、计算机设备和存储介质 | |
CN110555206A (zh) | 一种命名实体识别方法、装置、设备及存储介质 | |
CN110427612A (zh) | 基于多语言的实体消歧方法、装置、设备和存储介质 | |
CN110738056B (zh) | 用于生成信息的方法和装置 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN113505786A (zh) | 试题拍照评判方法、装置及电子设备 | |
CN113722441B (zh) | 一种相似文本的生成方法、装置、设备及存储介质 | |
CN114676705B (zh) | 一种对话关系处理方法、计算机及可读存储介质 | |
CN111354354B (zh) | 一种基于语义识别的训练方法、训练装置及终端设备 | |
CN113220854B (zh) | 机器阅读理解的智能对话方法及装置 | |
CN114722821A (zh) | 一种文本匹配方法、装置、存储介质及电子设备 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN111783425B (zh) | 基于句法分析模型的意图识别方法及相关装置 | |
CN117932058A (zh) | 基于文本分析的情绪识别方法、装置及设备 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN116719915A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN113724738B (zh) | 语音处理方法、决策树模型训练方法、装置、设备及存储介质 | |
CN114048753B (zh) | 词义识别模型训练、词义判断方法、装置、设备及介质 | |
CN115730071A (zh) | 电力舆情事件的抽取方法、装置、电子设备及存储介质 | |
CN115169345A (zh) | 文本情感分析模型的训练方法、装置、设备及存储介质 | |
CN110276001B (zh) | 盘点页识别方法、装置、计算设备和介质 | |
CN116432666A (zh) | 一种文本评估方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |