CN113239150A - 文本匹配方法、系统及设备 - Google Patents

文本匹配方法、系统及设备 Download PDF

Info

Publication number
CN113239150A
CN113239150A CN202110535792.2A CN202110535792A CN113239150A CN 113239150 A CN113239150 A CN 113239150A CN 202110535792 A CN202110535792 A CN 202110535792A CN 113239150 A CN113239150 A CN 113239150A
Authority
CN
China
Prior art keywords
text
sentence
topic
matched
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110535792.2A
Other languages
English (en)
Other versions
CN113239150B (zh
Inventor
颜泽龙
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202110535792.2A priority Critical patent/CN113239150B/zh
Publication of CN113239150A publication Critical patent/CN113239150A/zh
Application granted granted Critical
Publication of CN113239150B publication Critical patent/CN113239150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种文本匹配方法、系统及设备,该方法可以通过将待匹配文本和对比文本中的每个句子进行聚类,获得每个句子的主题类别以及每个主题的主题向量,其中,待匹配文本为长文本;将每个主题中待匹配文本的句子与对比文本的句子进行匹配,获得第一匹配特征;将每个主题的主题向量进行匹配,获得第二匹配特征;最后根据第一匹配特征和第二匹配特征,生成所述待匹配文本与所述对比文本的匹配结果。这样,能得到待匹配文本与对比文本基于句子的相似度,进而在长文本进行文本匹配时能考虑句子间的语义结构,提高了长文本进行文本匹配的准确性。

Description

文本匹配方法、系统及设备
技术领域
本申请涉及人工智能领域,尤其涉及一种文本匹配方法、系统及设备。
背景技术
自然语义处理是一种研究人与计算机之间用自然语言进行有效通信的各种理论和方法,为了完成自然语言的处理,需要对自然语言文本与对比文本进行文本匹配,确定两者之间的相似度,进而确定自然语言文本的语义。
但是,传统文本匹配算法是将自然语言文本与对比文本中的词语进行匹配,通过自然语言文本与所述对比文本之间相同词语出现频率等方式等确定自然语言文本所涉及的话题,忽略了自然语言文本句子的语义结构,因此,对于存在语义转折关系等情况的长文本而言,存在文本匹配准确性较低的问题。
发明内容
本申请提供了一种文本匹配方法、系统及设备,该方法可以通过待匹配文本和对比文本的句子进行匹配,其中,待匹配文本为长文本,得到待匹配文本和对比文本的相似度,进而在长文本进行文本匹配时考虑到句子间的语义结构,提高了长文本进行文本匹配的准确性。
目标和其他目标将通过独立权利要求中的特征来达成。进一步的实现方式在从属权利要求、说明书和附图中体现。
第一方面,本申请提供了一种文本匹配方法,该方法包括:对待匹配文本和对比文本进行分词和分句,得到所述待匹配文本和所述对比文本的句子和词语;将待匹配文本和对比文本中的每个句子进行聚类,获得每个句子的主题类别以及每个主题的主题向量,待匹配文本的文本长度大于对比文本的文本长度,每个主题的主题向量包括每个主题下待匹配文本和对比文本的词语;根据所述每个主题中所述待匹配文本的句子以及所述对比文本的句子的相似度,得到第一匹配特征;根据所述每个主题的主题向量之间的相似度,得到第二匹配特征;根据第一匹配特征和所述第二匹配特征,生成待匹配文本与所述对比文本的匹配结果。
第二方面,本申请提供了一种文本匹配系统,该系统包括聚类单元、匹配单元以及生成单元:生成单元用于对待匹配文本和对比文本进行分词和分句,得到所述待匹配文本和所述对比文本的句子和词语;聚类单元用于将待匹配文本和对比文本中的每个句子进行聚类,获得每个句子的主题类别以及每个主题的主题向量,其中,待匹配文本的文本长度大于对比文本的文本长度,每个主题的主题向量包括待匹配文本和对比文本的全部词语;匹配单元用于将每个主题中待匹配文本的句子与对比文本的句子进行匹配,获得第一匹配特征;匹配单元还用于将每个主题的主题向量进行匹配,获得第二匹配特征;生成单元用于根据第一匹配特征和第二匹配特征,生成待匹配文本与对比文本的匹配结果。
第三方面,本申请提供了一种计算机设备,其特征在于,包括:处理器和存储器,所述存储器存储有计算机程序,上述处理器执行上述存储器中的计算机程序以实现执行如第一方面所描述的方法。
第四方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当上述计算机程序在计算机上运行时,使得上述计算机执行如第一方面所描述的方法。
综上所述,本申请实施例提供的文本匹配系统能通过将待匹配文本和对比文本中的每个句子进行匹配,以及将每个主题的主题向量进行匹配,最终得到待匹配文本与对比文本基于句子的相似度。这样,使得待匹配文本为长文本的情况下,与对比文本进行文本匹配,能基于句子间的相似度进行文本匹配,进而不会忽略待匹配文本句子间的语义结构,提高了长文本进行文本匹配的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种文本识别系统的结构示意图;
图2为本申请实施例提供的一种文本匹配方法的流程示意图;
图3为本申请实施例提供的另一种文本匹配方法的流程示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
本申请以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式,除非其上下文中明确地有相反指示。还应当理解,本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。
为了便于理解本申请实施例,首先,对本方案涉及的“自然语言处理”应用场景进行说明。
自然语言处理(Natural Language Processing,NLP)涉及计算机科学领域与人工智能领域。自然语言处理主要研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法,可以应用于机器翻译、舆情监测、话题检测、自动摘要、文本分类、问题回答、文本语义对比、语音识别、垃圾邮件识别等方面。NLP的常见研究领域有:分词,词性标注,命名实体识别,句法分析,语义识别,文本匹配,拼写纠错,词义消歧,音字转换,机器翻译,自动问答。其中,话题检测就需要使用到文本匹配算法,将待匹配文本与对比文本进行文本匹配,通过确定两者的相似度,进而确定待匹配文本是否涉及对比文本的话题。
但是,传统文本匹配方法只关注待匹配文本中的词语,对于存在语义转折关系等情况的长文本而言,长文本中句子与句子之间的关系也是十分重要的,传统文本匹配方法无法考虑到长文本的语义结构,使得长文本的文本匹配准确性较低。
为了解决长文本进行文本匹配时准确性较低的问题,本方案提供了一种文本识别系统100。该系统通过在自然语言处理中,从文本获取装置中获取待匹配文本和对比文本,基于待匹配文本和对比文本的每个句子进行聚类,获得每个句子的主题类别以及每个主题的主题向量,并将每个主题中待匹配文本的句子与对比文本的句子进行匹配,以及将每个主题的主题向量进行匹配,最终得到待匹配文本与对比文本基于句子的匹配结果。本申请对该文本识别系统100中的功能单元的划分不做限定,可以根据需要对该文本识别系统100中的各个单元进行增加、减少或合并。如图1所示,示例性地提供了一种功能模块的划分:文本获取系统110、文本匹配系统120、分类系统130。下面分别介绍每个部分的功能。
文本获取系统110用于获取待匹配文本和对比文本,所述待匹配文本为长文本,该待匹配文本可以来自于翻译软件、邮件识别系统、自动问答系统等。所述对比文本可以为长文本,也可以为短文本,本方案对对比文本的类型不作具体限定,该对比文本来自知识库中具体主题的文本集。文本获取系统110获取到待匹配文本后,将会把待匹配文本发送给文本匹配系统120。
文本匹配系统120用于确定待匹配文本与对比文本的句子的相似度,得到待匹配文本与对比文本的匹配结果,并将待匹配文本与对比文本的匹配结果发送给分类系统130。
分类系统130用于根据匹配结果对待匹配文本进行分类处理。示例性地,获取到待匹配文本、对比文本及其匹配结果后,采用多层感知器(Multi-Layer Perceptrons,MLP)基于匹配结果得到待匹配文本与对比文本的相似度。
文本匹配系统120内部的单元模块也可以有多种划分,各个模块可以是软件模块,也可以是硬件模块,也可以部分是软件模块部分是硬件模块,本申请不对其进行限制。图1为一种示例性的划分方式,如图1所示,文本匹配系统120包括聚类单元10、匹配单元20、生成单元30。下面分别介绍每个功能单元的功能。
聚类单元10用于将待匹配文本和对比文本中每个字符聚类为K个主题,得到所述每个字符的主题分布,再基于每个字符的主题分布得到每个主题的主题向量,并根据所述每个句子中的每个字符的主题分布,得到所述每个句子的主题分布,进而得到所述每个句子的主题类别。
匹配单元20用于将每个主题中待匹配文本的句子与对比文本的句子进行匹配,获得第一匹配特征,以及用于根据每个主题中的句子确定的每个主题的主题向量,将每个主题的主题向量进行匹配,获得第二匹配特征。其中,第一匹配特征是根据每个主题下待匹配文本的句子向量以及对比文本的句子向量的相似度得到的,第二匹配特征是根据每个主题的主题向量之间的相似度得到的。
生成单元30用于对待匹配文本和对比文本进行分词和分句,得到所述待匹配文本和所述对比文本的句子和词语。生成单元30还用于根据第一匹配特征和第二匹配特征,生成所述待匹配文本与所述对比文本的匹配结果,并将该匹配结果发送到分类系统130中,由分类系统130得到待匹配文本与对比文本的相似度。
在一些实施例中,所述生成单元30还用于将待匹配文本表示为第一向量,将对比文本表示第二向量,根据所述第一向量与所述第二向量生成局部特征,并将匹配结果与所述局部特征输出到分类系统中,得到所述待匹配文本与所述对比文本的相似度。
综上所述,本申请实施例提供的文本匹配系统能通过将待匹配文本和对比文本中的每个句子进行聚类,获得每个句子的主题类别以及每个主题的主题向量,并将每个主题中待匹配文本的句子与对比文本的句子进行匹配,以及将每个主题的主题向量进行匹配,最终得到待匹配文本与对比文本基于句子的相似度。这样,使得待匹配文本为长文本的情况下,与对比文本进行文本匹配,能基于句子间的相似度进行文本匹配,进而不会忽略待匹配文本句子间的语义结构,提高了长文本进行文本匹配的准确性。
下面对本申请提供的文本匹配系统120如何确定待匹配文本中与对比文本的相似度,进行详细介绍。如图2所示,本申请实施例提供的文本匹配方法通过将待匹配文本和对比文本中的每个句子进行聚类,获得每个句子的主题类别以及每个主题的主题向量,其中,待匹配文本为长文本;将每个主题中待匹配文本的句子与对比文本的句子分别基于主题分布和编码模型得到的句子向量进行匹配,获得第一匹配特征;将每个主题的主题向量进行匹配,获得第二匹配特征;最后根据第一匹配特征和第二匹配特征,生成所述待匹配文本与所述对比文本的匹配结果。
下面对结合图3介绍为本申请实施例提供的一种文本匹配方法的详细流程。
S310、对待匹配文本和对比文本进行分词和分句,得到待匹配文本和对比文本的句子和词语。
具体地,获取待匹配文本与对比文本,所述待匹配文本为长文本,包括多个句子,所述对比文本可以为长文本,也可以为短文本。将待匹配文本和对比文本进行分句处理,得到待匹配文本和对比文本的每个句子,并对每个句子进行标记,使每个句子具有唯一标识:{U1,U2,…,UZ,V1,V2,…,VW},其中{U1,U2,…,UZ}表示待匹配文本中的句子,{V1,V2,…,VW}表示对比文本中的句子;基于分句结果进行分词处理,得到待匹配文本和对比文本中的词语{A1,A2,…,AX,B1,B2,…,BY},其中,{A1,A2,…,AX}为待匹配文本中的词语,{B1,B2,…,BY}为对比文本中的词语。
在一些实施例中,分词处理之后还包括去除关联词、人称代词等。具体实现中,可以采用jieba分词工具、Hanlp分词器以及LTP分词器等分词工具将待识别文本进行分词,本申请对分词方法不作具体限定。
在另一些实施例中,得到待匹配文本和对比文本的每个词语后,还可以包括赐予去重处理,去除分词结果中重复的词语,减少后续处理的工作量;或者,也可以通过词频-逆文本频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)方法对词语进行筛选,保留更重要的词语。
S320、将待匹配文本和对比文本中的每个句子进行聚类,获得每个句子的主题类别以及每个主题的主题向量。
通过隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型对待匹配文本和对比文本的词语按K个主题进行聚类,其中,K为正整数,得到基于每个词语的主题分布;再根据词语的主题分布得到每个句子的主题分布,其中,每个句子的主题分布是通过将每个句子下的每个词语属于主题k的概率进行求平均值得到的,其中k为小于等于K的正整数;根据每个句子的主题分布,将每个句子划分到概率最大的主题下。
下面对LDA模型对每个词语进行聚类,得到每个词语的主题分布进行详细说明。
利用LDA模型进行聚类的具体步骤如下:确定LDA模型参数,LDA模型参数包括主题分类个数K以及超参数α和β,其中,K的大小决定着主题分类的细粒程度,K个主题中每个主题对应有一个主题编号,α和β为LDA模型的超参数,影响某个词语被某个主题分布选中的概率;将每个词语{A1,A2,…,Ax,B1,B2,...,BY}进行初始主题分配;然后利用吉布斯采样(Gibbs Sampling,GS)公式对每个词语的主题分布进行计算,并根据计算结果对每个词语的主题分布进行更新,即采用GS公式对每个词语进行反复遍历计算,直到所有每个词语的主题分布与上一轮遍历计算后的主题分布一致。其中,GS公式如下公式1所示:
Figure BDA0003069591750000061
其中,ri表示第i个词语c,该词语v属于{A1,A2,…,Ax,B1,B2,...,By},且该词语v属于第z个句子。Qi表示第i个词语c的主题编号,i≤x+y,Q-i表示去掉中第i个词语的主题编号后的剩余主题编号。βc,αk,βs为超参数,通常,βc,αk,βs取值0.1。
Figure BDA0003069591750000062
表示去掉中第i个词语之后,编号为k的主题产生词语v的个数,其中,k为小于等于K的正整数。
Figure BDA0003069591750000063
表示去掉第z个句子中第i个词语之后,属于编号为k的主题的词语数量。
Figure BDA0003069591750000064
表示去掉第i个词语之后,编号为k的主题产生词语的总数。
Figure BDA0003069591750000065
表示去掉第i个词语之后,所有主题的词语数量之和。
GS公式可以计算得到第i个词语属于每个主题的概率,取概率值最大的主题为这一轮第i个词语的主题编号,若与上一轮不同,则更新当前词语的主题。然后,进行多次迭代计算,直到所有对词语的主题分布与上一次迭代主题分布一致,则结束主题分布的计算,得到基于词语的主题分布{PA1k,PA2k,…PAXk,PB1k,PB2k,…PBYk},其中,k≤K且k为正整数,其中,PA1k表示词语A1属于主题k的概率。
在一些实施例中,对计算主题分布的迭代次数设定了最大迭代次数预设值,当实际计算主题分布的迭代次数达到定义的最大迭代次数预设值,则停止主题分布的计算更新,以当前迭代次数下的主题分布为最终每个词语的主题分布。
下面对根据词语的主题分布得到句子的主题分布进行详细介绍。
根据词语的主题分布{PA1k,PA2k,…PAxk,PB1k,PB2k,…PBYk},将每个句子下的每个词语的主题分布求平均值,得到每个句子的主题分布{PU1k,PU2k,…PUZk,PV1k,PV2k,…PVWk},其中,PU1k表示句子U1属于主题k的概率。举例来说,若A1,A2属于分句结果U1,则PA1k和PA2k的平均值则为PU1k,即分句结果U1属于主题k的概率。
举例来说,获取到待匹配文本,该待匹配文本为:{我喜欢喝草莓汁和奶茶,我下午茶喝了奶茶和咖啡},获取到对比文本:{篮球和棒球有趣},将待匹配文本和对比文本进行分句,得到分句结果{S1:“我喜欢喝草莓汁和奶茶”;S2:“我下午茶喝了奶茶和咖啡”;S3:“篮球和棒球有趣”}。再对分句结果进行分词处理,去除关联词、人称代词等,得到对应分词结果{A1:“喜欢”,A2:“喝”,A3:“草莓汁”,A4:“奶茶”,A5:“下午茶”,A6:“咖啡”,B1:“篮球”,B2:“棒球”,B3:“有趣”}。若设定的主题数K为2,利用GS公式对分词结果进行进行主题聚类,在分词结果的主题分布与上一次迭代主题分布一致后,得到如下表1所示分词结果的主题分布。其中,以分词结果“喜欢”为例,“喜欢”属于主题2的概率为0.01226比属于主题1的概率0.000801大,所以“喜欢”属于主题2。
表1
喜欢 草莓汁 奶茶 下午茶 咖啡 篮球 棒球 有趣
主题1 0.000801 0.000801 0.000801 0.000801 0.000801 0.000801 0.03291 0.03291 0.03291
主题2 0.01226 0.1544 0.01226 0.1544 0.01226 0.01226 0.000511 0.000511 0.000511
将分词结果的主题分布按照分句结果求平均值后得到分句结果的主题分布,例如,将{喜欢、喝、草莓汁、奶茶}属于主题1的概率求平均值,得到分句结果1属于主题1的概率为0.000801,其余分句结果的主题分布如下表2所示:
表2
分句结果1 分句结果2 分句结果3
主题1 0.000801 0.000801 0.3291
主题2 0.0833 0.0833 0.000511
根据表2可以得到,分句结果1和分句结果2被划分到了主题2中,分句结果3被划分到了主题1中,该举例仅用于说明LDA模型聚类的过程,对本方案不作具体限定。应理解,本申请实施例中待匹配文本与对比文本都包括多个句子,因此,每个主题下都应有待匹配文本与对比文本的句子。
因此,通过每个词语的主题分布可以得到每个句子的主题分布,进而将每个句子划分到概率最大的主题下,最终待匹配文本和对比文本的句子都被分成了K个主题,其中,每个主题下都有来自待匹配文本和对比文本的句子。
S330、根据每个主题中待匹配文本的句子以及对比文本的句子的相似度,得到第一匹配特征。
通过每个句子的主题分布得到句子基于主题分布的第一句子向量;再通过编码模型对每个句子进行编码得到每个句子的第二句子向量,其中,编码模型可采用文本到文本的迁移转换器(Text-to-Text Transfer Transformer,T5)模型;根据每个主题下待匹配文本的第一句子向量与对比文本的第一句子向量的相似度得到第一句子特征;根据每个主题下待匹配文本的第二句子向量与对比文本的第二句子向量的相似度得到第二句子特征;最后将第一句子特征和第二句子特征进行拼接得到第一匹配特征。
在一些实施例中,通过每个句子的主题分布得到句子基于主题分布,获得第一句子向量后,根据每个主题下待匹配文本的第一句子向量与对比文本的第一句子向量的相似度得到第一句子特征,直接将第一句子特征作为第一匹配特征。
在另一些实施例中,通过文本到文本的迁移转换器(Text-to-Text TransferTransformer,T5)模型对每个句子进行编码得到每个句子的第二句子向量后,根据每个主题下待匹配文本的句子与对比文本的第二句子向量的相似度得到第二句子特征后,直接将第二句子特征作为第一匹配特征。
下面先对获得第一句子特征的过程进行详细介绍。
将每个词语{A1,A2,…,AX,B1,B2,…,BY}表示为词向量(a1,a2,…aX,b1,b2,…,bY),再将词向量(a1,a2,…aX,b1,b2,…,bY)与每个词语的主题分布{PA1k,PA2k,…PAXk,PB1k,PB2k…PBYk}相乘后相加,得到每个主题的主题向量(t1,t2,…,tK),其中,主题向量tk为每个词向量与该词语属于主题k的概率相乘后相加得到的,如公式2所示:
tk=PA1k*a1+PA2k*a2+…PbYk*bY (2)
第一句子向量(u1,u2,…,uZ,v1,v2,…,vW)为每个主题的主题向量(t1,t2,…,tK)和该句子属于每个主题的概率相乘后相加得到的,其中,以句子Uz的第一句子向量uz为例,第一句子向量uz为主题分布{PUz1,PUz2…,PUzk}与主题向量(t1,t2,…,tK)相乘后相加得到的,如公式3所示:
uz=PUz1*t1+PUz2*t2+…PUzk*tK (3)
得到第一句子向量后,将每个主题下的待匹配文本的第一句子向量与对比文本的第一句子向量通过欧式距离和余弦相似度求匹配度,将通过欧式距离和余弦相似度求得的匹配度进行拼接,得到第一句子特征。
举例来说,若一个主题下待匹配文本的所有句子的第一句子向量拼接后用u表示,该主题下对比文本的所有句子的第一句子向量拼接后用v表示,则通过欧式距离求得的匹配度为|u-v|,通过余弦相似度求得的匹配度为cos(u,v),则第一句子特征为<|u-v|,cos(u,v)>。
下面对获得第二句子特征的过程进行详细介绍。
将{U1,U2,…,UZ,V1,V2,…,VW}输入到T5模型进行编码得到第二句子向量(u1’,u2’,…,uZ’,v1’,v2’,…,vW’),将每个主题下的待匹配文本的第二句子向量与对比文本的第二句子向量通过欧式距离以及相乘后的结果进行拼接,得到第二句子特征。
举例来说,若一个主题下待匹配文本的所有句子的第二句子向量拼接后用u’表示,该主题下对比文本的所有句子的第二句子向量拼接后用v’表示,则通过欧式距离求得的匹配度为|u’-v’|,相乘后的结果为u’*v’,则第二句子特征为<|u’-v’|,u’*v’>。
因此,第一匹配特征可以为第一句子特征<|u-v|,cos(u,v)>,或者,第二句子特征<|u’-v’|,u’*v’>,或者第一句子特征与第二句子特征拼接后的结果<|u-v|,cos(u,v),|u’-v’|,u’*v’>。
S340、根据每个主题的主题向量之间的相似度,得到第二匹配特征。
根据主题向量(t1,t2,…,tK),将每个主题的主题向量进行匹配,获得第二匹配特征,其中,第二匹配特征可以是计算主题向量的余弦相似度得到的,主题向量(t1,t2,…,tK)的计算方式可参考上诉步骤S330中公式2的描述。
下面主题向量的余弦相似度的计算进行详细说明,分别对主题向量中各个主题间两两计算,得到余弦相似度(cos1,2,cos1,3,…,cosK-1,K),其中,以cosK-1,K为例,cosK-1,K表示主题1与主题2的余弦相似度,cosK-1,K的计算方式如公式4所示:
cosK-1,K=cosK·cosK-1/||cosK||||cosK-1|| (4)
S350、根据第一匹配特征和第二匹配特征,生成待匹配文本与对比文本的匹配结果。
具体地,将第一匹配特征和第二匹配特征进行拼接,得到第一局部特征,将第一局部特征输入到分类模型中,得到待匹配文本与对比文本的匹配结果,其中,匹配结果表示了待匹配文本与对比文本的相似度。举例来说,若对比文本为数据库中涉及暴力用语的一段数据文本,得到待匹配文本与对比文本的匹配结果为待匹配文本与对比文本的相似度超过了相似度阈值,则可认为待匹配文本也涉及暴力用语。
在一些实施例中,分类模型可采用多层感知机(Multilayer Perceptron,MLP)模型,应理解,本申请实施例对分类模型的类型不作具体限定。
在一些实施例中,根据第一匹配特征和第二匹配特征得到第一局部特征后,还会将待匹配文本的句子表示为第一向量,将对比文本的句子表示为第二向量,通过第一向量和第二向量的相似度得到第二局部特征,将第一局部特征与第二局部特征拼接后,再输入到分类模型中,得到待匹配文本与对比文本的匹配结果。其中,将待匹配文本的句子表示为第一向量以及将对比文本的句子表示为第二向量可以是通过XLNet模型得到的,应理解,方案对第一向量和第二向量的生成方式不作具体限定。
综上所述,本申请实施例提供的文本匹配方法能通过将待匹配文本和对比文本中的每个句子进行聚类,获得每个句子的主题类别以及每个主题的主题向量,并将每个主题中待匹配文本的句子与对比文本的句子进行匹配,以及将每个主题的主题向量进行匹配,最终得到待匹配文本与对比文本基于句子的相似度。这样,使得待匹配文本为长文本的情况下,与对比文本进行文本匹配,能基于句子间的相似度进行文本匹配,进而不会忽略待匹配文本句子间的语义结构,提高了长文本进行文本匹配的准确性。
参见图4,图4为本申请实施例提供的一种电子设备的结构示意图。其中,所述电子设备400可以是前述内容中的文本匹配系统120。如图4所示,电子设备400包括:处理器410、通信接口420以及存储器430,所示处理器410、通信接口420以及存储器430通过内部总线440相互连接。
处理器410、通信接口420和存储器430可通过总线方式连接,也可通过无线传输等其他手段实现通信。本申请实施例以通过总线340连接为例,其中,总线340可以是外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,EISA)总线等。所述总线340可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
所述处理器410可以由一个或者多个通用处理器构成,例如中央处理器(CentralProcessing Unit,CPU),或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(Application-Specific Inegrated Circuit,ASIC)、可编程逻辑器件(ProgrammableLogic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device,CPLD)、现场可编程逻辑门阵列(Field-Programmable GateArray,FPGA)、通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。处理器410执行各种类型的数字存储指令,例如存储在存储器430中的软件或者固件程序,它能使电子设备400提供较宽的多种服务。
具体地,所述处理器410可以由至少一个通用处理器构成,例如中央处理器(Central Processing Unit,CPU),或者CPU和硬件芯片的组合。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit,ASIC)、可编程逻辑器件(Programmable Logic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(Complex Programmable Logic Device,CPLD)、现场可编程逻辑门阵列(Field-Programmable Gate Array,FPGA)、通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。处理器410执行各种类型的数字存储指令,例如存储在存储器430中的软件或者固件程序,它能使电子设备400提供较宽的多种服务。
存储器430可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器430也可以包括非易失性存储器(Non-VolatileMemory),例如只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD);存储器430还可以包括上述种类的组合。其中,存储器430可以存储有应用程序代码以及程序数据。程序代码可以将待匹配文本和对比文本中的每个句子进行聚类,获得每个句子的主题类别以及每个主题的主题向量,并将每个主题中待匹配文本的句子与对比文本的句子进行匹配,以及将每个主题的主题向量进行匹配,最终得到待匹配文本与对比文本基于句子的相似度等等。还可以用于执行图2实施例描述的其他步骤,这里不再进行赘述。所述存储器430的代码可以包括实现聚类单元、匹配单元、生成单元功能的代码,聚类单元的功能包括图1中的聚类单元10的功能,例如将待匹配文本和对比文本中每个字符聚类为K个主题,得到所述每个字符的主题分布、每个主题的主题向量以及每个句子的主题分布,具体可用于执行前述方法的步骤S320及其可选步骤,这里不再进行赘述。匹配单元的功能包括图1中的匹配单元20的功能,例如将每个主题中待匹配文本的句子与对比文本的句子进行匹配,获得第一匹配特征,以及用于根据每个主题中的句子确定的每个主题的主题向量,将每个主题的主题向量进行匹配,获得第二匹配特征,具体可用于执行前述方法的步骤S330-步骤S340及其可选步骤,这里不再进行赘述。生成单元的功能包括图1中的生成单元30的功能,例如根据第一匹配特征和第二匹配特征,生成所述待匹配文本与所述对比文本的匹配结果,并将该匹配结果发送到分类系统130中,具体可用于执行前述方法的步骤S350及其可选步骤,这里不再进行赘述。
通信接口420可以为有线接口(例如以太网接口),可以为内部接口(例如高速串行计算机扩展总线(Peripheral Component Interconnect express,PCIe)总线接口)、有线接口(例如以太网接口)或无线接口(例如蜂窝网络接口或使用无线局域网接口),用于与与其他设备或模块进行通信。
需要说明的,图4仅仅是本申请实施例的一种可能的实现方式,实际应用中,所述电子设备还可以包括更多或更少的部件,这里不作限制。关于本申请实施例中未示出或未描述的内容,可参见前述图3所述实施例中的相关阐述,这里不再赘述。图4所示的电子设备还可以是多个计算节点构成的计算机集群,本申请不作具体限定。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在处理器上运行时,图3所示的方法流程得以实现。
本申请实施例还提供一种计算机程序产品,当所述计算机程序产品在处理器上运行时,图3所示的方法流程得以实现。
上述实施例,可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时,上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如,高密度数字视频光盘(Digital Video Disc,DVD)、或者半导体介质。半导体介质可以是SSD。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本匹配方法,其特征在于,包括:
对待匹配文本和对比文本进行分词和分句,得到所述待匹配文本和所述对比文本的句子和词语;
将所述待匹配文本和所述对比文本中的每个句子进行聚类,获得所述每个句子的主题类别以及每个主题的主题向量,所述待匹配文本的文本长度大于所述对比文本的文本长度,所述每个主题的主题向量包括每个主题下的待匹配文本和对比文本的词语;
根据所述每个主题中所述待匹配文本的句子以及所述对比文本的句子的相似度,得到第一匹配特征;
根据所述每个主题的主题向量之间的相似度,得到第二匹配特征;
根据所述第一匹配特征和所述第二匹配特征,生成所述待匹配文本与所述对比文本的匹配结果。
2.根据权利要求1所述的方法,其特征在于,所述将待匹配文本和对比文本中的每个句子进行聚类,获得所述每个句子的主题类别以及每个主题的主题向量,具体包括:
将所述待匹配文本和所述对比文本中的每个词语聚类为K个主题,得到所述每个词语的主题分布,所述每个词语的主题分布包括所述每个词语属于所述K个主题中每个主题的概率;
将所述每个词语转化为词向量,根据所述词向量与所述每个词语的主题分布确定所述每个主题的主题向量;
根据所述每个句子中的每个字符的主题分布,得到所述每个句子的主题分布,所述每个句子的主题分布包括所述每个句子属于所述每个主题的概率;
根据所述每个句子的主题分布,得到所述每个句子的主题类别。
3.根据权利要求2所述的方法,其特征在于,所述根据所述每个主题中所述待匹配文本的句子以及所述对比文本的句子的相似度,得到第一匹配特征,包括:
根据所述每个句子的主题分布得到每个句子的第一句子向量;
根据所述每个主题下所述待匹配文本中每个句子的第一句子向量与所述对比文本中每个句子的第一句子向量的相似度,得到所述第一匹配特征。
4.根据权利要求2所述的方法,其特征在于,所述根据所述每个主题中所述待匹配文本的句子以及所述对比文本的句子的相似度,得到第一匹配特征,包括:
根据编码模型得到每个句子的第二句子向量,所述编码模型用于将所述每个句子用向量进行表示;
根据所述每个主题下所述待匹配文本中每个句子的第二句子向量与所述对比文本中每个句子的第二句子向量的相似度,得到所述第一匹配特征。
5.根据权利要求2所述的方法,其特征在于,所述根据所述每个主题中所述待匹配文本的句子以及所述对比文本的句子的相似度,得到第一匹配特征,包括:
根据所述每个句子的主题分布得到所述每个句子的第一句子向量;
根据所述每个主题下所述待匹配文本中每个句子的第一句子向量与所述对比文本中每个句子的第一句子向量的相似度,得到第一句子特征;
根据所述编码模型得到所述每个句子的第二句子向量;
根据所述每个主题下所述待匹配文本中每个句子的第二句子向量与所述对比文本中每个句子的第二句子向量的相似度,得到第二句子特征;
根据所述第一句子特征与所述第二句子特征得到所述第一匹配特征。
6.根据权利要求3-5任一所述的方法,其特征在于,在所述根据所述第一匹配特征和所述第二匹配特征,生成所述待匹配文本与所述对比文本的匹配结果之后,所述方法还包括:
将所述匹配结果输出到分类系统中,所述分类系统用于确定所述待匹配文本与所述对比文本的相似度。
7.根据权利要求3-5任一所述的方法,其特征在于,在所述根据所述第一匹配特征和所述第二匹配特征,生成所述待匹配文本与所述对比文本的匹配结果之后,所述方法还包括:
将所述待匹配文本表示为第一向量,将所述对比文本表示第二向量,所述第一向量包括所述待匹配文本中每个句子的句子向量,所述第二向量包括所述对比文本中每个句子的句子向量;
根据所述第一向量与所述第二向量生成局部特征;
将所述匹配结果与所述局部特征输出到所述分类系统中,得到所述待匹配文本与所述对比文本的相似度。
8.一种文本匹配系统,其特征在于,包括聚类单元、匹配单元以及生成单元:
生成单元用于对待匹配文本和对比文本进行分词和分句,得到所述待匹配文本和所述对比文本的句子和词语;
所述聚类单元用于将待匹配文本和对比文本中的每个句子进行聚类,获得所述每个句子的主题类别以及每个主题的主题向量,所述待匹配文本的文本长度大于所述对比文本的文本长度,所述每个主题的主题向量包括所述待匹配文本和所述对比文本的全部词语;
所述匹配单元用于将所述每个主题中所述待匹配文本的句子与所述对比文本的句子进行匹配,获得第一匹配特征;
所述匹配单元还用于将所述每个主题的主题向量进行匹配,获得第二匹配特征;
所述生成单元还用于根据所述第一匹配特征和所述第二匹配特征,生成所述待匹配文本与所述对比文本的匹配结果。
9.一种计算机设备,其特征在于,包括:处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述存储器中的计算机程序以实现如权利要求1至7任一权利要求所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至7任一权利要求所述的方法。
CN202110535792.2A 2021-05-17 2021-05-17 文本匹配方法、系统及设备 Active CN113239150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110535792.2A CN113239150B (zh) 2021-05-17 2021-05-17 文本匹配方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110535792.2A CN113239150B (zh) 2021-05-17 2021-05-17 文本匹配方法、系统及设备

Publications (2)

Publication Number Publication Date
CN113239150A true CN113239150A (zh) 2021-08-10
CN113239150B CN113239150B (zh) 2024-02-27

Family

ID=77134781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110535792.2A Active CN113239150B (zh) 2021-05-17 2021-05-17 文本匹配方法、系统及设备

Country Status (1)

Country Link
CN (1) CN113239150B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806486A (zh) * 2021-09-23 2021-12-17 深圳市北科瑞声科技股份有限公司 长文本相似度的计算方法及装置、存储介质、电子装置
WO2023134075A1 (zh) * 2022-01-12 2023-07-20 平安科技(深圳)有限公司 基于人工智能的文本主题生成方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628825A (zh) * 2018-04-10 2018-10-09 平安科技(深圳)有限公司 文本信息相似度匹配方法、装置、计算机设备及存储介质
WO2019218508A1 (zh) * 2018-05-16 2019-11-21 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN110895656A (zh) * 2018-09-13 2020-03-20 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
CN110941961A (zh) * 2019-11-29 2020-03-31 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
CN111259113A (zh) * 2020-01-15 2020-06-09 腾讯科技(深圳)有限公司 文本匹配方法、装置、计算机可读存储介质和计算机设备
WO2020188883A1 (ja) * 2019-03-20 2020-09-24 株式会社Screenホールディングス 同義語判定方法、同義語判定プログラムを記録したコンピュータ読み取り可能な記録媒体、および、同義語判定装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108628825A (zh) * 2018-04-10 2018-10-09 平安科技(深圳)有限公司 文本信息相似度匹配方法、装置、计算机设备及存储介质
WO2019218508A1 (zh) * 2018-05-16 2019-11-21 山东科技大学 一种基于主题情感联合概率的电子商务虚假评论识别方法
CN110895656A (zh) * 2018-09-13 2020-03-20 武汉斗鱼网络科技有限公司 一种文本相似度计算方法、装置、电子设备及存储介质
WO2020188883A1 (ja) * 2019-03-20 2020-09-24 株式会社Screenホールディングス 同義語判定方法、同義語判定プログラムを記録したコンピュータ読み取り可能な記録媒体、および、同義語判定装置
CN110941961A (zh) * 2019-11-29 2020-03-31 秒针信息技术有限公司 一种信息聚类方法、装置、电子设备及存储介质
CN111259113A (zh) * 2020-01-15 2020-06-09 腾讯科技(深圳)有限公司 文本匹配方法、装置、计算机可读存储介质和计算机设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806486A (zh) * 2021-09-23 2021-12-17 深圳市北科瑞声科技股份有限公司 长文本相似度的计算方法及装置、存储介质、电子装置
CN113806486B (zh) * 2021-09-23 2024-05-10 深圳市北科瑞声科技股份有限公司 长文本相似度的计算方法及装置、存储介质、电子装置
WO2023134075A1 (zh) * 2022-01-12 2023-07-20 平安科技(深圳)有限公司 基于人工智能的文本主题生成方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113239150B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
US20190377793A1 (en) Method and apparatus for establishing a hierarchical intent system
WO2017193685A1 (zh) 社交网络中数据的处理方法和装置
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
CN111985228B (zh) 文本关键词提取方法、装置、计算机设备和存储介质
CN111931477B (zh) 文本匹配方法、装置、电子设备以及存储介质
CN109902290B (zh) 一种基于文本信息的术语提取方法、系统和设备
CN113127605B (zh) 一种目标识别模型的建立方法、系统、电子设备及介质
CN111611807A (zh) 一种基于神经网络的关键词提取方法、装置及电子设备
CN113239150B (zh) 文本匹配方法、系统及设备
CN113407679A (zh) 文本主题挖掘方法、装置、电子设备及存储介质
CN113836938A (zh) 文本相似度的计算方法及装置、存储介质、电子装置
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN106610949A (zh) 一种基于语义分析的文本特征提取方法
CN114398968B (zh) 基于文件相似度对同类获客文件进行标注的方法和装置
CN106610953A (zh) 基于基尼指数求解文本相似度的方法
CN107038155A (zh) 基于改进的小世界网络模型实现文本特征的提取方法
CN108596205B (zh) 基于地域相关因子与稀疏表示的微博转发行为预测方法
CN112948527B (zh) 一种改进的TextRank关键词提取方法及装置
CN115345158A (zh) 基于无监督学习的新词发现方法、装置、设备及存储介质
CN111008281B (zh) 文本分类方法、装置、计算机设备和存储介质
CN114428852A (zh) 基于bert预训练模型的中文文本摘要抽取方法及装置
Barakhnin et al. Word reordering algorithm for poetry analysis
CN115099368A (zh) 一种用于计算篇章级文档相似度的方法及可读存储介质
Masood et al. Identification of Age and Gender on Twitter Using DenseNet and LSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant