CN110245342A - 文本匹配的方法、装置和存储介质 - Google Patents

文本匹配的方法、装置和存储介质 Download PDF

Info

Publication number
CN110245342A
CN110245342A CN201810185499.6A CN201810185499A CN110245342A CN 110245342 A CN110245342 A CN 110245342A CN 201810185499 A CN201810185499 A CN 201810185499A CN 110245342 A CN110245342 A CN 110245342A
Authority
CN
China
Prior art keywords
word
matched
matching
text
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810185499.6A
Other languages
English (en)
Other versions
CN110245342B (zh
Inventor
王骏龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810185499.6A priority Critical patent/CN110245342B/zh
Publication of CN110245342A publication Critical patent/CN110245342A/zh
Application granted granted Critical
Publication of CN110245342B publication Critical patent/CN110245342B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本匹配的方法、装置和存储介质。该方法包括:匹配组件分别对匹配段落文本和被匹配段落文本分词,生成至少一个匹配词和至少一个被匹配词;匹配组件将匹配词和被匹配词分别扩展为中间匹配词和中间被匹配词;基于将匹配词、被匹配词、中间匹配词、中间被匹配词,匹配组件构建文本关系图;匹配组件计算文本关系图中从源点到汇点的最短距离;匹配组件根据最短距离与距离阈值确定匹配段落文本与被匹配段落文本匹配。本发明实施例具有可以理解文本中词的含义,以及理解句子与句子之间的关系,文本匹配简单、直观,匹配结果准确等效果。

Description

文本匹配的方法、装置和存储介质
技术领域
本发明涉及文本处理技术领域,尤其涉及一种文本匹配的方法、装置和存储介质。
背景技术
随着网络技术的快速发展,网络交互的数据信息随之快速增长。在海量的文本信息中,存在大量相同或者相似的文本。人们经常需要对文本进行匹配,从而找到相同或者相似的文本。关于相似的文本可以是在文字方面相似,也可以是语义方面相似。例如,I lookafter the children和I look after the child是属于文字方面相似的2个句子。I lookafter the children和He takes care of the kids是属于语义方面相似的2个句子。
现有的文本匹配方法主要用于相同文本的匹配以及文字方面相似的文本的匹配。具体的匹配方法可以是:首先,对文本中的每句话,例如对I look after the children这句话,进行分词。然后,得到一个词的集合,如{I,look,after,the,children}。最后,分别对需要匹配的2个句子的集合的交集数量除以并集数量,得到两句话的相似度。另外,也可以用稀疏矩阵的方式计算两句话的相似度。
申请人经研究发现:现有的文本匹配的方法仅从文字表面进行匹配,并不考虑短语之间以及句子之间的关联和含义。因此,现有的文本匹配的方法仅能对相同的文本和文字方面相似的文本进行文本相似度匹配,而无法对语义方面相似的文本进行匹配。
如何对语义方面相似的文本进行匹配,成为亟待解决的技术问题。
发明内容
为了解决对语义方面相似的文本进行匹配的问题,本发明实施例提供了一种文本匹配的方法、装置和存储介质。
第一方面,提供了一种文本匹配的方法。该方法包括以下步骤:
分别对匹配段落文本和被匹配段落文本分词,生成至少一个匹配词和至少一个被匹配词;
将匹配词和被匹配词分别扩展为中间匹配词和中间被匹配词;
基于将匹配词、被匹配词、中间匹配词、中间被匹配词,构建文本关系图;
计算文本关系图中从源点到汇点的最短距离;
根据最短距离与距离阈值确定匹配段落文本与被匹配段落文本匹配。
第二方面,提供了一种文本匹配的装置。该装置包括:词语分解器、词语扩展器、关系图构建器、距离计算器和文本匹配器,
词语分解器和关系图构建器分别与词语扩展器耦合,关系图构建器和文本匹配器分别与距离计算器耦合,其中:
词语分解器,用于分别对匹配段落文本和被匹配段落文本分词,生成至少一个个匹配词和至少一个个被匹配词;
词语扩展器,用于将匹配词和被匹配词分别扩展为中间匹配词和中间被匹配词;
关系图构建器,用于基于将匹配词、被匹配词、中间匹配词、中间被匹配词,构建文本关系图;
距离计算器,用于计算文本关系图中的最短距离;
文本匹配器,用于根据最短距离与距离阈值确定匹配段落文本与被匹配段落文本匹配。
第三方面,提供了一种文本匹配的装置。该装置包括:
存储器,用于存放程序;
处理器,用于执行所述存储器存储的程序,所述程序使得所述处理器执行上述第一方面所述的方法。
第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
第五方面,提供了一种包含指令的计算机程序产品。当该产品在计算机上运行时,使得计算机执行上述各方面所述的方法。
第六方面,提供了一种计算机程序。当该计算机程序在计算机上运行时,使得计算机执行上述各方面所述的方法。
一方面,上述发明实施例可以通过将文本分解为独立的单词,再对独立的单词进行扩展,使得简单、单一的文本意思可以扩展为复杂、丰富的意思,为后续匹配文本时理解文本中词语的含义,以及理解词与词之间的关系奠定了基础。
另一方面,上述发明实施例可以通过将匹配文本和被匹配文本中的词语,以及扩展后的词语转换为文本关系图,再通过文本关系图中的最短距离来确定匹配段落文本域被匹配段落文本是否匹配,解决了相似文本由于表现形式的差异,而导致的辨识性较低的问题,具有文本匹配简单、直观,匹配结果准确的效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例的文本匹配系统的架构示意图;
图2是本发明一实施例的文本匹配的方法的流程示意图;
图3是图2中的文本关系图的示意图;
图4是图2中一实施例的计算文本关系图中的最短距离的流程示意图;
图5是图2中另一实施例的计算文本关系图中的最短距离的流程示意图;
图6是本发明一实施例的文本匹配装置的结构示意图;
图7是本发明一实施例的文本匹配装置的框架结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1是本发明一实施例的文本匹配系统的架构示意图。
如图1所示,该架构可以包括:服务器100、客户端200和网络300。
本实施例的第一应用场景可以是:用户400在销售网站A上购买商品后,用户400利用客户端200向销售网站A的服务器100发送投诉函。销售网站A的服务器100接收该投诉函,将该投诉函中的文本内容与历史投诉数据库中的文本匹配。当投诉函中的文本与历史投诉数据库中的文本匹配成功时,说明用户400的类似投诉事件在以前发生过,且已经有现成的解决方案。那么,此时可以参考现有的解决方法来处理用户400的投诉事件。
本实施例的第二应用场景可以是:出版社对待出版的文摘等文本与数据库中的文本匹配,以判断待出版的文摘是否涉嫌侵权等。可以理解,本实施例还可以应用于其它需要匹配文本的场景中。
其中,服务器100可以安装有各种通讯客户端应用,例如分词工具、即时通信工具、邮箱客户端、社交平台软件、音频视频软件等。通常,服务器100具有较高的硬件配置和较强的运算能力。在运算压力较小的情况下,服务器可以用台式机、工作站、移动设备或上述的电子设备等进行替代。
客户端200包括但不限于个人电脑、智能手机、平板电脑、个人数字助理、服务器等。
网络300可以用以在各种电子设备之间提供通信链路的介质。具体的,网络300可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。
应该理解,图1中的设备的数目仅仅是示意性的。根据实现需要,该系统架构可以具有任意数目的服务器100、客户端200和网络300。下面各实施例均可以应用本实施例的系统架构进行数据交互或者文本匹配处理。其中,文本可以是中文,可以是英文,还可以包括符号等。
图2是本发明一实施例的文本匹配的方法的流程示意图。
在本实施例中,可以将上述的第一应用场景作为本实施例的应用场景。
如图2所示,该方法包括以下步骤:S210,匹配组件分别对匹配段落文本和被匹配段落文本分词,生成至少一个匹配词和至少一个被匹配词;S220,匹配组件将匹配词和被匹配词分别扩展为中间匹配词和中间被匹配词;S230,基于将匹配词、被匹配词、中间匹配词、中间被匹配词,匹配组件构建文本关系图;S240,匹配组件计算文本关系图中的最短距离;S250,匹配组件根据最短距离与距离阈值确定匹配段落文本与被匹配段落文本匹配。
可以理解,文本匹配的方法的执行主体还可以是具有运算、处理等能力的处理器、程序设备等软件和/或硬件设备,此方面内容不做限制。
在步骤S210中,匹配段落文本可以是I look after the children。被匹配段落文本可以是He takes care of the kids。虽然二者的意思相似,但是由于它们的表现形式不同,所以传统的匹配方法只能认为二者不匹配。本实施例中,匹配组件对匹配段落文本分词后可以生成以下匹配词:I、look、after、the、children。对被匹配段落文本分词后可以生成以下被匹配词:He、takes、care、of、the、kids。具分词可以基于word2vec的方式来分词。Word2vec是一款将词表征为实数值向量的高效工具。
在步骤S220中,基于预定窗口阈值K,匹配组件将匹配词扩展为多个包括匹配词的中间匹配词。K可以用来确定文本滑动后滑动窗口大小。即K等于中间匹配词所包括的匹配词的最大值。如,当K=3时,即滑动窗口为3时,将ABCDE这5个词从左向右划过去,可以得到小于或者等于3个词的如下中间匹配词:A、AB、ABC、BCD、CDE、DE、E。
当K值较大时,扩展的中间匹配词的数量较小,会导致降低后续匹配文本的精度。当K值较小时,扩展的中间匹配词的数量较多,会导致增加计算量。
在一些实施例中,2≤K≤4时,可以在不过多增加计算量的前提下,保证后续匹配文本的精度。经过大量的实验,当K为3时,效果最佳。
以K为3为例,匹配组件将匹配文本I look after the children中的各个匹配词进行扩展,得到多个中间匹配词。
如,匹配组件可以将匹配词children扩展为如下3个中间匹配词:children、the_children、after_the_children。匹配组件可以将匹配词the扩展为如下5个中间匹配词:the_children、after_the_children、the、after_the、look_after_the。匹配组件可以将匹配词after扩展为如下6个中间匹配词:after_the_children、after_the、look_after_the、after、I_look_after、look_after。匹配组件可以将匹配词I扩展为如下3个中间匹配词:I、I_look、I_look_after。匹配组件可以将匹配词look扩展为如下5个中间匹配词:look_after_the、I_look_after、look_after、I_look、look。
以K为3为例,匹配组件可以将被匹配段落文本He takes care of the kids中各个被匹配词进行扩展,得到多个中间被匹配词。
如,匹配组件可以将被匹配词takes扩展为如下5个中间匹配词:takes、He_takes、takes_care、He_takes_care、takes_care_of。匹配组件可以将被匹配词He扩展为如下3个中间匹配词:He、He_takes、He_takes_care。匹配组件可以将被匹配词care扩展为如下5个中间匹配词:He_takes_care、takes_care、care、care_of、care_of_the。匹配组件可以将被匹配词kids扩展为如下3个中间匹配词:of_the_kids、the_kids、kids。匹配组件可以将被匹配词of扩展为如下5个中间匹配词:takes_care_of、care_of、of、of_the、of_the_kids。匹配组件可以将被匹配词the扩展为如下5个中间匹配词:care_of_the、of_the、the、the_kids、of_the_kids。
在步骤S230中,该步骤(匹配组件构建文本关系图)可以分为如下S231至S236的6个子步骤:
S231,匹配组件分别对匹配词和被匹配词进行向量化表示,得到匹配向量值和被匹配向量值。
在本实施例中,匹配组件可以基于word2vec的方式,分别对匹配词和被匹配词进行向量化表示。以三维空间为例,look的词向量为[1,0.5,0],after的词向量为[0,0.5,1],take的词向量为[1,0,0],care的词向量为[0,1,0],of的词向量为[0,0,1]。在其它的实施例中,还可以用二维或者4维向量表示。根据大量的实验数据,选取三维空间可以在不增加太多计算量的基础上,确保较高的匹配精度。
S232,匹配组件累加中间匹配词中的匹配词的匹配向量值,得到中间匹配向量值。
例如,累加look和after的向量值,可以得到look_after的向量值为[1,1,1]。
S233,匹配组件累加中间匹配词中的被匹配词的被匹配向量值,得到中间被匹配向量值。
如,累加take、care和of的向量值,可以得到take_care_of的向量为[1,1,1]。
S234,基于匹配向量值、被匹配向量值、中间匹配向量值和中间被匹配向量值,匹配组件分别将匹配词、被匹配词、中间匹配词、中间被匹配词抽象为匹配点、被匹配点、中间匹配点、中间被匹配点。
因为各个词具有向量值,因此这些词就可以被抽象成二维、三维或者思维坐标系中的点。
S235,匹配组件设置源点和汇点。
源点可以是某图中起始的点,汇点可以是该图中结束的点。其中,该图可以是由多个结点和连接各个结点的边组成,如二分图。从源点开始,通过各条边可以最终达到汇点。源点和汇点可以作为辅助结点,帮助图模型识别两个句子(匹配段落文本和被匹配段落文本)在图中的位置。
S236,匹配组件分别将源点、匹配点、中间匹配点、中间被匹配点、被匹配点、汇点进行二分图全连接,构建文本关系图。
图3是图2中的文本关系图的示意图。
如图3所示,源点可以是s。匹配点可以包括如下5个点:children、the、after、I、look。中间匹配点可以包括如下12个点:children、the_children、after_the_children、the、after_the、look_after_the、after、I、I_look_after、look_after、I_look、look。中间被匹配点可以包括如下15个点:takes、He_takes、takes_care、He、He_takes_care、takes_care_of、care、care_of、kids、of_the_kids、the_kids、care_of_the、of、of_the、the。被匹配点可以包括如下6个点:takes、He、care、kids、of、the。汇点可以是t。
匹配组件分别将源点、匹配点、中间匹配点、中间被匹配点、被匹配点、汇点进行二分图全连接,构建文本关系图的实现方式可以如下所示:
S1,匹配组件将源点s分别与匹配点children、the、after、I、look连接。
S2,匹配组件将匹配点分别与各个匹配点所扩展的中间匹配点连接。
S3,匹配组件将各个中间匹配点分别与每个中间被匹配点连接。
S4,匹配组件将每个中间被匹配点分别与其对应的被匹配点连接。
S5,匹配组件将每个被匹配点takes、He、care、kids、of、the分别与汇点t连接。
在文本关系图中,可以将匹配文本段落中的匹配词比喻成生产地,被匹配段落中的被匹配词比喻成销售地。生产地的产量由匹配词在这个段落的重要性决定,销售地的销售量由被匹配词的重要性决定。重要性可以用权重表示。在本实施例中,匹配组件将匹配文本段落中的每一个匹配词各自抽象成一个匹配点。匹配组件将源点s与所有匹配点相连。同理,所有被匹配段落词生成的被匹配点分别与汇点t相连。生产地的匹配词和销售地的被匹配词之间一条连线可以看成一条路,这条路的距离(匹配点与被匹配点之间的欧氏距离)可以看成这条路的花费。
文本关系图可以有4个属性(u,v,c,f)。该图中各个点连接而成的线段,可以作为边。各条边具有表示方向的箭头。u为边的起始点,v为边的终点,c为边的容量(即权重),f为通过边所需要的花费。c容量设为每个匹配词或者被匹配词在该段落的重要程度,可以用tf-idf来表示。tf-idf公式为:匹配次在匹配段落中出现的次数乘以log(总段落个数除以含有这个匹配词的段落个数)。如,匹配词和被匹配词中的the属于常见的词,因此,该词的重要性较低。又如,匹配词中的look after和被匹配词中的take care在其它段落中不常见,属于匹配词中的核心词汇该权重相对可以设置高些。
对这段落设置一个k为n的窗口,每个窗口之间的词向量进行累加,累加后的向量值为一个新的点的向量值。即中间匹配点或者中间被匹配点的向量值是该点内各个词的向量值的累加值。如look after the这个点向量值为look、after和the这3各词的向量值的累加值。
源点至匹配点之间的边具有预设的容量。被匹配点至汇点之间的边具有预设的容量。除上边之间具有预设的容量外,文本关系图的其余的边的容量c为无穷大。花费f为两个词欧氏距离(Euclidean distance)。
文本匹配的过程可以看成是将生产地的产品运往销售地。如果运输的花费低,文本匹配成功,如果运输的花费高,文本匹配失败。
图4是图2中一实施例的计算文本关系图中的最短距离的流程示意图。
作为一个可选实施例,图2中的步骤S240(即匹配组件计算文本关系图中的最短距离)可以包括:
S241,匹配组件计算文本关系图中的任意两个点之间的欧氏距离。
将匹配词组和被匹配词组进行二分图全连接(边容量无限大,花费f为两点间的欧氏距离)。以三维空间[x,y,z]为例,look的词向量为[1,0.5,0],after的词向量为[0,0.5,1],take的词向量为[1,0,0],care的词向量为[0,1,0],of的词向量为[0,0,1]。那么,将look和after的向量累加后,look after的向量值为[1,1,1]。同理take care of的向量值为[1,1,1]。根据欧氏距离公式:sqrt((x1-x2)^2+(y1-y2)^2+(z1-z2)),可以得出lookafter与take care of之间的欧氏距离为0。所以,look after和take care of两个词之间的边容量为无线大,花费为0。
S242,基于任意两个点之间的欧氏距离,匹配组件判断是否存在源点至汇点之间最短路径。
S243,当存在最短路径时,匹配组件更新源点至汇点之间的路径,执行下一个循环,并继续判断更新后的路径是否是剩余路径中的最短路径。
S244,当不存在最短路径时,匹配组件累加最短路径得到最短距离。
参加图3,文本关系图中的原点s至汇点t存在如下5条最短路径:
最短路径1:s→I→I→He→He→t;
最短路径2:s→look→look_after→takes_care_of→takes→t;
最短路径3:s→after→look_after→takes_care_of→takes→t;
最短路径4:s→the→the→the→the→t;
最短路径5:s→children→children→kids→kids→t。
累加最短路径1、最短路径2、最短路径3和最短路径4可以得到最短距离。
图5是图2中另一实施例的计算文本关系图中的最短距离的流程示意图。
作为一个可选实施例,图2中的步骤S240(即匹配组件计算文本关系图中的最短距离)可以包括:
S510,在构建文本关系图后,基于该文本关系图可以构建网络G=[V,E,C,W]。其中,V为网络中的点,E为网络中的边,C为边的容量,W为费用网络(相当于文本关系图中的花费f)。
S520,对网络给出流值为零的初始数据流v(f0)=0。
S530,增加数据流,得到增流网络G′=[V′,E′,W′]。G′的顶点同G:V′=V。若在第k-1步(k=1,2,..),得到最小费用流fk-1,则构造费用网络W′(fk-1)。
S540,判断G′中是否存在源点s至汇点t之间的最短路径p。
S550,如果G′中存在源点s至汇点t之间的最短路径p,则对最短路径上的边进行更新,再跳转S530进行循环操作。
S560,如果G′中不存在源点s至汇点t之间的最短路径p,则认为G的数据流即为最大流,停止计算,得到最小费用。
在本实施例中,该流程的执行主体可以是匹配组件。可以理解匹配组件也可以利用控制器、处理器、寄存器等替代,此方面内容不再赘述。
在图2中的步骤S250中,该步骤可以包括:匹配组件将最短距离与距离阈值比较,获取比较结果;当比较结果指示最短距离小于或者等于距离阈值时,确定匹配段落文本与被匹配段落文本匹配。
其中,距离阈值与匹配段落文本的数量级的大小正相关。例如,当匹配段落文本的字节数在144以内时,距离阈值可以设置为40。当匹配段落文本的字节数在144与1000之间时,距离阈值可以设置为400。
需要说明的是,在不冲突的情况下,本领域的技术人员可以按实际需要将上述的操作步骤的顺序进行灵活调整,或者将上述步骤进行灵活组合等操作。为了简明,不再赘述各种实现方式。另外,各实施例的内容可以相互参考引用。
图6是本发明一实施例的文本匹配装置的结构示意图;
如图6所示,文本匹配装置600可以包括:词语分解器610、词语扩展器620、关系图构建器630、距离计算器640和文本匹配器650。词语分解器610和关系图构建器630分别与词语扩展器620耦合,关系图构建器630和文本匹配器650分别与距离计算器640耦合,其中:
词语分解器610可以用于分别对匹配段落文本和被匹配段落文本分词,生成至少一个匹配词和至少一个被匹配词;词语扩展器620可以用于将匹配词和被匹配词分别扩展为中间匹配词和中间被匹配词;关系图构建器630可以用于基于将匹配词、被匹配词、中间匹配词、中间被匹配词,构建文本关系图;距离计算器640可以用于计算文本关系图中的最短距离;文本匹配器650可以用于将最短距离与距离阈值比较,当最短距离小于或者等于距离阈值时,确定匹配段落文本与被匹配段落文本匹配。
一方面,上述发明实施例可以通过将文本分解为独立的单词,再对独立的单词进行扩展,使得简单、单一的文本意思可以扩展为复杂、丰富的意思,为后续匹配文本时理解文本中词语的含义,以及理解词与词之间的关系奠定了基础。
另一方面,上述发明实施例可以通过将匹配文本和被匹配文本中的词语,以及扩展后的词语转换为文本关系图,再通过文本关系图中的最短距离来确定匹配段落文本域被匹配段落文本是否匹配,解决了相似文本由于表现形式的差异,而导致的辨识性较低的问题,具有文本匹配简单、直观,匹配结果准确的效果。
在一些实施例中,词语扩展器620可以包括:第一扩展元件和第二扩展元件。其中,第一扩展元件可以用于基于预定窗口阈值,将匹配词扩展为多个包括匹配词的中间匹配词;第二扩展元件可以用于基于预定窗口阈值,将被匹配词扩展为多个包括被匹配词的中间匹配词。
在一些实施例中,关系图构建器630可以包括:第一向量化元件、第二向量化元件、第三向量化元件、点抽象元件、点设置元件和点连接元件。其中,第一向量化元件可以用于分别对匹配词和被匹配词进行向量化表示,得到匹配向量值和被匹配向量值;第二向量化元件可以用于累加中间匹配词中的匹配词的匹配向量值,得到中间匹配向量值;第三向量化元件可以用于累加中间匹配词中的被匹配词的被匹配向量值,得到中间被匹配向量值;点抽象元件可以用于基于匹配向量值、被匹配向量值、中间匹配向量值和中间被匹配向量值,分别将匹配词、被匹配词、中间匹配词、中间被匹配词抽象为匹配点、被匹配点、中间匹配点、中间被匹配点;点设置元件可以用于设置源点和汇点;点连接元件可以用于分别将源点、匹配点、中间匹配点、中间被匹配点、被匹配点、汇点进行二分图全连接,构建文本关系图。
在一些实施例中,距离计算器640可以包括:距离计算元件、路径判断元件、路径更新元件和路径累加元件。其中,距离计算元件可以用于计算文本关系图中的任意两个点之间的欧氏距离;路径判断元件可以用于基于任意两个点之间的欧氏距离,判断是否存在源点至汇点之间最短路径;路径更新元件可以用于当存在最短路径时,更新源点至汇点之间的路径,并继续判断更新后的路径是否是剩余路径中的最短路径;路径累加元件可以用于当不存在最短路径时,累加最短路径得到最短距离。
在一些实施例中,第一向量化元件还可以用于:基于word2vec的方式,分别对匹配词和被匹配词进行向量化表示。
在一些实施例中,预定窗口阈值小于等于4且大于等于2。
在一些实施例中,距离阈值与匹配段落文本的数量级的大小正相关。
需要说明的是,上述各实施例的装置可作为上述各实施例的用于各实施例的方法中的执行主体,可以替代匹配组件实现各个方法中的相应流程,实现相同的技术效果,各个实施例可以相互参考和引用,为了简洁,此方面内容不再赘述。
在上述各个实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。例如,将两个元件集成在一个器件中,也可以将一个组件分为两个单独的器件等。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,当其在计算机上运行时,使得计算机执行上述各个实施例中描述的方法。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk,SSD)等。
图7是本发明一实施例的文本匹配装置的框架示意图。
如图7所示,该框架可以包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行图2、图4和图3等实施例所做的各种操作。在RAM703中,还存储有系统架构操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本匹配的方法,其特征在于,包括:
分别对匹配段落文本和被匹配段落文本分词,生成至少一个匹配词和至少一个被匹配词;
将所述匹配词和所述被匹配词分别扩展为中间匹配词和中间被匹配词;
基于将所述匹配词、所述被匹配词、所述中间匹配词、所述中间被匹配词,构建文本关系图;
计算所述文本关系图中从源点到汇点的最短距离;
根据所述最短距离与距离阈值,确定所述匹配段落文本与所述被匹配段落文本匹配。
2.根据权利要求1所述的方法,其特征在于,将所述匹配词和所述被匹配词分别扩展为中间匹配词和中间被匹配词,包括:
基于预定窗口阈值,将所述匹配词扩展为多个包括所述匹配词的所述中间匹配词;
基于所述预定窗口阈值,将所述被匹配词扩展为多个包括所述被匹配词的所述中间匹配词。
3.根据权利要求1所述的方法,其特征在于,所述基于将所述匹配词、所述被匹配词、所述中间匹配词、所述中间被匹配词,构建文本关系图,包括:
分别对所述匹配词和所述被匹配词进行向量化表示,得到匹配向量值和被匹配向量值;
累加所述中间匹配词中的所述匹配词的匹配向量值,得到中间匹配向量值;
累加所述中间匹配词中的所述被匹配词的被匹配向量值,得到中间被匹配向量值;
基于所述匹配向量值、所述被匹配向量值、所述中间匹配向量值和所述中间被匹配向量值,分别将所述匹配词、所述被匹配词、所述中间匹配词、所述中间被匹配词抽象为匹配点、被匹配点、中间匹配点、中间被匹配点;
设置所述源点和所述汇点;
分别将所述源点、所述匹配点、所述中间匹配点、所述中间被匹配点、所述被匹配点、所述汇点进行二分图全连接,构建文本关系图。
4.根据权利要求3所述的方法,其特征在于,计算所述文本关系图中从源点到汇点的最短距离,包括:
计算所述文本关系图中的任意两个点之间的欧氏距离;
基于所述任意两个点之间的欧氏距离,判断是否存在所述源点至所述汇点之间最短路径;
当存在所述最短路径时,更新所述源点至所述汇点之间的路径,并继续判断更新后的路径是否是剩余路径中的最短路径;
当不存在所述最短路径时,累加所述最短路径得到所述最短距离。
5.根据权利要求3所述的方法,其特征在于,分别对所述匹配词和所述被匹配词进行向量化表示,包括:
基于word2vec的方式,分别对所述匹配词和所述被匹配词进行向量化表示。
6.根据权利要求1所述的方法,其特征在于,根据所述最短距离与距离阈值,确定所述匹配段落文本与所述被匹配段落文本匹配,包括:
将所述最短距离与距离阈值比较,获取比较结果;
当所述比较结果指示所述最短距离小于或者等于所述距离阈值时,确定所述匹配段落文本与所述被匹配段落文本匹配。
7.根据权利要求1-6中任一项所述的方法,其特征在于,所述距离阈值与所述匹配段落文本的数量级的大小正相关。
8.一种文本匹配的装置,其特征在于,包括:词语分解器、词语扩展器、关系图构建器、距离计算器和文本匹配器,
所述词语分解器和所述关系图构建器分别与所述词语扩展器耦合,所述关系图构建器和所述文本匹配器分别与所述距离计算器耦合,其中:
所述词语分解器,用于分别对匹配段落文本和被匹配段落文本分词,生成至少一个匹配词和至少一个被匹配词;
所述词语扩展器,用于将所述匹配词和所述被匹配词分别扩展为中间匹配词和中间被匹配词;
所述关系图构建器,用于基于将所述匹配词、所述被匹配词、所述中间匹配词、所述中间被匹配词,构建文本关系图;
所述距离计算器,用于计算所述文本关系图中从源点到汇点的最短距离;
所述文本匹配器,用于根据所述最短距离与距离阈值,确定所述匹配段落文本与所述被匹配段落文本匹配。
9.一种文本匹配的装置,其特征在于,包括:
存储器,用于存放程序;
处理器,用于执行所述存储器存储的程序,所述程序使得所述处理器执行如权利要求1-7中任意一项所述的方法。
10.一种计算机可读存储介质,包括指令,
当所述指令在计算机上运行时,使得计算机执行如权利要求1-7中任意一项所述的方法。
CN201810185499.6A 2018-03-07 2018-03-07 文本匹配的方法、装置和存储介质 Active CN110245342B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810185499.6A CN110245342B (zh) 2018-03-07 2018-03-07 文本匹配的方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810185499.6A CN110245342B (zh) 2018-03-07 2018-03-07 文本匹配的方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN110245342A true CN110245342A (zh) 2019-09-17
CN110245342B CN110245342B (zh) 2023-06-09

Family

ID=67882054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810185499.6A Active CN110245342B (zh) 2018-03-07 2018-03-07 文本匹配的方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN110245342B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021111420A (ja) * 2020-01-15 2021-08-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキストエンティティの語義記述処理方法、装置及び機器
CN115545001A (zh) * 2022-11-29 2022-12-30 支付宝(杭州)信息技术有限公司 一种文本匹配方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1460562A1 (en) * 2002-12-23 2004-09-22 Definiens AG Computerized method and system for searching for text passages from text documents
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN106776544A (zh) * 2016-11-24 2017-05-31 四川无声信息技术有限公司 人物关系识别方法及装置和分词方法
CN106815226A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 文本匹配方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1460562A1 (en) * 2002-12-23 2004-09-22 Definiens AG Computerized method and system for searching for text passages from text documents
CN106815226A (zh) * 2015-11-27 2017-06-09 阿里巴巴集团控股有限公司 文本匹配方法和装置
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN106776544A (zh) * 2016-11-24 2017-05-31 四川无声信息技术有限公司 人物关系识别方法及装置和分词方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
朱振方等: "一种基于语义特征的逻辑段落划分方法及应用", 《计算机科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021111420A (ja) * 2020-01-15 2021-08-02 ベイジン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッド テキストエンティティの語義記述処理方法、装置及び機器
JP7113097B2 (ja) 2020-01-15 2022-08-04 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド テキストエンティティの語義記述処理方法、装置及び機器
US11669690B2 (en) 2020-01-15 2023-06-06 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for processing sematic description of text entity, and storage medium
CN115545001A (zh) * 2022-11-29 2022-12-30 支付宝(杭州)信息技术有限公司 一种文本匹配方法及装置
CN115545001B (zh) * 2022-11-29 2023-04-07 支付宝(杭州)信息技术有限公司 一种文本匹配方法及装置

Also Published As

Publication number Publication date
CN110245342B (zh) 2023-06-09

Similar Documents

Publication Publication Date Title
CN111522958A (zh) 文本分类方法和装置
WO2017075017A1 (en) Automatic conversation creator for news
US20230061778A1 (en) Conversation information processing method, apparatus, computer- readable storage medium, and device
CN112766649B (zh) 基于多评分卡融合的目标对象评价方法及其相关设备
WO2020182123A1 (zh) 用于推送语句的方法和装置
CN111861596B (zh) 一种文本分类方法和装置
CN110674621B (zh) 一种属性信息填充方法和装置
CN112527281B (zh) 基于人工智能的算子升级方法、装置、电子设备及介质
CN109582967B (zh) 舆情摘要提取方法、装置、设备及计算机可读存储介质
CN113326420A (zh) 问题检索方法、装置、电子设备和介质
CN112749300A (zh) 用于视频分类的方法、装置、设备、存储介质和程序产品
CN113901836A (zh) 基于上下文语义的词义消歧方法、装置及相关设备
CN110245342A (zh) 文本匹配的方法、装置和存储介质
US20180150450A1 (en) Comment-centered news reader
CN111563198A (zh) 一种物料召回方法、装置、设备及存储介质
CN112948584B (zh) 短文本分类方法、装置、设备以及存储介质
CN110807097A (zh) 分析数据的方法和装置
US20230085684A1 (en) Method of recommending data, electronic device, and medium
CN114926234A (zh) 物品信息推送方法、装置、电子设备和计算机可读介质
CN113722593B (zh) 事件数据处理方法、装置、电子设备和介质
CN110688508B (zh) 图文数据扩充方法、装置及电子设备
CN114817476A (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN114357180A (zh) 知识图谱的更新方法及电子设备
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN112926295A (zh) 模型推荐方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant