CN111460098B - 文本匹配方法、装置及终端设备 - Google Patents
文本匹配方法、装置及终端设备 Download PDFInfo
- Publication number
- CN111460098B CN111460098B CN202010231960.4A CN202010231960A CN111460098B CN 111460098 B CN111460098 B CN 111460098B CN 202010231960 A CN202010231960 A CN 202010231960A CN 111460098 B CN111460098 B CN 111460098B
- Authority
- CN
- China
- Prior art keywords
- matched
- text
- current
- document
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000004590 computer program Methods 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001915 proofreading effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于文本识别技术领域,提供了文本匹配方法、装置及终端设备,该文本匹配方法包括:获取第一待匹配文档和第二待匹配文档,然后将第一待匹配文档划分为至少一个第一待匹配文本,将第二待匹配文档划分为至少一个第二待匹配文本,并计算当前第一待匹配文本与各个第二待匹配文本的相似度,并基于该相似度确定与当前第一待匹配文本匹配的第二待匹配文本,从而实现第一待匹配文档和第二待匹配文档之间的多文本匹配,能够提高多文本之间的匹配效率。
Description
技术领域
本申请属于文本识别技术领域,尤其涉及文本匹配方法、装置及终端设备。
背景技术
随着计算机对文本信息等各种自然语言处理应用的普及,人们需要一个有效且准确的方法来计算两个文档之间的文本相似度,能极大地提高系统自动问答的精度。而在文档匹配与校对工作中,若两个文档内容段落较多时,在两个文档中查找相似文本段落需要投入大量的时间与人力,查找效率比较低。
发明内容
为克服相关技术中存在的问题,本申请实施例提供了文本匹配方法、装置及终端设备。
本申请是通过如下技术方案实现的:
第一方面,本申请实施例提供了一种文本匹配方法,包括:
获取第一待匹配文档和第二待匹配文档;
将所述第一待匹配文档划分为至少一个第一待匹配文本,将所述第二待匹配文档划分为至少一个第二待匹配文本;
计算当前第一待匹配文本与各个第二待匹配文本的相似度,并基于所述相似度确定与当前第一待匹配文本匹配的第二待匹配文本;其中,所述当前第一待匹配文本为任一所述第一待匹配文本。
在第一方面的第一种可能的实现方式中,所述将所述第一待匹配文档划分为至少一个第一待匹配文本,包括:
按照文本段落将所述第一待匹配文档划分为至少一个第一待匹配文本;
所述将所述第二待匹配文档划分为至少一个第二待匹配文本,包括:
按照文本段落将所述第二待匹配文档划分为至少一个第二待匹配文本。
在第一方面的第二种可能的实现方式中,每个所述第一待匹配文本包含一个第一业务主语,每个所述第二待匹配文本包含一个第二业务主语;
在所述计算当前第一待匹配文本与各个第二待匹配文本的相似度之前,所述方法还包括:
检测所述当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语是否相同;
其中,当前第二待匹配文本为任一第二待匹配文本,且在所述当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语相同的情况下,执行所述计算当前第一待匹配文本与各个第二待匹配文本的相似度的步骤。
在第一方面的第三种可能的实现方式中,所述计算当前第一待匹配文本与各个第二待匹配文本的相似度,并基于所述相似度确定与当前第一待匹配文本匹配的第二待匹配文本,包括:
计算当前第一待匹配文本与当前第二待匹配文本的余弦相似度;
将余弦相似度大于相似度阈值的第二待匹配文本,作为与当前第一待匹配文本匹配的第二待匹配文本。
在第一方面的第四种可能的实现方式中,所述计算当前第一待匹配文本与各个第二待匹配文本的余弦相似度,包括:
将所述当前第一待匹配文本进行分词处理,得到多个第一分词;
对当前第二待匹配文本进行分词处理,得到多个第二分词;其中,当前第二待匹配文本为任一第二待匹配文本;
计算各个第一分词的第一词频,并基于所述第一词频确定第一词频向量;
计算各个第二分词的第二词频,并基于所述第二词频确定第二词频向量;
基于所述第一词频向量和所述第二词频向量,确定所述当前第一待匹配文本与所述当前第二待匹配文本的余弦相似度。
在第一方面的第五种可能的实现方式中,基于所述第一词频向量和所述第二词频向量,确定所述当前第一待匹配文本与所述当前第二待匹配文本的余弦相似度,包括:
计算所述第一词频向量和所述第二词频向量的夹角的余弦值,并将所述余弦值转换为百分比数值,得到所述余弦相似度。
在第一方面的第六种可能的实现方式中,所述方法还包括:
将相匹配的第一待匹配文本和第二待匹配文本绑定,并存储至第一集合中;
将未匹配成功的第一待匹配文本存储至第二集合中;
将未匹配成功的第二待匹配文本存储至第三集合中。
第二方面,本申请实施例提供了一种文本匹配装置,包括:
文档获取模块,用于获取第一待匹配文档和第二待匹配文档;
文本划分模块,用于将所述第一待匹配文档划分为至少一个第一待匹配文本,将所述第二待匹配文档划分为至少一个第二待匹配文本;
文本匹配模块,用于计算当前第一待匹配文本与各个第二待匹配文本的相似度,并基于所述相似度确定与当前第一待匹配文本匹配的第二待匹配文本;其中,所述当前第一待匹配文本为任一所述第一待匹配文本。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的文本匹配方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的文本匹配方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行如第一方面所述的文本匹配方法。
本申请实施例与现有技术相比存在的有益效果是:
本申请实施例,获取第一待匹配文档和第二待匹配文档,然后将第一待匹配文档划分为至少一个第一待匹配文本,将第二待匹配文档划分为至少一个第二待匹配文本,并计算当前第一待匹配文本与各个第二待匹配文本的相似度,并基于该相似度确定与当前第一待匹配文本匹配的第二待匹配文本,从而实现第一待匹配文档和第二待匹配文档之间的多文本匹配,能够提高多文本之间的匹配效率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的文本匹配方法的应用场景示意图;
图2是本申请一实施例提供的文本匹配方法的流程示意图;
图3是本申请一实施例提供的文本匹配方法的流程示意图;
图4是本申请一实施例提供的文本匹配方法的流程示意图;
图5是本申请一实施例提供的文本匹配方法的流程示意图;
图6是本申请一实施例提供的文本匹配方法的流程示意图;
图7是本申请一实施例提供的文本匹配方法的流程示意图;
图8是本申请实施例提供的文本匹配装置的结构示意图;
图9是本申请实施例提供的文本匹配装置的结构示意图;
图10是本申请实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
随着计算机对文本信息等各种自然语言处理应用的普及,人们需要一个有效且准确的方法来计算两个文档之间的文本相似度,能极大地提高系统自动问答的精度。而在文档匹配与校对工作中,若两个文档内容段落较多时,在两个文档中查找相似文本段落需要投入大量的时间与人力,查找效率比较低。
基于上述问题,本申请实施例中的文本匹配方法,获取两个待匹配文档,例如第一待匹配文档和第二待匹配文档,然后将第一待匹配文档划分为至少一个第一待匹配文本,将第二待匹配文档划分为至少一个第二待匹配文本,并计算任一第一待匹配文本与各个第二待匹配文本的相似度,并基于该相似度确定与各个第一待匹配文本匹配的第二待匹配文本,从而实现第一待匹配文档和第二待匹配文档之间的多文本匹配,能够提高多文本之间的匹配效率。
举例说明,本申请实施例可以应用到如图1所示的示例性场景中。其中,终端设备10和服务器20构成上述文本匹配方法的应用场景。
具体的,用户可以通过终端设备10将待匹配的文档(例如第一待匹配文档和第二待匹配文档)发送给服务器20;服务器20将第一待匹配文档划分为至少一个第一待匹配文本,将第二待匹配文档划分为至少一个第二待匹配文本,计算任一第一待匹配文本与各个第二待匹配文本之间的相似度,并基于相似度确定与各个第一待匹配文本匹配的第二待匹配文本。
一个实施例中,可以通过一个终端设备10发送待匹配的文档(例如第一待匹配文档和第二待匹配文档);一个实施例中,可以通过两个终端设备10分别发送待匹配的文档,例如两个终端设备10分别发送第一待匹配文档和第二待匹配文档,本申请实施例对此不予限定。
以下结合图1对本申请的文本匹配方法进行详细说明。
图2是本申请一实施例提供的文本匹配方法的示意性流程图,示例性的,该文本匹配方法可以应用于图1中所示的服务器20,但不以此为限。参照图2,该文本匹配方法的详述如下:
在步骤101中,获取第一待匹配文档和第二待匹配文档。
其中,第一待匹配文档可以为包含多个段落文本的文档,第二待匹配文档可以为包含多个段落文本的文档。
示例性的,可以通过一个终端设备10发送第一待匹配文档和第二待匹配文档到服务器20,服务器20获取第一待匹配文档和第二待匹配文档;也可以通过两个终端设备10分别发送第一待匹配文档和第二待匹配文档到服务器20,服务器20获取第一待匹配文档和第二待匹配文档,本申请实施例对此不予限定。
另外,在步骤101之前,上述文本匹配方法还可以包括:
获取终端设备发送的两个待匹配对象,并检测所述两个待匹配对象是否均为文档,若所述两个待匹配对象均为文档,则执行步骤101,否则,结束对两个待匹配对象的匹配。
在步骤102中,将所述第一待匹配文档划分为至少一个第一待匹配文本,将所述第二待匹配文档划分为至少一个第二待匹配文本。
一个实施例中,可以按照文本段落将上述第一待匹配文档划分为至少一个第一待匹配文本,以及按照文本段落将上述第二待匹配文档划分为至少一个第二待匹配文本。
示例性的,第一待匹配文档可以包含N个文本段落,第二待匹配文档可以包含M个文本段落,则按照文档中的文本段落,可以将第一待匹配文档划分为N个第一待匹配文本,将第二待匹配文档划分为M个第二待匹配文本,然后对N个第一待匹配文本和M个第二待匹配文本执行步骤103。
在步骤103中,计算当前第一待匹配文本与各个第二待匹配文本的相似度,并基于所述相似度确定与当前第一待匹配文本匹配的第二待匹配文本。
其中,所述当前第一待匹配文本为任一所述第一待匹配文本。
以N个第一待匹配文本和M个第二待匹配文本为例,对步骤103进行说明。
将N个第一待匹配文本中的第1个第一待匹配文本作为当前第一待匹配文本,逐个与M个第二待匹配文本进行匹配。具体的,计算第1个第一待匹配文本与M个第二待匹配文本之间的相似度,基于计算出的相似度确定与第1个第一待匹配文本相匹配的第二待匹配文本。
然后,将N个第一待匹配文本中的第2个第一待匹配文本作为当前第一待匹配文本,逐个与M个第二待匹配文本进行匹配。具体的,计算第2个第一待匹配文本与M个第二待匹配文本之间的相似度,基于计算出的相似度确定与第2个第一待匹配文本相匹配的第二待匹配文本。
以此类推,确定各对相匹配的第一待匹配文本和第二待匹配文本。
上述文本匹配方法,获取第一待匹配文档和第二待匹配文档,然后将第一待匹配文档划分为至少一个第一待匹配文本,将第二待匹配文档划分为至少一个第二待匹配文本,并计算当前第一待匹配文本与各个第二待匹配文本的相似度,并基于该相似度确定与当前第一待匹配文本匹配的第二待匹配文本,从而实现第一待匹配文档和第二待匹配文档之间的多文本匹配,能够提高多文本之间的匹配效率。
一个实施例中,每个第一待匹配文本可以包含一个第一业务主语,每个第二待匹配文本可以包含一个第二业务主语;其中,业务主语用于表征待匹配文本对应的业务标识,示例性的,业务主语可以为上海证券交易所等。
参见图3,在步骤103之前,上述文本匹配方法还可以包括:
在步骤104中,检测当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语是否相同;
其中,当前第二待匹配文本为任一第二待匹配文本,且在当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语相同的情况下,执行步骤103;在当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语不相同的情况下,结束对当前第一待匹配文本和当前第二待匹配文本的匹配,结束对当前第一待匹配文本和当前第二待匹配文本的匹配,将下一第二待匹配文本作为当前第二待匹配文本,执行步骤104。
本实施例中,当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语相同的情况下,计算当前第一待匹配文本和当前第二待匹配文本之间的相似度,以此得出当前第一待匹配文本和各个第二待匹配文本之间的相似度。
示例性的,第一待匹配文本的第一业务为深圳证券交易所股票上市规则,业务主语为深圳证券交易所,第二待匹配文本为上海证券交易所股票上市规则,业务主语为上海证券交易所,虽然两个文本本身相似度很高,但是由于第一待匹配文本的业务主语和第二待匹配文本的业务主语不同,所表示意义不同,故可以判定第一待匹配文本和第二待匹配文本为不相似。
参见图4,一个实施例中,基于图2所示的实施例,步骤103可以包括:
在步骤1031中,计算当前第一待匹配文本与当前第二待匹配文本的余弦相似度。
其中,可以基于两个待匹配文本之间的余弦相似度,确定两个待匹配文本是否匹配。
示例性的,参见图5,步骤1031具体可以包括步骤201至步骤205,具体如下:
在步骤201中,将所述当前第一待匹配文本进行分词处理,得到多个第一分词。
在步骤202中,对当前第二待匹配文本进行分词处理,得到多个第二分词;其中,当前第二待匹配文本为任一第二待匹配文本。
在步骤203中,计算各个第一分词的第一词频,并基于所述第一词频确定第一词频向量。
在步骤204中,计算各个第二分词的第二词频,并基于所述第二词频确定第二词频向量。
在步骤205中,基于所述第一词频向量和所述第二词频向量,确定所述当前第一待匹配文本与所述当前第二待匹配文本的余弦相似度。
其中,可以在计算所述第一词频向量和所述第二词频向量的夹角的余弦值后,将该余弦值转换为百分比数值,得到上述余弦相似度。
在步骤1032中,将余弦相似度大于相似度阈值的第二待匹配文本,作为与当前第一待匹配文本匹配的第二待匹配文本。
其中,上述相似度阈值可以由用户设定,也可以采用系统默认值,对此不予限定。例如,该相似度阈值可以为70%、80%等数值,本申请实施例对具体取值不予限定。
参见图6,一个实施例中,基于图所示的实施例,上述文本匹配方法还可以包括:
在步骤105中,将相匹配的第一待匹配文本和第二待匹配文本绑定,并存储至第一集合中,将未匹配成功的第一待匹配文本存储至第二集合中,将未匹配成功的第二待匹配文本存储至第三集合中。
其中,将相匹配的第一待匹配文本和第二待匹配文本绑定并存储至第一集合中,用户能够根据第一集合方便地确定哪些文本之间是对应匹配的,而将未匹配成功的第一待匹配文本和第二待匹配文本分别存储至两个集合中也便于用户进行后续的处理。
图7为本申请实施例提供的文本匹配方法的示意性流程图,参见图7,对该文本匹配方法详述如下:
在步骤301中,获取第一待匹配对象和第二待匹配对象。
在步骤302中,检测第一待匹配对象和第二待匹配对象是否均为文档,若均为文档,则执行步骤303,否则执行步骤314。
在步骤303中,按照文本段落将第一待匹配文档分割为多个第一待匹配文本,将第二待匹配文档分割为多个第二待匹配文本。例如,第一待匹配文档可以被分割为N个第一待匹配文本,第二待匹配文档可以被分割为M个第二待匹配文本。
在步骤304中,检测第i个第一待匹配文本的业务主语与第j个第二待匹配文本的业务主语是否相同。其中,i的取值范围为1≤i≤N,j的取值范围为1≤j≤M。本申请实施例中,i从1开始取值,j从1开始取值。
若第i个第一待匹配文本的业务主语与第j个第二待匹配文本的业务主语相同,则执行步骤305,否则执行步骤310。
在步骤305中,计算第i个第一待匹配文本与第j个第二待匹配文本之间的相似度。
在步骤306中,检测第i个第一待匹配文本与第j个第二待匹配文本的相似度是否大于相似度阈值,若相似度大于相似度阈值,则执行步骤307,否则执行步骤310。
在步骤307中,将第i个第一待匹配文本与第j个当前第二待匹配文本绑定,并存储至第一集合中,并将第j个当前第二待匹配文本移除,避免已完成绑定的第j个当前第二待匹配文本进行后续无必要的重复判断。
在步骤308中,检测i是否等于最大值N,若否则执行步骤309,若是则执行步骤313。
在步骤309中,i=i+1且j=1。即,对下一个第一待匹配文本进行匹配。
在步骤310中,检测j是否等于最大值M,若否则执行步骤311,若是则执行步骤312。
在步骤311中,j=j+1。即,将第j+1个第二待匹配文本与第i个第一待匹配文本进行匹配。
在步骤312中,第i个第一待匹配文本未匹配成功,将第i个第一待匹配文本存储至第二集合。
在步骤313中,将余下未匹配成功的第二待匹配文本存储至第三集合中。
在步骤314中,结束文本匹配。
上述文本匹配方法,获取第一待匹配文档和第二待匹配文档,然后将第一待匹配文档划分为至少一个第一待匹配文本,将第二待匹配文档划分为至少一个第二待匹配文本,并计算当前第一待匹配文本与各个第二待匹配文本的相似度,并基于该相似度确定与当前第一待匹配文本匹配的第二待匹配文本,从而实现第一待匹配文档和第二待匹配文档之间的多文本匹配,能够提高多文本之间的匹配效率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例应用于文本匹配法,图8示出了本申请实施例提供的文本匹配装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参见图8,本申请实施例中的文本匹配装置可以包括文档获取模块401、文本划分模块402和文本匹配模块403。
其中,文档获取模块401,用于获取第一待匹配文档和第二待匹配文档;
文本划分模块402,用于将所述第一待匹配文档划分为至少一个第一待匹配文本,将所述第二待匹配文档划分为至少一个第二待匹配文本;
文本匹配模块403,用于计算当前第一待匹配文本与各个第二待匹配文本的相似度,并基于所述相似度确定与当前第一待匹配文本匹配的第二待匹配文本;其中,所述当前第一待匹配文本为任一所述第一待匹配文本。
可选的,文本划分模块402具体可以用于:
按照文本段落将所述第一待匹配文档划分为至少一个第一待匹配文本;
按照文本段落将所述第二待匹配文档划分为至少一个第二待匹配文本。
可选的,每个所述第一待匹配文本包含一个第一业务主语,每个所述第二待匹配文本包含一个第二业务主语;
参见图9,上述装置还可以包括:
业务主语检测模块404,用于检测所述当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语是否相同;
其中,当前第二待匹配文本为任一第二待匹配文本,且在业务主语检测模块304检测到所述当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语相同的情况下,文本匹配模块303执行相应动作。
参见图9,一个实施例中,文本匹配模块403可以包括:
余弦相似度计算单元4031,用于计算当前第一待匹配文本与当前第二待匹配文本的余弦相似度;
匹配单元4032,用于将余弦相似度大于相似度阈值的第二待匹配文本,作为与当前第一待匹配文本匹配的第二待匹配文本
可选的,余弦相似度计算单元4031具体可以用于:
将所述当前第一待匹配文本进行分词处理,得到多个第一分词;
对当前第二待匹配文本进行分词处理,得到多个第二分词;其中,当前第二待匹配文本为任一第二待匹配文本;
计算各个第一分词的第一词频,并基于所述第一词频确定第一词频向量;
计算各个第二分词的第二词频,并基于所述第二词频确定第二词频向量;
基于所述第一词频向量和所述第二词频向量,确定所述当前第一待匹配文本与所述当前第二待匹配文本的余弦相似度。
可选的,余弦相似度计算单元4031基于所述第一词频向量和所述第二词频向量,确定所述当前第一待匹配文本与所述当前第二待匹配文本的余弦相似度,具体可以为:
计算所述第一词频向量和所述第二词频向量的夹角的余弦值,并将所述余弦值转换为百分比数值,得到所述余弦相似度。
参见图9,一个实施例中,上述装置还可以包括:
存储模块405,用于将相匹配的第一待匹配文本和第二待匹配文本绑定,并存储至第一集合中,将未匹配成功的第一待匹配文本存储至第二集合中,将未匹配成功的第二待匹配文本存储至第三集合中。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种终端设备,参见图10,该终端设备500可以包括:至少一个处理器510、存储器520以及存储在所述存储器520中并可在所述至少一个处理器510上运行的计算机程序,所述处理器510执行所述计算机程序时实现上述任意各个方法实施例中的步骤,例如图2所示实施例中的步骤101至步骤103。或者,处理器510执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如图8所示模块401至403的功能。
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器520中,并由处理器510执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序段,该程序段用于描述计算机程序在终端设备500中的执行过程。
本领域技术人员可以理解,图10仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如输入输出设备、网络接入设备、总线等。
处理器510可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器520可以是终端设备的内部存储单元,也可以是终端设备的外部存储设备,例如插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。所述存储器520用于存储所述计算机程序以及终端设备所需的其他程序和数据。所述存储器520还可以用于暂时地存储已经输出或者将要输出的数据。
总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral Component,PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述文本匹配方法各个实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现上述文本匹配方法各个实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (8)
1.一种文本匹配方法,其特征在于,包括:
获取第一待匹配文档和第二待匹配文档;
将所述第一待匹配文档划分为至少一个第一待匹配文本,将所述第二待匹配文档划分为至少一个第二待匹配文本;每个所述第一待匹配文本包含一个第一业务主语,每个所述第二待匹配文本包含一个第二业务主语;
检测当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语是否相同,所述当前第二待匹配文本为任一第二待匹配文本;
在所述当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语相同的情况下,计算所述当前第一待匹配文本与各个第二待匹配文本的相似度,并基于所述相似度确定与所述当前第一待匹配文本匹配的第二待匹配文本;其中,所述当前第一待匹配文本为任一所述第一待匹配文本;
所述将所述第一待匹配文档划分为至少一个第一待匹配文本,包括:
按照文本段落将所述第一待匹配文档划分为至少一个第一待匹配文本;
所述将所述第二待匹配文档划分为至少一个第二待匹配文本,包括:
按照文本段落将所述第二待匹配文档划分为至少一个第二待匹配文本。
2.如权利要求1所述的文本匹配方法,其特征在于,所述计算所述当前第一待匹配文本与各个第二待匹配文本的相似度,并基于所述相似度确定与当前第一待匹配文本匹配的第二待匹配文本,包括:
计算当前第一待匹配文本与当前第二待匹配文本的余弦相似度;
将余弦相似度大于相似度阈值的第二待匹配文本,作为与当前第一待匹配文本匹配的第二待匹配文本。
3.如权利要求2所述的文本匹配方法,其特征在于,所述计算当前第一待匹配文本与各个第二待匹配文本的余弦相似度,包括:
将所述当前第一待匹配文本进行分词处理,得到多个第一分词;
对当前第二待匹配文本进行分词处理,得到多个第二分词;其中,当前第二待匹配文本为任一第二待匹配文本;
计算各个第一分词的第一词频,并基于所述第一词频确定第一词频向量;
计算各个第二分词的第二词频,并基于所述第二词频确定第二词频向量;
基于所述第一词频向量和所述第二词频向量,确定所述当前第一待匹配文本与所述当前第二待匹配文本的余弦相似度。
4.如权利要求3所述的文本匹配方法,其特征在于,基于所述第一词频向量和所述第二词频向量,确定所述当前第一待匹配文本与所述当前第二待匹配文本的余弦相似度,包括:
计算所述第一词频向量和所述第二词频向量的夹角的余弦值,并将所述余弦值转换为百分比数值,得到所述余弦相似度。
5.如权利要求1至4任一项所述的文本匹配方法,其特征在于,所述方法还包括:
将相匹配的第一待匹配文本和第二待匹配文本绑定,并存储至第一集合中;
将未匹配成功的第一待匹配文本存储至第二集合中;
将未匹配成功的第二待匹配文本存储至第三集合中。
6.一种文本匹配装置,其特征在于,包括:
文档获取模块,用于获取第一待匹配文档和第二待匹配文档;
文本划分模块,用于将所述第一待匹配文档划分为至少一个第一待匹配文本,将所述第二待匹配文档划分为至少一个第二待匹配文本;每个所述第一待匹配文本包含一个第一业务主语,每个所述第二待匹配文本包含一个第二业务主语;所述将所述第一待匹配文档划分为至少一个第一待匹配文本,包括:按照文本段落将所述第一待匹配文档划分为至少一个第一待匹配文本;所述将所述第二待匹配文档划分为至少一个第二待匹配文本,包括:按照文本段落将所述第二待匹配文档划分为至少一个第二待匹配文本;
文本匹配模块,用于检测当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语是否相同,在当前第一待匹配文本的第一业务主语与当前第二待匹配文本的第二业务主语相同的情况下,计算所述当前第一待匹配文本与各个第二待匹配文本的相似度,并基于所述相似度确定与所述当前第一待匹配文本匹配的第二待匹配文本;其中,所述当前第一待匹配文本为任一所述第一待匹配文本,所述当前第二待匹配文本为任一第二待匹配文本。
7.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010231960.4A CN111460098B (zh) | 2020-03-27 | 2020-03-27 | 文本匹配方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010231960.4A CN111460098B (zh) | 2020-03-27 | 2020-03-27 | 文本匹配方法、装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460098A CN111460098A (zh) | 2020-07-28 |
CN111460098B true CN111460098B (zh) | 2023-08-25 |
Family
ID=71680516
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010231960.4A Active CN111460098B (zh) | 2020-03-27 | 2020-03-27 | 文本匹配方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460098B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898378B (zh) * | 2020-07-31 | 2023-09-19 | 中国联合网络通信集团有限公司 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
CN111898380A (zh) * | 2020-08-17 | 2020-11-06 | 上海熙满网络科技有限公司 | 文本匹配方法、装置、电子设备及存储介质 |
CN112100469B (zh) * | 2020-09-23 | 2021-07-27 | 云宝宝大数据产业发展有限责任公司 | 基于大数据的信息数据存储整合系统及方法 |
CN112395851A (zh) * | 2020-11-18 | 2021-02-23 | 北京北大英华科技有限公司 | 一种文本比对方法、装置、计算机设备及可读存储介质 |
CN114969287A (zh) * | 2022-05-19 | 2022-08-30 | 平安科技(深圳)有限公司 | 文档搜索方法、装置、设备及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
CN110929498A (zh) * | 2018-09-20 | 2020-03-27 | 中国移动通信有限公司研究院 | 一种短文本相似度的计算方法及装置、可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102737012B (zh) * | 2011-04-06 | 2015-09-30 | 赛恩倍吉科技顾问(深圳)有限公司 | 文本信息对比方法及系统 |
-
2020
- 2020-03-27 CN CN202010231960.4A patent/CN111460098B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107844559A (zh) * | 2017-10-31 | 2018-03-27 | 国信优易数据有限公司 | 一种文件分类方法、装置及电子设备 |
CN110929498A (zh) * | 2018-09-20 | 2020-03-27 | 中国移动通信有限公司研究院 | 一种短文本相似度的计算方法及装置、可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111460098A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460098B (zh) | 文本匹配方法、装置及终端设备 | |
CN110147722A (zh) | 一种视频处理方法、视频处理装置及终端设备 | |
CN113139387B (zh) | 语义纠错方法、电子设备及存储介质 | |
CN111597309A (zh) | 相似企业推荐方法、装置、电子设备及介质 | |
CN111177358B (zh) | 意图识别方法、服务器及存储介质 | |
CN112597978B (zh) | 指纹匹配方法、装置、电子设备及存储介质 | |
CN113408660B (zh) | 图书聚类方法、装置、设备和存储介质 | |
CN112214576B (zh) | 舆情分析方法、装置、终端设备及计算机可读存储介质 | |
CN112214402B (zh) | 一种代码验证算法的选择方法、装置及存储介质 | |
CN111949793B (zh) | 用户意图识别方法、装置及终端设备 | |
CN113129150A (zh) | 交易数据的处理方法、装置、终端设备及可读存储介质 | |
CN116719997A (zh) | 政策信息推送方法、装置及电子设备 | |
CN112200004B (zh) | 图像检测模型的训练方法、装置及终端设备 | |
CN110287943B (zh) | 图像的对象识别方法、装置、电子设备及存储介质 | |
CN111708715B (zh) | 内存分配方法、内存分配装置及终端设备 | |
CN116844006A (zh) | 一种目标识别方法、装置、电子设备及可读存储介质 | |
CN113255674B (zh) | 字符识别方法、装置、电子设备及计算机可读存储介质 | |
CN112990466A (zh) | 一种冗余规则检测方法、装置以及服务器 | |
CN114116958A (zh) | 审核方法、装置、电子设备和存储介质 | |
CN112711584A (zh) | 一种数据检查方法、检查装置、终端设备及可读存储介质 | |
CN112488557A (zh) | 一种基于评分标准客观分的自动计算方法、装置、终端 | |
CN110909538A (zh) | 问答内容的识别方法、装置、终端设备及介质 | |
CN111967240B (zh) | 文本解析方法、装置、终端设备及计算机可读存储介质 | |
CN112465007B (zh) | 目标识别模型的训练方法、目标识别方法及终端设备 | |
CN111191473B (zh) | 一种翻译文本文件获取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |