CN106815226A

CN106815226A - 文本匹配方法和装置

Info

Publication number: CN106815226A
Application number: CN201510850337.6A
Authority: CN
Inventors: 祝啸风; 阙育飞
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-11-27
Filing date: 2015-11-27
Publication date: 2017-06-09

Abstract

本申请公开了一种文本匹配方法和装置。其中，该方法包括：获取多个待处理文本中各个待处理文本的至少两条词语属性信息，其中，多个待处理文本至少包括待匹配文本和文本库中的多个预存文本，每条词语属性信息用于记录待处理文本所包含的一个词语与待处理文本的索引关系；从多个预存文本的词语属性信息中，提取与待匹配文本的词语属性信息对应的词语属性信息；基于提取到的词语属性信息中记录的索引关系，确定多个预存文本中与待匹配文本匹配的匹配文本，其中，待匹配文本与匹配文本的词语属性信息全部或部分匹配。本申请解决了文本匹配的方法匹配结果不精确的技术问题。

Description

文本匹配方法和装置

技术领域

本申请涉及数据处理领域，具体而言，涉及一种文本匹配方法和装置。

背景技术

现有技术中，可以通过哈希算法进行网页重排和文本信息匹配。现有哈希算法中的局部敏感哈希算法实现文本信息匹配。

具体地，局部敏感哈希(local sensitive hash，即LSH)是一个将高维空间中的相似状态或者临近的点放入同一个桶内的hash算法，一般用于相似文本处理。而局部敏感哈希中的MinHash，用文本中的一个词的哈希值表示该文本的状态，在对两个文本做匹配时，对两个文本的状态进行匹配，即基于两个词的哈希值匹配两个文本，若两个词的哈希值一致，则认为该两个文本为匹配文本。使用该种方法，在应用在长文本匹配时，筛选效率很低。因为长文本中有大量的高频词，很多文本相似度为10％～20％，通过该种方法可能筛选出过多的候选样本，在项目应用中导致时间和内存上都出现问题。

上述的用文本中一个词的哈希值表示该文本，两个文本匹配时，用这两个哈希值做匹配，相同即认为匹配，不相同即认为不匹配的方案，匹配结果不精确。

针对上述文本匹配的方法匹配结果不精确的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种文本匹配方法和装置，以至少解决文本匹配的方法匹配结果不精确的技术问题。

根据本申请实施例的一个方面，提供了一种文本匹配方法，该方法包括：获取多个待处理文本中各个待处理文本的至少两条词语属性信息，其中，多个待处理文本至少包括待匹配文本和文本库中的多个预存文本，每条词语属性信息用于记录待处理文本所包含的一个词语与待处理文本的索引关系；从多个预存文本的词语属性信息中，提取与待匹配文本的词语属性信息对应的词语属性信息；基于提取到的词语属性信息中记录的索引关系，确定多个预存文本中与待匹配文本匹配的匹配文本。

根据本申请实施例的另一方面，还提供了一种文本匹配装置，该文本匹配装置包括：获取单元，用于获取多个待处理文本中各个待处理文本的至少两条词语属性信息，其中，多个待处理文本至少包括待匹配文本和文本库中的多个预存文本，每条词语属性信息用于记录待处理文本所包含的一个词语与待处理文本的索引关系；提取单元，用于从多个预存文本的词语属性信息中，提取与待匹配文本的词语属性信息对应的词语属性信息；匹配单元，用于基于提取到的词语属性信息中记录的索引关系，确定多个预存文本中与待匹配文本匹配的匹配文本。

在本申请实施例中，使用待匹配文本包含的至少两个词表示一个文本的特征，其中，每个词用一个词语属性信息表示，在通过多个文本与待匹配文本进行匹配时，从多个文本的大量的词语属性信息中，分别提取与该待匹配文本的各条词语属性信息匹配的信息，并基于该提取到的信息确定与该待匹配文本相匹配的文本。在现有技术中每个文本的特征用一个词的信息表示，如果该预存文本的信息与待匹配文本的信息相匹配，则认为该预存文本与待匹配文本相匹配，得到匹配条目一般为数千条，；而本申请至少用两个词代表一个文本的特征，在进行信息匹配时，使用至少两条信息进行匹配，筛选精确度高了很多，得到的筛选条目从数千条降低到了数十条，解决了现有技术的文本匹配的方法匹配结果不精确的问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的一种计算机终端的示意图；

图2是根据本申请实施例的文本匹配方法的流程图；

图3是根据本申请实施例的一种可选的文本匹配方法的流程图；

图4是根据本申请实施例的另一种可选的文本匹配方法的流程图；

图5是根据本申请实施例的再一种可选的文本匹配方法的流程图；

图6是根据本申请实施例的文本匹配装置的示意图；

图7是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本申请实施例，还提供了一种文本匹配的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

可选地，在本实施例中，上述文本匹配方法可以应用于如图1所示的终端10和服务器30所构成的硬件环境中，终端可以与服务器通过网络建立连接。上述网络包括但不限于：广域网、城域网或局域网。优选地，上述的网络为局域网。

根据本申请实施例，提供了一种文本匹配方法，如图2所示，该方法可以包括如下步骤：

步骤S201:获取多个待处理文本中各个待处理文本的至少两条词语属性信息，其中，多个待处理文本至少包括待匹配文本和文本库中的多个预存文本。

其中，每条词语属性信息用于记录待处理文本所包含的一个词语与待处理文本的索引关系。

步骤S203：从多个预存文本的词语属性信息中，提取与待匹配文本的词语属性信息对应的词语属性信息。

步骤S205：基于提取到的词语属性信息中记录的索引关系，确定多个预存文本中与待匹配文本匹配的匹配文本。

其中，待匹配文本与匹配文本的词语属性信息全部或部分匹配。

采用本申请上述实施例，使用待匹配文本包含的至少两个词表示一个文本的特征，其中，每个词用一个词语属性信息表示，在通过多个文本与待匹配文本进行匹配时，从多个文本的大量的词语属性信息中，分别提取与该待匹配文本的各条词语属性信息匹配的信息，并基于该提取到的信息确定与该待匹配文本相匹配的文本。在现有技术中每个文本的特征用一个词的信息表示，如果该预存文本的信息与待匹配文本的信息相匹配，则认为该预存文本与待匹配文本相匹配，得到匹配条目一般为数千条，；而本申请至少用两个词代表一个文本的特征，在进行信息匹配时，使用至少两条信息进行匹配，筛选精确度高了很多，得到的筛选条目从数千条降低到了数十条，解决了现有技术的文本匹配的方法匹配结果不精确的问题。

上述实施例中，每条词语属性信息用于记录待处理文本所包含的一个词语与待处理文本的索引关系。

下面结合图3详述上述实施例，如图3所示该申请可以通过如下步骤实现：

步骤S301：获取待匹配文本的至少两条词语属性信息。

其中，待匹配文本可以为用户输入的待匹配文本，可以是文本库中预存的文本，本申请对待匹配文本的来源不做限定。

步骤S302：获取文本库中各个预存文本的至少两条词语属性信息。

上述步骤S301和步骤S302的实现方法与上述步骤S201的实现方法一致，不同之处在于操作对象不同。

其中，该申请中的文本库中的各个预存文本可以为文本库中预先存储的多个样本。

步骤S303：从多个预存文本的词语属性信息中，提取与待匹配文本的词语属性信息对应的词语属性信息。

步骤S304：基于提取到的词语属性信息中记录的索引关系，确定多个预存文本中与待匹配文本匹配的匹配文本。

通过上述实施例，可以在海量的文本库中筛选出相似度较高的文本。

上述实施例中的文本可以为：较长的文本，如大于500M的文本。

上述的获取多个待处理文本中各个待处理文本的至少两条词语属性信息可以为至少10个或至少20个词语的词语属性信息。

根据本申请的上述实施例，基于提取到的词语属性信息中记录的索引关系，确定多个预存文本中与待匹配文本匹配的文本包括：基于提取到的词语属性信息中记录的索引关系，统计各个预存文本的词语属性信息数量；若预存文本的词语属性信息数量达到预设阈值，则确定该预存文本为待匹配文本的候选匹配文本；将确定的多个候选匹配文本，分别与待匹配文本进行余弦匹配操作，得到多个预存文本中与待匹配文本匹配的匹配文本。

可选地，从多个预存文本的词语属性信息中，提取与待匹配文本的词语属性信息对应的词语属性信息之后，统计每个预存文本的词语属性信息，如果某个预存文本的词语属性信息达到预设阈值，则该预存文本为该待匹配文本的候选匹配文本，通过该方案可以找到待匹配文本的一个或多个候选匹配样本。

该预设阈值小于或等于步骤S201获取到的词语属性信息的数量。

通过上述实施例，可以通过文本包含的多个词语的词语属性信息表示该文本，如果两个文本的该多个词语的部分或全部词语的词语属性信息能匹配成功，则确定该两个文本为相匹配的文本，用多个词语信息表示一个文本，得到的候选匹配文本数量大大减小，从而在做余弦匹配时大大减小了计算量，且提高了匹配的精确度。

下面结合图4详述上述实施例，如图4所示该实施例可以通过如下步骤实现：

步骤S401：获取待匹配文本至少两条词语属性信息。每条词语属性信息中可以记录该待匹配文本中一个词语的词语属性与该待匹配文本的索引关系，该词语属性可以为该词语的哈希值。

步骤S402：获取文本库中各个预存文本的至少两条词语属性信息。

上述步骤S401和步骤S402的实现方法与上述步骤S201的实现方法一致，不同之处在于操作对象不同。

步骤S403：从多个预存文本的词语属性信息中，提取与待匹配文本的词语属性信息对应的词语属性信息。

步骤S404：基于提取到的词语属性信息中记录的索引关系，统计每个预存文本的词语属性信息数量。

步骤S405：若预存文本的词语属性信息数量达到预设阈值，则确定该预存文本为待匹配文本的候选匹配文本。

步骤S406：将确定的多个候选匹配文本，分别与待匹配文本进行余弦匹配操作，得到多个预存文本中与待匹配文本匹配的文本。

具体地，可以分别计算每个候选匹配文本与待匹配文本的余弦距离，距离最短的文本为匹配文本。

可选地，可以计算候选匹配文本中的词语和待匹配文本中的词语的余弦距离，计算候选匹配文本中所有词的余弦距离的加权值，将该加权值作为该候选匹配文本与待匹配文本的余弦距离。

根据本申请的上述实施例，基于提取到的词语属性信息中记录的索引关系，统计各个预存文本的词语属性信息数量包括：从提取到的词语属性信息中记录的索引关系中，获取提取到的词语属性信息中的文本标识，其中，同样的文本标识用于表示同样的预存文本；统计各个文本标识的数量，将文本标识的数量作为文本标识所表示的预存文本的词语属性信息数量。

其中，索引关系用于记录一个词语的词语属性(如哈希值)与预存文本的文本标识的对应关系。

下面结合表1详述本申请上述实施例，表1示出了一个可选的实施例中提取到的词语属性信息所记录的词语的信息和文本标识：

表1

词语属性信息记录的词语属性	词语属性信息记录的文本标识
		10101	A
11101	A
		10111	A
10111	B
		11101	C
10101	B
		10101	D
10111	E
		10111	F

10101	G
		10111	H

表1示出的实施例中，词语属性用二进制的字符串表示，该实施例中通过步骤S201获取了每个文本包含的三个词语的词语属性信息，对于待匹配文本来说，该三个词语为：10101、10111和11101。通过该表1中对应同一个文本标识的数量，得到：A表示的预存文本的词语属性信息数量为3，B表示的文本的词语属性信息的数量为2，C、D、E、F、G和H所表示的预存文本的词语属性信息数量分别为1。

若上述实施例中的预设阈值设置为2，则确定A和B所表示的预存文本为候选匹配文本，分别计算两个文本与待匹配文本的词语的余弦距离，谁距离短确定谁为与待匹配文本匹配的匹配文本。

根据本申请的上述实施例，获取多个待处理文本中各个待处理文本的至少两条词语属性信息可以包括：对待处理文本进行分词操作，得到待处理文本的多个词语；计算待处理文本所包含的各个词语的哈希值；从获取的哈希值中，提取N个哈希值，其中，N为大于等于2的自然数；保存提取的各个哈希值与待处理文本的文本标识的索引关系，生成待处理文本的N条词语属性信息。

具体地，从获取的哈希值中，提取N个哈希值包括：从获取的哈希值中，提取前N个数值小的哈希值；或从获取的哈希值中，提取数值小于预设数值的N个哈希值；或确定N个哈希值的哈希序列，其中，哈希序列中的哈希值按照数值从大到小排列；从哈希序列中提取排序在前N位的哈希值。

可选地，从多个预存文本的词语属性信息中，提取与待匹配文本的词语属性信息对应的词语属性信息可以包括：从多个预存文本的词语属性信息中，提取哈希值数值与待匹配文本的任一条词语属性信息中哈希值数值相同的词语属性信息。

下面以相似文本匹配系统shadow为应用场景结合图5详述上述实施例。

如图5所示，在获取到用户给的待匹配文本之后，执行步骤S501：分别对文本库中的所有样本(即上述实施例中的预存文本)和待匹配文本建立索引。

具体地，对文本库中的所有样本建立索引可以通过步骤S502和步骤S503实现：

步骤S502：对每个文本进行分词，并对每个词计算一个hash值。

步骤S503：基于多个哈希值计算索引。

具体地，找出所有词对应hash词中的最小值，用这个hash最小值建立对该文本的索引，即以minHash(即哈希值)为key(可以称之为键)，textID(即上述的文本标识)为value(可以称之为值)存入multiMap(映射图表)，并将multiMap放在内存中。

对用户给出的待匹配文本同样进行上述处理，以创建待匹配文本的处理。

步骤S504：通过索引获取候选匹配文本。

具体地，用这个待匹配文本的索引去索引出textID的集合(即提取到的词语属性信息的集合)。

步骤S505：逐一候选匹配文本的分值，得到匹配文本。

具体地，将这些textID的集合中ID的原文本取出来，进行精确的余弦匹配，找出相似度最高的文本。

在上述实施例中，由于如果对样本库中每个样本去一一匹配，那样对空间和时间的造成的压力太大。因此这个匹配过程可以概括为两个步骤，第一步(即上述的步骤S501至步骤S504)通过局部敏感哈希算法筛选出一部分相似度较高候选样本；第二步(即上述的步骤S505)从这些样本中精确匹配找出最相似的样本。

上述实施例中，通过多值hash算法可以筛选出高相似度样本。

下面结合表2和表3详述本申请实施例。

通过本申请的上述实施例，可以分别获取两个文本的哈希值最小的20个词的词语属性信息，如果这20个词中有9(即上述的预设阈值)个词相似，则认为是相似度高的文本，这样用多个值来代表一个文本的特征。具体地：对文本库中预存的每个文本取哈希值最小的20个词的哈希值，该20个哈希值(即上述的N个哈希值)可以为：minhash1,minhash2…minhash20，获取这20个哈希值与该预存文本的索引关系(该索引关系可以记录词语的哈希值与文本标识的对应关系)生成词语属性信息：

<minhash1,ID>,<minhash2,ID>，<minhash3,ID>……<minhash20,ID>，将该预存文本的20个词语的词语属性信息同时加入Map中。对用户进来的文本(如上述的待匹配文本)同样获取20小的哈希值，并对每个哈希值都从map中取出与该哈希值的数值相同的索引关系所记录的文本ID,这样可以得到该待匹配文本的20个哈希值对应的20个ID表，将这20个ID表合到一个大表格中，对重复出现次数超过9次的文本ID，取出作为初筛出来的候选匹配文本的ID。

在本申请的上述实施例中，对于低相似度的文本选取的概率越低越好，对于高相似度的文本选取概率越高越好，这样才能保证高精确度，低索引条目。因此，用文本的相似度和对应被选取的概率作为指标，可以来检验上述方法的精确度效果：

假设A文本中的词在B文本中出现的概率为p1，即

B文本中的词在A文本出现的概率为p2，即

则两个文本最小的20个hash值有至少9个相同的充要条件是：A文本的最小的20个hash值有至少9个出现在B文本中，且B文本最小的20个hash值有至少9个出现在A文本中。可知两个文本在一个hash值下相似的概率为

再用三个hash值筛选出的结果取并，则两个文本最终被认为相似的概率为：P＝1-(1-P1)³

为了让分析起来更简便和直观，假设p1等于p2，则根据上述公式，将三个hash值取并算在一起得出如表2所示：

表2

其中相似度即代表为p1和p2的值，参数则是三个哈希值取并的参数，表格中所有百分比的数据用于表示对应该参数和该相似度的文本被选取的概率。

从表1可以看到，最终即使相似度在30％，被选取的概率也是很低，而在相似度在70％以上，基本上不会出现被遗漏的情况。

进一步地，从提取到的词语属性信息的数量(如索引数量)上看，可以从表3得出直观的效果：

表3

应用场景	现有技术	本申请
			aliyunUrlAudit-black	920.467813	5.5527426
aliyunUrlAudit-white	1791.374745	31.827333
			aliyunUrlAudit-white2	8387.29873	67.360169

其中，第一列示出了长文本所在的不同应用场景，第二列示出了用现有技术中的哈希算法时平均获取到的索引数量，第三列则是通过本申请上述实施例获取到的索引数量，从表3中可以看到提取到的索引数量上减少明显，在准确率上也有提升。

通过本申请的上述实施例用多个key值来指向同一个文本，然后用部分匹配来匹配不同的文本，例如选最小的15个，比较其中至少7个相同，可以得到精确的候选匹配文本，并进而得到准确的文本。

本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应用场景也可以相同。当然，需要注意的是，上述模块涉及的方案可以不限于上述实施例中的内容和场景，且上述模块可以运行在计算机终端或移动终端，可以通过软件或硬件实现。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种文本匹配装置，如图6所示，该处理装置可以包括：获取单元20、提取单元40以及匹配单元60。

其中，获取单元，用于获取多个待处理文本中各个待处理文本的至少两条词语属性信息，其中，多个待处理文本至少包括待匹配文本和文本库中的多个预存文本，每条词语属性信息用于记录待处理文本所包含的一个词语与待处理文本的索引关系。

提取单元，用于从多个预存文本的词语属性信息中，提取与待匹配文本的词语属性信息对应的词语属性信息。

匹配单元，用于基于提取到的词语属性信息中记录的索引信息，确定多个预存文本中与待匹配文本匹配的匹配文本。其中，待匹配文本与匹配文本的词语属性信息全部或部分匹配。

其中，待匹配文本可以为用户输入的待匹配文本，可以是文本库中预存的文本，本申请对待匹配文本的来源不做限定；该申请中的文本库中的各个预存文本可以为文本库中预先存储的多个样本。

在上述实施例中，匹配单元可以包括：统计模块，用于基于提取到的词语属性信息中记录的索引关系，统计各个预存文本的词语属性信息数量；确定模块，用于若预存文本的词语属性信息数量达到预设阈值，则确定该预存文本为待匹配文本的候选匹配文本；匹配模块，用于将确定的多个候选匹配文本，分别与待匹配文本进行余弦匹配操作，得到多个预存文本中与待匹配文本匹配的匹配文本。

可选地，统计模块可以包括：获取子模块，用于从提取到的词语属性信息中记录的索引关系中，获取文本标识，其中，同样的文本标识用于表示同样的预存文本，索引关系用于记录一个词语的属性信息与预存文本的文本标识的对应关系；统计子模块，用于统计各个文本标识的数量，将文本标识的数量作为文本标识所表示的预存文本的词语属性信息数量。

根据本申请的上述实施例，获取单元可以包括：分词操作模块，用于对待处理文本进行分词操作，得到待处理文本的多个词语；哈希值计算模块，用于计算待处理文本所包含的各个词语的哈希值；哈希值提取模块，用于从获取的哈希值中，提取N个哈希值，其中，N为大于等于2的自然数；生成模块，用于保存提取的各个哈希值与待处理文本的文本标识的索引关系，生成待处理文本的N条词语属性信息。

具体地，哈希值提取模块包括：第一提取子模块，用于从获取的哈希值中，提取前N个数值小的哈希值；或第二提取子模块，用于从获取的哈希值中，提取数值小于预设数值的N个哈希值；或第三提取子模块，用于确定N个哈希值的哈希序列，其中，哈希序列中的哈希值按照数值从小到大排列；从哈希序列中提取排序在前N位的哈希值。

需要说明的是，提取单元可以包括：信息提取模块，用于从多个预存文本的词语属性信息中，提取哈希值数值与待匹配文本的任一条词语属性信息中哈希值数值相同的词语属性信息。

实施例3

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，图7是根据本申请实施例的一种计算机终端的结构框图。如图7所示，该服务器或终端包括：一个或多个(图中仅示出一个)处理器201、存储器203、以及传输装置205(如上述实施例中的发送装置)，如图7所示，该终端还可以包括输入输出设备207。

其中，存储器203可用于存储软件程序以及模块，如本申请实施例中的文本匹配方法对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本匹配方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置205用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置205包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置205为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器203用于存储应用程序。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：

获取多个待处理文本中各个待处理文本的至少两条词语属性信息，其中，该多个待处理文本至少包括待匹配文本和文本库中的多个预存文本，每条该词语属性信息用于记录待处理文本所包含的一个词语与该待处理文本的索引关系；从该多个预存文本的词语属性信息中，提取与该待匹配文本的词语属性信息对应的词语属性信息；基于提取到的词语属性信息中记录的索引关系，确定该多个预存文本中与该待匹配文本匹配的匹配文本。

可选的，上述处理器还可以执行如下步骤：对该待处理文本进行分词操作，得到该待处理文本的多个词语；计算该待处理文本所包含的各个该词语的哈希值；从获取的哈希值中，提取N个哈希值，其中，N为大于等于2的自然数；保存提取的各个该哈希值与该待处理文本的文本标识的索引关系，生成该待处理文本的N条该词语属性信息。

可选的，上述处理器还可以执行如下步骤：从获取的哈希值中，提取前N个数值小的哈希值；或从获取的哈希值中，提取数值小于预设数值的N个哈希值；或确定该N个哈希值的哈希序列，其中，哈希序列中的哈希值按照数值从小到大排列；从该哈希序列中提取排序在前N位的哈希值。

可选的，上述处理器还可以执行如下步骤：从该多个预存文本的词语属性信息中，提取哈希值数值与该待匹配文本的任一条词语属性信息中哈希值数值相同的词语属性信息。

可选的，上述处理器还可以执行如下步骤：基于提取到的词语属性信息中记录的索引关系，统计各个预存文本的词语属性信息数量；若预存文本的词语属性信息数量达到预设阈值，则确定该预存文本为该待匹配文本的候选匹配文本；将确定的多个候选匹配文本，分别与该待匹配文本进行余弦匹配操作，得到该多个预存文本中与该待匹配文本匹配的匹配文本。

可选的，上述处理器还可以执行如下步骤：从该提取到的词语属性信息中记录的索引关系中，获取文本标识，其中，同样的文本标识用于表示同样的预存文本，该索引关系用于记录该一个词语的属性信息与预存文本的文本标识的对应关系；统计各个该文本标识的数量，将该文本标识的数量作为该文本标识所表示的预存文本的词语属性信息数量。

本领域普通技术人员可以理解，图7所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图7其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图7中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图7所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例4

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例一所提供的文本匹配方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对该待处理文本进行分词操作，得到该待处理文本的多个词语；计算该待处理文本所包含的各个该词语的哈希值；从获取的哈希值中，提取N个哈希值，其中，N为大于等于2的自然数；保存提取的各个该哈希值与该待处理文本的文本标识的索引关系，生成该待处理文本的N条该词语属性信息。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从获取的哈希值中，提取前N个数值小的哈希值；或从获取的哈希值中，提取数值小于预设数值的N个哈希值；或确定该N个哈希值的哈希序列，其中，哈希序列中的哈希值按照数值从小到大排列；从该哈希序列中提取排序在前N位的哈希值。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从该多个预存文本的词语属性信息中，提取哈希值数值与该待匹配文本的任一条词语属性信息中哈希值数值相同的词语属性信息。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：基于提取到的词语属性信息中记录的索引关系，统计各个预存文本的词语属性信息数量；若预存文本的词语属性信息数量达到预设阈值，则确定该预存文本为该待匹配文本的候选匹配文本；将确定的多个候选匹配文本，分别与该待匹配文本进行余弦匹配操作，得到该多个预存文本中与该待匹配文本匹配的匹配文本。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：从该提取到的词语属性信息中记录的索引关系中，获取文本标识，其中，同样的文本标识用于表示同样的预存文本，该索引关系用于记录该一个词语的属性信息与预存文本的文本标识的对应关系；统计各个该文本标识的数量，将该文本标识的数量作为该文本标识所表示的预存文本的词语属性信息数量。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本匹配方法，其特征在于，包括：

获取多个待处理文本中各个待处理文本的至少两条词语属性信息，其中，所述多个待处理文本至少包括待匹配文本和文本库中的多个预存文本，每条所述词语属性信息用于记录待处理文本所包含的一个词语与所述待处理文本的索引关系；

从所述多个预存文本的词语属性信息中，提取与所述待匹配文本的词语属性信息对应的词语属性信息；

基于提取到的词语属性信息中记录的索引关系，确定所述多个预存文本中与所述待匹配文本匹配的匹配文本。

2.根据权利要求1所述的方法，其特征在于，基于提取到的词语属性信息中记录的索引关系，确定所述多个预存文本中与所述待匹配文本匹配的匹配文本包括：

基于提取到的词语属性信息中记录的索引关系，统计各个预存文本的词语属性信息数量；

若预存文本的词语属性信息数量达到预设阈值，则确定该预存文本为所述待匹配文本的候选匹配文本；

将确定的多个候选匹配文本，分别与所述待匹配文本进行余弦匹配操作，得到所述多个预存文本中与所述待匹配文本匹配的匹配文本。

3.根据权利要求2所述的方法，其特征在于，基于提取到的词语属性信息中记录的索引关系，统计各个预存文本的词语属性信息数量包括：

从所述提取到的词语属性信息中记录的索引关系中，获取文本标识，其中，同样的文本标识用于表示同样的预存文本，所述索引关系用于记录所述一个词语的属性信息与预存文本的文本标识的对应关系；

统计各个所述文本标识的数量，将所述文本标识的数量作为所述文本标识所表示的预存文本的词语属性信息数量。

4.根据权利要求1至3中任意一项所述的方法，其特征在于，获取多个待处理文本中各个待处理文本的至少两条词语属性信息包括：

对所述待处理文本进行分词操作，得到所述待处理文本的多个词语；

计算所述待处理文本所包含的各个所述词语的哈希值；

从获取的哈希值中，提取N个哈希值，其中，N为大于等于2的自然数；

保存提取的各个所述哈希值与所述待处理文本的文本标识的索引关系，生成所述待处理文本的N条所述词语属性信息。

5.根据权利要求4所述的方法，其特征在于，从获取的哈希值中，提取N个哈希值包括：

从获取的哈希值中，提取前N个数值小的哈希值；或

从获取的哈希值中，提取数值小于预设数值的N个哈希值；或

确定所述N个哈希值的哈希序列，其中，哈希序列中的哈希值按照数值从小到大排列；从所述哈希序列中提取排序在前N位的哈希值。

6.根据权利要求4所述的方法，其特征在于，从所述多个预存文本的词语属性信息中，提取与所述待匹配文本的词语属性信息对应的词语属性信息包括：

从所述多个预存文本的词语属性信息中，提取哈希值数值与所述待匹配文本的任一条词语属性信息中哈希值数值相同的词语属性信息。

7.一种文本匹配装置，其特征在于，包括：

获取单元，用于获取多个待处理文本中各个待处理文本至少两条词语属性信息，其中，所述多个待处理文本至少包括待匹配文本和文本库中的多个预存文本，每条所述词语属性信息用于记录待处理文本所包含的一个词语与所述待处理文本的索引关系；

提取单元，用于从所述多个预存文本的词语属性信息中，提取与所述待匹配文本的词语属性信息对应的词语属性信息；

匹配单元，用于基于提取到的词语属性信息中记录的索引关系，确定所述多个预存文本中与所述待匹配文本匹配的匹配文本。

8.根据权利要求7所述的装置，其特征在于，所述匹配单元包括：

统计模块，用于基于提取到的词语属性信息中记录的索引关系，统计各个预存文本的词语属性信息数量；

确定模块，用于若预存文本的词语属性信息数量达到预设阈值，则确定该预存文本为所述待匹配文本的候选匹配文本；

匹配模块，用于将确定的多个候选匹配文本，分别与所述待匹配文本进行余弦匹配操作，得到所述多个预存文本中与所述待匹配文本匹配的匹配文本。

9.根据权利要求8所述的装置，其特征在于，所述统计模块包括：

获取子模块，用于从所述提取到的词语属性信息中记录的索引关系中，获取文本标识，其中，同样的文本标识用于表示同样的预存文本，所述索引关系用于记录所述一个词语的属性信息与预存文本的文本标识的对应关系；

统计子模块，用于统计各个所述文本标识的数量，将所述文本标识的数量作为所述文本标识所表示的预存文本的词语属性信息数量。

10.根据权利要求7至9中任意一项所述的装置，其特征在于，所述获取单元包括：

分词操作模块，用于对所述待处理文本进行分词操作，得到所述待处理文本的多个词语；

哈希值计算模块，用于计算所述待处理文本所包含的各个所述词语的哈希值；

哈希值提取模块，用于从获取的哈希值中，提取N个哈希值，其中，N为大于等于2的自然数；

生成模块，用于保存提取的各个所述哈希值与所述待处理文本的文本标识的索引关系，生成所述待处理文本的N条所述词语属性信息。

11.根据权利要求10所述的装置，其特征在于，所述哈希值提取模块包括：

第一提取子模块，用于从获取的哈希值中，提取前N个数值小的哈希值；或

第二提取子模块，用于从获取的哈希值中，提取数值小于预设数值的N个哈希值；或

第三提取子模块，用于确定所述N个哈希值的哈希序列，其中，哈希序列中的哈希值按照数值从小到大排列；从所述哈希序列中提取排序在前N位的哈希值。

12.根据权利要求11所述的装置，其特征在于，所述提取单元包括：

信息提取模块，用于从所述多个预存文本的词语属性信息中，提取哈希值数值与所述待匹配文本的任一条词语属性信息中哈希值数值相同的词语属性信息。