CN106815197B

CN106815197B - 文本相似度的确定方法和装置

Info

Publication number: CN106815197B
Application number: CN201510850382.1A
Authority: CN
Inventors: 刘粉香
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2015-11-27
Filing date: 2015-11-27
Publication date: 2020-07-31
Anticipated expiration: 2035-11-27
Also published as: CN106815197A

Abstract

本申请公开了一种文本相似度的确定方法和装置。其中，该方法包括：将第一中文文本中的汉字转化为拼音，得到第一拼音文本，将第二中文文本中的汉字转化为拼音，得到第二拼音文本；以词语为单元从第一拼音文本中提取出多个第一字符串，以词语为单元从第二拼音文本中提取出多个第二字符串；计算第一字符串Ai与第二字符串Bj的相似度，其中，i取1至m，j取1至n，其中，m为多个第一字符串中第一字符串的个数，n为多个第二字符串中第二字符串的个数；以及将计算出的最大的相似度确定为第一中文文本与第二中文文本的相似度。本申请解决了现有技术难以有效识别因拼写错误造成的相似文本的技术问题。

Description

文本相似度的确定方法和装置

技术领域

本申请涉及文本处理领域，具体而言，涉及一种文本相似度的确定方法和装置。

背景技术

在对文本进行分析的过程中，经常需要对文本进行纠错，即，将文本中所出现的错误用词进行纠正，比如，根据用户输入的“危险拉面”，区分出用户可能的目标词为相似文本“味千拉面”。而对于相似文本的确定方法，目前主要是计算字符串之间相似词语的个数，相似个数越多，表示文本的相似度越高。

然而，发明人发现现有技术的方案对于因拼写错误造成的相似文本很难有效识别，如，其识别结果中“千叶拉面”与“味千拉面”的相似度比“危险拉面”与“味千拉面”的相似度更高。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种文本相似度的确定方法和装置，以至少解决现有技术难以有效识别因拼写错误造成的相似文本的技术问题。

根据本申请实施例的一个方面，提供了一种文本相似度的确定方法，包括：将第一中文文本中的汉字转化为拼音，得到第一拼音文本，将第二中文文本中的汉字转化为拼音，得到第二拼音文本；以词语为单元从所述第一拼音文本中提取出多个第一字符串，以词语为单元从所述第二拼音文本中提取出多个第二字符串，其中，所述第一字符串为第一中文文本中多个连续的词语对应的拼音，所述第二字符串为第二中文文本中多个连续的词语对应的拼音；计算第一字符串Ai与第二字符串Bj的相似度，其中，i取1至m，j取1至n，其中，m为所述多个第一字符串中第一字符串的个数，n为多个第二字符串中第二字符串的个数；以及将计算出的最大的相似度确定为所述第一中文文本与所述第二中文文本的相似度。

进一步地，计算第一字符串Ai与第二字符串Bj的相似度包括以下至少之一：根据第一字符串Ai和第二字符串Bj的字符个数和相同字符的位置计算第一字符串Ai与第二字符串Bj的字符相似度；根据第一字符串Ai和第二字符串Bj的声母个数和相同声母的位置计算第一字符串Ai与第二字符串Bj的声母相似度；根据第一字符串Ai和第二字符串Bj的韵母个数和相同韵母的位置计算第一字符串Ai与第二字符串Bj的韵母相似度；根据第一字符串Ai和第二字符串Bj的整体认读音节个数和相同整体认读音节的位置计算第一字符串Ai与第二字符串Bj的整体认读音节相似度；根据第一字符串Ai和第二字符串Bj的声调个数和相同声调的位置计算第一字符串Ai与第二字符串Bj的声调相似度。

进一步地，在计算出的相似度包括所述字符相似度、所述声母相似度、所述韵母相似度、所述整体认读音节相似度、所述声调相似度中至少两个的情况下，计算第一字符串Ai与第二字符串Bj的相似度还包括：计算所述字符相似度、所述声母相似度、所述韵母相似度、所述整体认读音节相似度、所述声调相似度中至少两个的加权平均值，作为第一字符串Ai与第二字符串Bj的相似度。

进一步地，计算第一字符串Ai与第二字符串Bj的相似度包括：按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数；由第一字符串Ai中每种拼音单元的个数生成第一特征向量，由第二字符串Bj中每种拼音单元的个数生成第二特征向量；计算所述第一特征向量与所述第二特征向量的距离，作为第一字符串Ai与第二字符串Bj的相似度。

进一步地，按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数包括：将汉字中的一个声母作为一个拼音单元，一个韵母作为一个拼音单元，统计第一字符串Ai中每种声母和每种韵母的个数以及第二字符串Bj中每种声母和每种韵母的个数；或者，将汉字中的一个整体认读音节作为一个拼音单元，非整体认读音节的汉语拼音的一个声母作为一个拼音单元，非整体认读音节的汉语拼音的一个韵母作为一个拼音单元，统计第一字符串Ai中每种声母、每种韵母以及每种整体认读音节的个数以及第二字符串Bj中每种声母、每种韵母以及每种整体认读音节的个数。

根据本申请实施例的另一方面，还提供了一种文本相似度的确定装置，包括：转化单元，用于将第一中文文本中的汉字转化为拼音，得到第一拼音文本，将第二中文文本中的汉字转化为拼音，得到第二拼音文本；提取单元，用于以词语为单元从所述第一拼音文本中提取出多个第一字符串，以词语为单元从所述第二拼音文本中提取出多个第二字符串，其中，所述第一字符串为第一中文文本中多个连续的词语对应的拼音，所述第二字符串为第二中文文本中多个连续的词语对应的拼音；计算单元，用于计算第一字符串Ai与第二字符串Bj的相似度，其中，i取1至m，j取1至n，其中，m为所述多个第一字符串中第一字符串的个数，n为多个第二字符串中第二字符串的个数；以及确定单元，用于将计算出的最大的相似度确定为所述第一中文文本与所述第二中文文本的相似度。

进一步地，所述计算单元包括以下至少之一：第一计算模块，用于根据第一字符串Ai和第二字符串Bj的字符个数和相同字符的位置计算第一字符串Ai与第二字符串Bj的字符相似度；第二计算模块，用于根据第一字符串Ai和第二字符串Bj的声母个数和相同声母的位置计算第一字符串Ai与第二字符串Bj的声母相似度；第三计算模块，用于根据第一字符串Ai和第二字符串Bj的韵母个数和相同韵母的位置计算第一字符串Ai与第二字符串Bj的韵母相似度；第四计算模块，用于根据第一字符串Ai和第二字符串Bj的整体认读音节个数和相同整体认读音节的位置计算第一字符串Ai与第二字符串Bj的整体认读音节相似度；第五计算模块，用于根据第一字符串Ai和第二字符串Bj的声调个数和相同声调的位置计算第一字符串Ai与第二字符串Bj的声调相似度。

进一步地，所述计算单元还包括：第六计算模块，用于在计算出的相似度包括所述字符相似度、所述声母相似度、所述韵母相似度、所述整体认读音节相似度、所述声调相似度中至少两个的情况下，计算所述字符相似度、所述声母相似度、所述韵母相似度、所述整体认读音节相似度、所述声调相似度中至少两个的加权平均值，作为第一字符串Ai与第二字符串Bj的相似度。

进一步地，所述计算单元包括：统计模块，用于按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数；生成模块，用于由第一字符串Ai中每种拼音单元的个数生成第一特征向量，由第二字符串Bj中每种拼音单元的个数生成第二特征向量；距离计算模块，用于计算所述第一特征向量与所述第二特征向量的距离，作为第一字符串Ai与第二字符串Bj的相似度。

进一步地，所述统计模块具体用于将汉字中的一个声母作为一个拼音单元，一个韵母作为一个拼音单元，统计第一字符串Ai中每种声母和每种韵母的个数以及第二字符串Bj中每种声母和每种韵母的个数；或者，所述统计模块具体用于将汉字中的一个整体认读音节作为一个拼音单元，非整体认读音节的汉语拼音的一个声母作为一个拼音单元，非整体认读音节的汉语拼音的一个韵母作为一个拼音单元，统计第一字符串Ai中每种声母、每种韵母以及每种整体认读音节的个数以及第二字符串Bj中每种声母、每种韵母以及每种整体认读音节的个数。

根据本申请实施例，通过将第一中文文本中的汉字转化为拼音，得到第一拼音文本，将第二中文文本中的汉字转化为拼音，得到第二拼音文本；以词语为单元从第一拼音文本中提取出多个第一字符串，以词语为单元从第二拼音文本中提取出多个第二字符串，其中，第一字符串为第一中文文本中多个连续的词语对应的拼音，第二字符串为第二中文文本中多个连续的词语对应的拼音；计算第一字符串Ai与第二字符串Bj的相似度，其中，i取1至m，j取1至n，其中，m为多个第一字符串中第一字符串的个数，n为多个第二字符串中第二字符串的个数；将计算出的最大的相似度确定为第一中文文本与第二中文文本的相似度，解决了现有技术难以有效识别因拼写错误造成的相似文本的技术问题，实现了对因拼写错误造成的相似文本的识别。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的文本相似度的确定方法的流程图；

图2是根据本申请实施例的文本相似度的确定装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本申请实施例，提供了一种文本相似度的确定方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本申请实施例中的文本相似度的确定方法主要用于因拼写错误写出的文本与正确拼写写出的文本之间的相似度，可以用于对文本错误进行纠正。

图1是根据本申请实施例的文本相似度的确定方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，将第一中文文本中的汉字转化为拼音，得到第一拼音文本，将第二中文文本中的汉字转化为拼音，得到第二拼音文本。

其中，第一中文文本和第二中文文本均可以为文章、段落、语句、短语等。第一中文文本和第二中文文本为待确定相似度的两个文本。本实施例中，将第一中文文本和第二中文文本分别转化成拼音文本。即将中文文本中每个字转化成其对应的拼音，形成拼音文本。例如，将“兴高采烈”转化为“xing gao cai lie”。

步骤S104，以词语为单元从第一拼音文本中提取出多个第一字符串，以词语为单元从第二拼音文本中提取出多个第二字符串，其中，第一字符串为第一中文文本中多个连续的词语对应的拼音，第二字符串为第二中文文本中多个连续的词语对应的拼音。

在将中文文本转化为拼音文本之后，从中提取由多个连续的词语对应的拼音形成的字符串(第一字符串和第二字符串的提取方式相同)，例如，文本“请问长江大桥在什么地方”转化为“qing wen chang jiang da qiao zai shen mo di fang”，其中包含的词语为“qing wen”、“chang jiang”、“da qiao”、“zai”、“shen mo”、“di fang”，然后以词语为单位，从中提取出的字符串包括：“qing wen chang jiang”、“qing wen chang jiang daqiao”、“qing wen chang jiang da qiao zai”、“qing wen chang jiang da qiao zaishen mo”、“qing wen chang jiang da qiao zai shen mo di fang”、“chang jiang daqiao”、“chang jiang da qiao zai”、“chang jiang da qiao zai shen mo”、“changjiang da qiao zai shen mo di fang”、“da qiao zai”、“da qiao zai shen mo”、“daqiao zai shen mo di fang”、“zai shen mo”、“zai shen mo di fang”、“shen mo difang”。从上述例子中可以看出，其中提取的字符串的排列顺序与原拼音文本中的字符的排列顺序保持一致。

需要说明的是，本申请实施例中，对第一拼音文本和第二拼音文本进行字符串的提取时，提取所有满足条件的字符串。

步骤S106，计算第一字符串Ai与第二字符串Bj的相似度，其中，i取1至m，j取1至n，其中，m为多个第一字符串中第一字符串的个数，n为多个第二字符串中第二字符串的个数。

步骤S108，将计算出的最大的相似度确定为第一中文文本与第二中文文本的相似度。

在提取到字符串之后，将可以采用车轮法计算第一拼音文本中第一字符串与第二拼音文本中第二字符串的相似度。假如从第一拼音文本中提取出第一字符串包括：第一字符串A1至第一字符串A15，第二拼音文本中提取出的第二字符串包括：第二字符串B1至第二字符串B15，在计算相似度时，计算第一字符串A1与第二字符串B1至第二字符串B15中每一个第二字符串的相似度，然后计算第一字符串A2与第二字符串B1至第二字符串B15中每一个第二字符串的相似度，直到计算出第一字符串A15与第二字符串B1至第二字符串B15中每一个第二字符串的相似度。在计算出上述相似度之后，将其中最大的相似度作为第一中文文本和第二中文文本的相似度。

这样当两个中文文本中存在区别的两个词语为“危险拉面”与“味千拉面”，经过本申请实施例的方案进行检测之后，确定出的“千叶拉面”与“味千拉面”的相似度比“危险拉面”与“味千拉面”的相似度更低，能够确定出拼写错误的文本的相似文本。

优选地，计算第一字符串Ai与第二字符串Bj的相似度包括以下至少之一：根据第一字符串Ai和第二字符串Bj的字符个数和相同字符的位置计算第一字符串Ai与第二字符串Bj的字符相似度；根据第一字符串Ai和第二字符串Bj的声母个数和相同声母的位置计算第一字符串Ai与第二字符串Bj的声母相似度；根据第一字符串Ai和第二字符串Bj的韵母个数和相同韵母的位置计算第一字符串Ai与第二字符串Bj的韵母相似度；根据第一字符串Ai和第二字符串Bj的整体认读音节个数和相同整体认读音节的位置计算第一字符串Ai与第二字符串Bj的整体认读音节相似度；根据第一字符串Ai和第二字符串Bj的声调个数和相同声调的位置计算第一字符串Ai与第二字符串Bj的声调相似度。

本实施例中，字符相似度可根据字符的个数、两个字符串中相同字符的位置差异进行计算，相同字符位置差异越小相似度越高；声母相似度可根据拼音中声母的个数和相同声母位置差异进行计算；韵母相似度可根据拼音中韵母的个数和相同韵母位置差异进行计算；整体认读音节相似度可根据拼音中整体认读音节的个数和相同整体认读音节位置差异进行计算；声调相似度可根据拼音中声调的个数和相同声调位置差异进行计算。

根据本申请实施例，通过使用字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度五个方面的相似度进行字符串的相似度计算，能够很好解决中文文本口语发音、简称等方面问题；结合车轮法比较文本相似度，能够比较文本在字面和读音上的相似性，从而大大提高文本相似度计算的准确性问题。

进一步地，在计算出的相似度包括字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度中至少两个的情况下，计算第一字符串Ai与第二字符串Bj的相似度还包括：计算字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度中至少两个的加权平均值，作为第一字符串Ai与第二字符串Bj的相似度。

当计算的相似度为上述中多个相似度时，可以先定义拼音文本中字符串的字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度5个相似度各自的权重，计算的两个字符串的相似度为其的加权平均值。

根据本申请实施中，通过计算字符串的多个指标(字符、声母、韵母、整体认读音节和声调)的相似度，并加权平均得到最终字符串的相似度，提高了字符串相似度的准确性。

可选地，计算第一字符串Ai与第二字符串Bj的相似度包括：按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数；由第一字符串Ai中每种拼音单元的个数生成第一特征向量，由第二字符串Bj中每种拼音单元的个数生成第二特征向量；计算第一特征向量与第二特征向量的距离，作为第一字符串Ai与第二字符串Bj的相似度。

汉语拼音的拼写规则为声母加上韵母，即每个汉字对应的拼音为一个或者多个拼音单元所组成，其中，可以将声母和韵母作为拼音单元。由于汉语拼音中还包括整体认读音节，因此，该整体认读音节也可以作为拼音单元。

例如，将字符串“xing gao cai lie”，其中，拆分成的拼音单元可以是“x”、“ing”、“g”、“ao”、“c”、“ai”、“l”、“ie”，各拼音单元的个数均为1。字符串“gao gao xing xing”，统计后“g”、“ao”、“x”、“ing”的个数均为2。

在统计出两个字符串中每种拼音单元的个数之后，由该个数生成相应的特征向量，该特征向量可以是包括多个维度的向量，其中，第一特征向量与第二特征向量的维度数量相同。

可选地，特征向量的生成方式可以是对目前汉语拼音中所有的拼音单元的种类按照预设顺序排序，每个种类的拼音单元对应特征向量的一个维度，拼音文本中每种拼音单元的个数作为拼音单元在特征向量中相应维度的值；还可以是统计两个拼音文本中所出现的所有的拼音单元的种类，生成与种类数相应数量的维度的特征向量，其中，每个字符串中统计的每种拼音单元的个数作为相应的拼音文本对应的特征向量中相应维度的值。例如，“gao gao xing xing”与“gao gao xin xin”两个字符串，其中，拼音单元的种类有“g”、“ao”、“x”、“ing”、“in”，因此生成的特征向量具有5个维度，其中，按照上述排序(“g”、“ao”、“x”、“ing”、“in”)生成的第一特征向量为[2,2,2,2,0],第二特征向量为[2,2,2,0,2]。

在生成第一特征向量与第二特征向量之后，计算这两个向量之间的距离，该距离可以是欧式距离等，作为两个字符串的相似度。

进一步地，按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数包括：将汉字中的一个声母作为一个拼音单元，一个韵母作为一个拼音单元，统计第一字符串Ai中每种声母和每种韵母的个数以及第二字符串Bj中每种声母和每种韵母的个数。

由于现有的汉语拼音采用拉丁字母，分为声母和韵母，因此，每个汉字中都可以拆分成声母和韵母(有些字则只有韵母，如“爱”等)，本实施例中，将每个声母作为一个拼音单元，每个韵母作为一个拼音单元，将拼音文本中每个汉字拆分成声母和韵母，并统计每种声母及每种韵母的个数。

可选地，按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数包括：将汉字中的一个整体认读音节作为一个拼音单元，非整体认读音节的汉语拼音的一个声母作为一个拼音单元，非整体认读音节的汉语拼音的一个韵母作为一个拼音单元，统计第一字符串Ai中每种声母、每种韵母以及每种整体认读音节的个数以及第二字符串Bj中每种声母、每种韵母以及每种整体认读音节的个数。

由于汉语拼音中包含有添加一个韵母后读音仍和声母一样(或者添加一个声母后读音仍和韵母一样)的音节，即整体认读音节。本实施例中，将整体认读音节作为一个拼音单元，非整体认读音节的汉语拼音，则将声母和韵母分别作为拼音单元，统计出每种拼音单元的个数。例如，汉语拼音中包括23个声母、24个韵母和16个整体认读音节，因此，拼音单元共有63种。

本申请实施例还提供了一种文本相似度的确定装置，该装置可以用于执行本申请实施例的文本相似度的确定方法，如图2所示，该装置包括：转化单元10、提取单元20、计算单元30和确定单元40。

转化单元10用于将第一中文文本中的汉字转化为拼音，得到第一拼音文本，将第二中文文本中的汉字转化为拼音，得到第二拼音文本。

提取单元20用于以词语为单元从第一拼音文本中提取出多个第一字符串，以词语为单元从第二拼音文本中提取出多个第二字符串，其中，第一字符串为第一中文文本中多个连续的词语对应的拼音，第二字符串为第二中文文本中多个连续的词语对应的拼音。

计算单元30用于计算第一字符串Ai与第二字符串Bj的相似度，其中，i取1至m，j取1至n，其中，m为多个第一字符串中第一字符串的个数，n为多个第二字符串中第二字符串的个数。

确定单元40用于将计算出的最大的相似度确定为第一中文文本与第二中文文本的相似度。

优选地，计算单元包括以下至少之一：第一计算模块，用于根据第一字符串Ai和第二字符串Bj的字符个数和相同字符的位置计算第一字符串Ai与第二字符串Bj的字符相似度；第二计算模块，用于根据第一字符串Ai和第二字符串Bj的声母个数和相同声母的位置计算第一字符串Ai与第二字符串Bj的声母相似度；第三计算模块，用于根据第一字符串Ai和第二字符串Bj的韵母个数和相同韵母的位置计算第一字符串Ai与第二字符串Bj的韵母相似度；第四计算模块，用于根据第一字符串Ai和第二字符串Bj的整体认读音节个数和相同整体认读音节的位置计算第一字符串Ai与第二字符串Bj的整体认读音节相似度；第五计算模块，用于根据第一字符串Ai和第二字符串Bj的声调个数和相同声调的位置计算第一字符串Ai与第二字符串Bj的声调相似度。

优选地，计算单元还包括：第六计算模块，用于在计算出的相似度包括字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度中至少两个的情况下，计算字符相似度、声母相似度、韵母相似度、整体认读音节相似度、声调相似度中至少两个的加权平均值，作为第一字符串Ai与第二字符串Bj的相似度。

可选地，计算单元包括：统计模块，用于按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数；生成模块，用于由第一字符串Ai中每种拼音单元的个数生成第一特征向量，由第二字符串Bj中每种拼音单元的个数生成第二特征向量；距离计算模块，用于计算第一特征向量与第二特征向量的距离，作为第一字符串Ai与第二字符串Bj的相似度。

进一步地，统计模块具体用于将汉字中的一个声母作为一个拼音单元，一个韵母作为一个拼音单元，统计第一字符串Ai中每种声母和每种韵母的个数以及第二字符串Bj中每种声母和每种韵母的个数。

可选地，统计模块具体用于将汉字中的一个整体认读音节作为一个拼音单元，非整体认读音节的汉语拼音的一个声母作为一个拼音单元，非整体认读音节的汉语拼音的一个韵母作为一个拼音单元，统计第一字符串Ai中每种声母、每种韵母以及每种整体认读音节的个数以及第二字符串Bj中每种声母、每种韵母以及每种整体认读音节的个数。

所述文本相似度的确定装置包括处理器和存储器，上述转化单元10、提取单元20、计算单元30和确定单元40等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来确定文本之间的相似度。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(f l ash RAM)，存储器包括至少一个存储芯片。

本申请还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序代码：将第一中文文本中的汉字转化为拼音，得到第一拼音文本，将第二中文文本中的汉字转化为拼音，得到第二拼音文本；以词语为单元从第一拼音文本中提取出多个第一字符串，以词语为单元从第二拼音文本中提取出多个第二字符串；计算第一字符串Ai与第二字符串Bj的相似度，其中，i取1至m，j取1至n，其中，m为多个第一字符串中第一字符串的个数，n为多个第二字符串中第二字符串的个数；以及将计算出的最大的相似度确定为第一中文文本与第二中文文本的相似度。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文本相似度的确定方法，其特征在于，包括：

将第一中文文本中的汉字转化为拼音，得到第一拼音文本，将第二中文文本中的汉字转化为拼音，得到第二拼音文本；

以词语为单元从所述第一拼音文本中提取出多个第一字符串，以词语为单元从所述第二拼音文本中提取出多个第二字符串，其中，所述第一字符串为第一中文文本中多个连续的词语对应的拼音，所述第二字符串为第二中文文本中多个连续的词语对应的拼音；

计算第一字符串Ai与第二字符串Bj的相似度，其中，i取1至m，j取1至n，m为所述多个第一字符串中第一字符串的个数，n为所述多个第二字符串中第二字符串的个数；以及

将计算出的最大的相似度确定为所述第一中文文本与所述第二中文文本的相似度；

其中，计算第一字符串Ai与第二字符串Bj的相似度包括：按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数；由第一字符串Ai中每种拼音单元的个数生成第一特征向量，由第二字符串Bj中每种拼音单元的个数生成第二特征向量；计算所述第一特征向量与所述第二特征向量的距离，作为第一字符串Ai与第二字符串Bj的相似度。

2. 根据权利要求1所述的方法，其特征在于，在计算出的相似度包括所述第一特征向量与所述第二特征向量的距离的情况下，按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数包括：

将汉字中的一个声母作为一个拼音单元，一个韵母作为一个拼音单元，统计第一字符串Ai中每种声母和每种韵母的个数以及第二字符串Bj中每种声母和每种韵母的个数；或者

将汉字中的一个整体认读音节作为一个拼音单元，非整体认读音节的汉语拼音的一个声母作为一个拼音单元，非整体认读音节的汉语拼音的一个韵母作为一个拼音单元，统计第一字符串Ai中非整体认读音节所包含的每种声母、非整体认读音节所包含的每种韵母以及每种整体认读音节的个数以及第二字符串Bj中非整体认读音节所包含的每种声母、非整体认读音节所包含的每种韵母以及每种整体认读音节的个数。

3.一种文本相似度的确定装置，其特征在于，包括：

转化单元，用于将第一中文文本中的汉字转化为拼音，得到第一拼音文本，将第二中文文本中的汉字转化为拼音，得到第二拼音文本；

提取单元，用于以词语为单元从所述第一拼音文本中提取出多个第一字符串，以词语为单元从所述第二拼音文本中提取出多个第二字符串，其中，所述第一字符串为第一中文文本中多个连续的词语对应的拼音，所述第二字符串为第二中文文本中多个连续的词语对应的拼音；

计算单元，用于计算第一字符串Ai与第二字符串Bj的相似度，其中，i取1至m，j取1至n，其中，m为所述多个第一字符串中第一字符串的个数，n为所述多个第二字符串中第二字符串的个数；以及

确定单元，用于将计算出的最大的相似度确定为所述第一中文文本与所述第二中文文本的相似度；

其中，计算单元包括:统计模块，用于按照汉语拼音的规则统计第一字符串Ai中每种拼音单元的个数和第二字符串Bj中每种拼音单元的个数；生成模块，用于由第一字符串Ai中每种拼音单元的个数生成第一特征向量，由第二字符串Bj中每种拼音单元的个数生成第二特征向量；距离计算模块，用于计算所述第一特征向量与所述第二特征向量的距离，作为第一字符串Ai与第二字符串Bj的相似度。

4.根据权利要求3所述的装置，其特征在于，在所述计算单元包括统计模块、生成模块和距离计算模块的情况下，所述统计模块具体用于将汉字中的一个声母作为一个拼音单元，一个韵母作为一个拼音单元，统计第一字符串Ai中每种声母和每种韵母的个数以及第二字符串Bj中每种声母和每种韵母的个数；或者，所述统计模块具体用于将汉字中的一个整体认读音节作为一个拼音单元，非整体认读音节的汉语拼音的一个声母作为一个拼音单元，非整体认读音节的汉语拼音的一个韵母作为一个拼音单元，统计第一字符串Ai中非整体认读音节所包含的每种声母、非整体认读音节所包含的每种韵母以及每种整体认读音节的个数以及第二字符串Bj中非整体认读音节所包含的每种声母、非整体认读音节所包含的每种韵母以及每种整体认读音节的个数。