CN113569009A

CN113569009A - 基于文本相关性的文本匹配方法、系统和电子设备

Info

Publication number: CN113569009A
Application number: CN202110839643.5A
Authority: CN
Inventors: 王兆元; 郭艳波; 李青龙
Original assignee: Beijing Smart Starlight Information Technology Co ltd
Current assignee: Beijing Smart Starlight Information Technology Co ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2021-10-29
Anticipated expiration: 2041-07-23
Also published as: CN113569009B

Abstract

本发明公开了一种基于文本相关性的文本匹配方法、系统和电子设备，该方法包括：获取语料关键词逆文档频率和每一个语料文本包含的语料关键词个数；将语料文本、语料关键词和对应的逆文档频率得到映射词典；根据待查询文本得到待查询文本关键词；将待查询文本关键词进行词频统计得到词频数统计值；根据待查询关键词和每一个语料文本中包含的语料关键词得到待查询关键词的文档权重值；根据待查询关键词和逆文档频率映射词典得到待查询关键词逆文档映射频率；根据词频数统计值、文档权重值和待查询关键词逆文档映射频率得到相关性分数值；根据相关性分数值得到相关性评分结果；根据相关性评分结果得到文本匹配结果。该方法提高了相关性匹配的精确度。

Description

基于文本相关性的文本匹配方法、系统和电子设备

技术领域

本发明涉及数据处理领域，具体涉及到一种基于文本相关性的文本匹配方法、系统、电子设备及存储介质。

背景技术

目前，通过query对相关性较高的文本进行检索，通常是对文本内含有query的频数统计。由于query分词后的词语在文本中的命中频率较高，但是该词语不是query中的关键词，使得相关性检索匹配的误差较大，导致相关性匹配精度低。

发明内容

有鉴于此，本发明实施例提供了一种基于文本相关性的文本匹配方法、系统、电子设备及存储介质，以解决现有技术中相关性匹配精度低的缺点。

为此，本发明实施例提供了如下技术方案：

根据第一方面，本发明实施例提供了一种基于文本相关性的文本匹配方法，包括：

获取语料库中每一个语料关键词在每一个语料文本中的逆文档频率和每一个语料文本中所包含的语料关键词个数；

将语料文本、语料关键词和语料关键词的逆文档频率进行映射，得到所有语料关键词的逆文档频率映射词典，所述逆文档频率映射词典用于表征每一个语料文本中的语料关键词和语料关键词对应的逆文档频率的对应关系；

获取待查询文本；

对所述待查询文本进行分词和关键词提取，得到待查询文本对应的待查询文本关键词；

将待查询文本关键词在语料库中进行词频统计，得到待查询文本关键词在每一个语料文本中的词频数统计值；

根据待查询关键词和每一个语料文本中所包含的语料关键词得到待查询关键词在每一个语料文本中的文档权重值；

根据待查询关键词和逆文档频率映射词典得到待查询关键词在每一语料文本中对应的待查询关键词逆文档映射频率；

根据待查询文本关键词在每一个语料文本中的词频数统计值、文档权重值和待查询关键词逆文档映射频率分别得到待查询文本与每一个语料文本的相关性分数值；

对待查询文本与每一个语料文本的相关性分数值进行排序，得到待查询文本的相关性评分结果；

根据待查询文本的相关性评分结果进行文本匹配，得到文本匹配结果。

可选地，获取语料库中每一个语料关键词在每一个语料文本中的逆文档频率和每一个语料文本中所包含的语料关键词个数的步骤中，包括：

获取语料库，所述语料库包括多个语料文本；

对每一个语料文本分别进行分词和关键词提取，得到每一个语料文本对应的关键词；

将每一个语料文本对应的关键词进行统计，得到语料库的语料关键词和每一个语料文本中所包含的语料关键词个数；

将语料关键词在语料库中进行频次统计，得到每一个语料关键词在语料库中对应的频次；

根据每一个语料关键词在语料库中对应的频次得到每一个语料关键词在每一个语料文本中的逆文档频率。

可选地，将语料文本、语料关键词和语料关键词的逆文档频率进行映射，得到所有语料关键词的逆文档频率映射词典的步骤之后，还包括：

根据逆文档频率和逆文档频率映射词典得到每一个语料关键词在语料库中的平均频率；

分别判断每一个语料关键词的逆文档频率是否小于0；

若语料关键词的逆文档频率大于或者等于0，则不执行任何操作；

若语料关键词的逆文档频率小于0，则根据平均频率对逆文档频率继续修正，得到修正的逆文档频率，将修正后的逆文档频率更新至逆文档频率映射词典中，得到修正后的逆文档频率映射词典。

可选地，通过如下公式得到平均频率：

average_idf＝idf_sum/len(idf_dict_ori)

其中，idf_sum是语料库中所有语料关键词的逆文档频率之和，idf_dict_ori是语料库中所有语料关键词的未经过修正的逆文档频率映射词典；len(idf_dict_ori)为逆文档频率映射词典的大小长度；

当语料关键词的初始词频小于0时，通过如下公式得到修正的逆文档频率：

eps_idf＝epsilon*average_idf

其中，epsilon为修正参数，数值范围为0～1；eps_idf为修正的逆文档频率；average_idf为平均频率。

可选地，将语料文本、语料关键词和语料关键词的逆文档频率进行映射，得到所有语料关键词的逆文档频率映射词典的步骤中，包括：

将语料库中的每一个语料文本进行标识，得到语料库中每一个语料文本的标识信息，所述标识信息是预先确定好的用于唯一标识每一个语料文本；

按照语料文本的标识信息对语料关键词和语料关键词的逆文档频率进行映射，得到逆文档频率映射词典。

可选地，根据待查询关键词和每一个语料文本中所包含的语料关键词得到待查询关键词在每一个语料文本中的文档权重值的步骤中，包括：

逐一判断待查询关键词是否在每一个语料文本中；

若待查询关键词不在语料文本中，则待查询关键词在语料文本中对应的文档权重值为第一权重值；

若待查询关键词在语料文本中，则待查询关键词在语料文本中对应的文档权重值为第二权重值，所述第二权重值大于第一权重值。

可选地，根据待查询文本的相关性评分结果进行文本匹配，得到文本匹配结果的步骤中，包括：

获取文本相关性匹配数量；

根据所述文本相关性匹配数量和相关性评分结果确定语料库中的匹配文本的文本标识；

根据文本标识确定对应的匹配文本的文本数据，并将文本数据作为文本匹配结果。

根据第二方面，本发明实施例提供了一种基于文本相关性的文本匹配系统，包括：

第一获取模块，用于获取语料库中每一个语料关键词在每一个语料文本中的逆文档频率和每一个语料文本中所包含的语料关键词个数；

第一处理模块，用于将语料文本、语料关键词和语料关键词的逆文档频率进行映射，得到所有语料关键词的逆文档频率映射词典，所述逆文档频率映射词典用于表征每一个语料文本中的语料关键词和语料关键词对应的逆文档频率的对应关系；

第二获取模块，用于获取待查询文本；

第二处理模块，用于对所述待查询文本进行分词和关键词提取，得到待查询文本对应的待查询文本关键词；

第三处理模块，用于将待查询文本关键词在语料库中进行词频统计，得到待查询文本关键词在每一个语料文本中的词频数统计值；

第四处理模块，用于根据待查询关键词和每一个语料文本中所包含的语料关键词得到待查询关键词在每一个语料文本中的文档权重值；

第五处理模块，用于根据待查询关键词和逆文档频率映射词典得到待查询关键词在每一语料文本中对应的待查询关键词逆文档映射频率；

第六处理模块，用于根据待查询文本关键词在每一个语料文本中的词频数统计值、文档权重值和待查询关键词逆文档映射频率分别得到待查询文本与每一个语料文本的相关性分数值；

第七处理模块，用于对待查询文本与每一个语料文本的相关性分数值进行排序，得到待查询文本的相关性评分结果；

第八处理模块，用于根据待查询文本的相关性评分结果进行文本匹配，得到文本匹配结果。

可选地，所述第一获取模块包括：第一获取单元，用于获取语料库，所述语料库包括多个语料文本；第一处理单元，用于对每一个语料文本分别进行分词和关键词提取，得到每一个语料文本对应的关键词；第二处理单元，用于将每一个语料文本对应的关键词进行统计，得到语料库的语料关键词和每一个语料文本中所包含的语料关键词个数；第三处理单元，用于将语料关键词在语料库中进行频次统计，得到每一个语料关键词在语料库中对应的频次；第四处理单元，用于根据每一个语料关键词在语料库中对应的频次得到每一个语料关键词在每一个语料文本中的逆文档频率。

可选地，还包括：第九处理模块，用于根据逆文档频率和逆文档频率映射词典得到每一个语料关键词在语料库中的平均频率；判断模块，用于分别判断每一个语料关键词的逆文档频率是否小于0；第十处理模块，用于若语料关键词的逆文档频率大于或者等于0，则不执行任何操作；第十一处理模块，用于若语料关键词的逆文档频率小于0，则根据平均频率对逆文档频率继续修正，得到修正的逆文档频率，将修正后的逆文档频率更新至逆文档频率映射词典中，得到修正后的逆文档频率映射词典。

可选地，通过如下公式得到平均频率：

average_idf＝idf_sum/len(idf_dict_ori)

eps_idf＝epsilon*average_idf

可选地，所述第一处理模块包括：第五处理单元，用于将语料库中的每一个语料文本进行标识，得到语料库中每一个语料文本的标识信息，所述标识信息是预先确定好的用于唯一标识每一个语料文本；第六处理单元，用于按照语料文本的标识信息对语料关键词和语料关键词的逆文档频率进行映射，得到逆文档频率映射词典。

可选地，所述第四处理模块包括：判断单元，用于逐一判断待查询关键词是否在每一个语料文本中；第七处理单元，用于若待查询关键词不在语料文本中，则待查询关键词在语料文本中对应的文档权重值为第一权重值；第八处理单元，用于若待查询关键词在语料文本中，则待查询关键词在语料文本中对应的文档权重值为第二权重值，所述第二权重值大于第一权重值。

可选地，所述第八处理模块包括：第二获取单元，用于获取文本相关性匹配数量；第九处理单元，用于根据所述文本相关性匹配数量和相关性评分结果确定语料库中的匹配文本的文本标识；第十处理单元，用于根据文本标识确定对应的匹配文本的文本数据，并将文本数据作为文本匹配结果。

根据第三方面，本发明实施例提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的计算机程序，计算机程序被至少一个处理器执行，以使至少一个处理器执行上述第一方面任意一项描述的基于文本相关性的文本匹配方法。

根据第四方面，本发明实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机指令，计算机指令用于使计算机执行上述第一方面任意一项描述的基于文本相关性的文本匹配方法。

本发明实施例技术方案，具有如下优点：

本发明实施例提供了一种基于文本相关性的文本匹配方法、系统、电子设备及存储介质，其中，该方法包括：获取语料库中每一个语料关键词在每一个语料文本中的逆文档频率和每一个语料文本中所包含的语料关键词个数；将语料文本、语料关键词和语料关键词的逆文档频率进行映射，得到所有语料关键词的逆文档频率映射词典，所述逆文档频率映射词典用于表征每一个语料文本中的语料关键词和语料关键词对应的逆文档频率的对应关系；获取待查询文本；对所述待查询文本进行分词和关键词提取，得到待查询文本对应的待查询文本关键词；将待查询文本关键词在语料库中进行词频统计，得到待查询文本关键词在每一个语料文本中的词频数统计值；根据待查询关键词和每一个语料文本中所包含的语料关键词得到待查询关键词在每一个语料文本中的文档权重值；根据待查询关键词和逆文档频率映射词典得到待查询关键词在每一语料文本中对应的待查询关键词逆文档映射频率；根据待查询文本关键词在每一个语料文本中的词频数统计值、文档权重值和待查询关键词逆文档映射频率分别得到待查询文本与每一个语料文本的相关性分数值；根据待查询文本与每一个语料文本的相关性分数值进行排序，得到待查询文本的相关性评分结果；根据待查询文本的相关性评分结果进行文本匹配，得到文本匹配结果。上述步骤，先获取语料库中每一个语料关键词在每一个语料文本中的逆文档频率以及每一个语料文本中所包含的语料关键词个数；将语料文本、语料关键词和语料关键词的逆文档频率进行映射形成逆文档频率映射词典；对待查询文本进行分词和关键词提取得到待查询文本关键词；将待查询文本进行词频统计得到待查询文本关键词在每一个语料文本中出现的次数，也就是词频统计值；将待查询关键词分别与每一个语料文本中所包含的语料关键词进行比较得到待查询关键词在每一个语料文本中的文档权重值；将待查询关键词在逆文档映射词典中进行匹配得到待查询关键词在每一语料文本中对应的待查询关键词逆文档映射频率；根据待查询文本关键词在每一个语料文本中的词频数统计值、文档权重值和待查询关键词逆文档映射频率确定待查询文本与每一个语料文本的相关性分数值；将相关性分数值进行排序后得到相关性评分结果；根据相关性评分结果进行文本匹配，得到相关性高的匹配文本；提高了文本相关性的准确度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的基于文本相关性的文本匹配方法的一个具体示例的流程图；

图2为本发明实施例的基于文本相关性的文本匹配系统的一个具体示例的框图；

图3为本发明实施例的电子设备的示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种基于文本相关性的文本匹配方法，如图1所示，该方法包括步骤S1-S10。

步骤S1：获取语料库中每一个语料关键词在每一个语料文本中的逆文档频率和每一个语料文本中所包含的语料关键词个数。

作为示例性的实施例，语料库中包含多个历史语料文本，语料库中的语料文本可通过网络爬虫得到。

通过关键词提取方法对每一个语料文本分别进行关键词提取，得到语料文本对应的语料关键词。具体的关键词提取方法可以是先对语料文本进行结巴分词，然后再进行关键词提取。本实施例对此仅作示意性说明，不以此为限。

对语料关键词进行词频统计，得到每一个语料关键词分别在每一个语料文本中出现的次数，进而得到每一个语料关键词在语料文本中的逆文档频率。对每一个语料文本中出现的关键词进行统计得到每一个语料文本中包含的语料关键词的个数。

步骤S2：将语料文本、语料关键词和语料关键词的逆文档频率进行映射，得到所有语料关键词的逆文档频率映射词典，所述逆文档频率映射词典用于表征每一个语料文本中的语料关键词和语料关键词对应的逆文档频率的对应关系。

本实施例中，将语料文本、语料文本对应的语料关键词和语料关键词的逆文档频率进行映射，将上面三者形成对应关系，这个映射关系便是所有语料关键词的逆文档频率映射词典。

本实施例中，预先将语料文本进行编号，将每一个语料文本对应一个编号，将语料文本和编号形成一一对应关系。例如语料库中有100个语料文本，则语料文本的编号分别从1编号到100，语料文本1对应的编号为1，语料文本2对应的编号为2，依此类推，第100个语料文本对应的编号为100。

具体的，如语料库有3个语料文本；第一个语料文本中包括两个关键词，分别为A和B，对应的逆文档频率idf分别为a和b；第二个语料文本中包括三个关键词，分别为C、D和E，对应的逆文档频率idf分别为c、d和e；第三个语料文本中包括两个关键词，分别为F和G，对应的逆文档频率idf分别为f和g。

逆文档映射频率映射词典如下：

1：A-a，B-b

2：C-c，D-d，E-e

3：F-f，G-g

步骤S3：获取待查询文本。

本实施例中，待查询文本为用户需要查询的文本。

步骤S4：对待查询文本进行分词和关键词提取，得到待查询文本对应的待查询文本关键词。

本实施例中，对待查询文本进行结巴分词和结巴关键词提取，得到待查询文本对应的待查询文本关键词。

步骤S5：将待查询文本关键词在语料库中进行词频统计，得到待查询文本关键词在每一个语料文本中的词频数统计值。

本实施例中，将待查询文本关键词在语料库中进行词频统计，统计出待查询文本关键词在每一个语料文本中出现的次数，也就是待查询文本关键词在每一个语料文本中的词频数统计值。

步骤S6：根据待查询关键词和每一个语料文本中所包含的语料关键词得到待查询关键词在每一个语料文本中的文档权重值。

本实施例中，将待查询关键词分别与每一个语料文本所包含的语料关键词进行比较，查看语料关键词中是否包含待查询关键词。若某一语料文本中包含的语料关键词中有待查询关键词，则该关键词在该语料文本中的文档权重值为1.2；若语料文本中包含的语料关键词中没有待查询关键词，则该关键词在该语料文本中的文档权重值为0.5。关键词在语料文档中出现，则其文档权重高。

步骤S7：根据待查询关键词和逆文档频率映射词典得到待查询关键词在每一语料文本中对应的待查询关键词逆文档映射频率。

本实施例中，将待查询关键词在逆文档映射词典中进行查找匹配，找到待查询关键词在每一个语料文本中对应的待查询关键词逆文档映射频率。具体的，将待查询关键词与每一个语料文本中包含的语料关键词进行比对，若语料文本中包含的关键词中有待查询关键词，则将语料关键词中的逆文档映射频率作为待查询关键词的逆文档映射频率。若语料文本中包含的关键词中没有待查询关键词，则待查询关键词的逆文档映射频率为0。

步骤S8：根据待查询文本关键词在每一个语料文本中的词频数统计值、文档权重值和待查询关键词逆文档映射频率分别得到待查询文本与每一个语料文本的相关性分数值。

本实施例中，根据每一个待查询文本关键词在每一个语料文本中的词频数统计值、文档权重值和待查询关键词逆文档映射频率得到每一个待查询关键词在该语料文本中的相关性得分。然后，将该语料文本中所有待查询文本关键词对应的相关性得分相加，得到待查询文本关键词与该语料文本的相关性分数值。以此类推，便可得到待查询文本关键词与每一个语料文本的相关性分数值。

待查询文本关键词与语料库中的语料文本的相关性分数值的计算公式如下：

其中，SCORE(Dx,q)为待查询文本q与第x个语料文本的相关性分数值；IDF(qi,Dx)为第i个待查询文本关键词qi在第x个语料文本中的逆文档映射频率；freq(qi,Dx)为第i个待查询文本关键词qi在第x个语料文本中的词频数统计值；doclen(Dx)为第x个语料文本的文本长度；avgd1为语料库中所有语料文本的平均长度；docweight(qi,Dx)为第i个待查询文本关键词qi在第x个语料文本中的文档权重值；k1和b为自由参数，k1的取值范围为[1.2,2.0]，b的取值0.75。

步骤S9：对待查询文本与每一个语料文本的相关性分数值进行排序，得到待查询文本的相关性评分结果。

本实施例中，将相关性分数值进行降序排列得到排序结果，该排序结果包括语料文本的编号以及语料文本对应的相关性分数值，上述排序结果作为待查询文本的相关性评分结果。

步骤S10：根据待查询文本的相关性评分结果进行文本匹配，得到文本匹配结果。

本实施例中，相关性评分结果中包含对应的语料文本编号，语料文本编号与语料文本是一一对应的关系，故根据相关性评分结果便可确定语料文本编号，根据语料文本编号在语料库中进行文本匹配，进而确定编号所对应的语料文本数据，得到文本匹配结果。

上述步骤，先获取语料库中每一个语料关键词在每一个语料文本中的逆文档频率以及每一个语料文本中所包含的语料关键词个数；将语料文本、语料关键词和语料关键词的逆文档频率进行映射形成逆文档频率映射词典；对待查询文本进行分词和关键词提取得到待查询文本关键词；将待查询文本进行词频统计得到待查询文本关键词在每一个语料文本中出现的次数，也就是词频统计值；将待查询关键词分别与每一个语料文本中所包含的语料关键词进行比较得到待查询关键词在每一个语料文本中的文档权重值；将待查询关键词在逆文档映射词典中进行匹配得到待查询关键词在每一语料文本中对应的待查询关键词逆文档映射频率；根据待查询文本关键词在每一个语料文本中的词频数统计值、文档权重值和待查询关键词逆文档映射频率确定待查询文本与每一个语料文本的相关性分数值；将相关性分数值进行排序后得到相关性评分结果；根据相关性评分结果进行文本匹配，得到相关性高的匹配文本，通过上述步骤提高了文本相关性的准确度。

作为示例性的实施例，步骤S1获取语料库中每一个语料关键词在每一个语料文本中的逆文档频率和每一个语料文本中所包含的语料关键词个数的步骤中，包括步骤S101-S105。

步骤S101：获取语料库，所述语料库包括多个语料文本。

本实施例中，语料库中包含多个语料文本，后续在语料库中查找与待查询文本相关性较高的语料文本。预先设定语料库中语料文本的编号，使得每一个语料文本对应一个唯一的编号，以便后续根据编号便可确定对应的语料文本。

步骤S102：对每一个语料文本分别进行分词和关键词提取，得到每一个语料文本对应的关键词。

本实施例中，对每一个语料文本分别进行结巴分词，之后对结巴分词后的每一个语料文本分别进行结巴关键词提取，得到每一个语料文本对应的关键词。

步骤S103：将每一个语料文本对应的关键词进行统计，得到语料库的语料关键词和每一个语料文本中所包含的语料关键词个数。

本实施例中，对所有语料文本的关键词进行统计，一个关键词可能出现在不同的语料文本中，也就是不同的语料文本中包含相同的关键词，统计的过程是合并重复的关键词，保留非重复的关键词，这样便得到语料库的语料关键词，语料关键词中的所有关键词是不相同的。还需要统计语料关键词在每一个语料文本中出现的个数，也就是语料文本中包含多少个语料关键词，从而得到每一个语料文本中所包含的语料关键词个数。

步骤S104：将语料关键词在语料库中进行频次统计，得到每一个语料关键词在语料库中对应的频次。

本实施例中，对每一个语料关键词分别在每一个语料文本中进行频次统计，具体的统计每一个语料关键词分别在语料库中出现的次数，也就是统计每个语料关键词在语料库中出现的次数，语料文本中包括这个语料关键词，频次加1，同一个语料文本中多次出现该语料关键词，频次按1次处理，这样便得到每一个语料关键词分别在每一个语料文本中对应的频次。

步骤S105：根据每一个语料关键词在语料库中对应的频次得到每一个语料关键词在每一个语料文本中的逆文档频率。

本实施例中，根据频次得到每一个语料关键词在每一个语料文本中的逆文档频率。

逆文档频率idf的计算公式如下所示：

其中，Idf(Qy)为第y个语料关键词Q在语料库文件总数D中的逆文档频率；corpus_size为语料库中语料文本的数据条数；freq(Qy)为在语料库中包含第y个语料关键词的文档个数。

通过上式计算出每一个语料关键词对应的idf值。不同语料文本中包含某一语料关键词，则不同语料文本对应的该语料关键词的idf值相同。也就是不同语料文本中包含同一个语料关键词，则该语料关键词在这些语料文本中的逆文档频率是同一个idf值。这样便得到了每一个语料关键词在每一个语料文本中的逆文档频率。

上述步骤，对语料库中的语料文本分别进行关键词提取，得到每一个语料文本对应的关键词；将语料文本对应的关键词进行去重得到语料库对应的语料关键词以及每一个语料文本中所包含的语料关键词个数；将每一个语料关键词在语料库中分别进行频次统计，得到每一个语料关键词在语料库中对应的频次；最后根据频次得到每一个语料关键词在每一个语料文本中的逆文档频率。

作为示例性的实施例，步骤S2将语料文本、语料关键词和语料关键词的逆文档频率进行映射，得到所有语料关键词的逆文档频率映射词典的步骤之后，还包括步骤S11-S14。

步骤S11：根据逆文档频率和逆文档频率映射词典得到每一个语料关键词在语料库中的平均频率。

本实施例中，通过如下公式得到平均频率：

average_idf＝idf_sum/len(idf_dict_ori)

其中，idf_sum是语料库中所有语料关键词的逆文档频率之和，idf_dict_ori是语料库中所有语料关键词的未经过修正的逆文档频率映射词典；len(idf_dict_ori)为逆文档频率映射词典的大小长度。

例如，词典里放了5个关键词的逆文档频率的映射关系，那len(idf_dict_ori)就等于5。

步骤S12：分别判断每一个语料关键词的逆文档频率是否小于0。

本实施例中，分别将每一个语料关键词的逆文档频率与0进行比较，确定逆文档频率是否小于0。若小于0，则执行步骤S13；若大于0，则执行步骤S14。

步骤S13：若语料关键词的逆文档频率大于或者等于0，则不执行任何操作。

本实施例中，当语料关键词的逆文档频率大于或者等于0时，该语料关键词的逆文档频率保持不变。

步骤S14：若语料关键词的逆文档频率小于0，则根据平均频率对逆文档频率继续修正，得到修正的逆文档频率，将修正后的逆文档频率更新至逆文档频率映射词典中，得到修正后的逆文档频率映射词典。

本实施例中，当语料关键词的逆文档频率小于0时，根据平均频率对逆文档频率继续修正，得到修正的逆文档频率，将修正后的逆文档频率替换逆文档频率映射词典中对应的逆文档频率，将修正后的逆文档频率更新至逆文档频率映射词典中，得到修正后的逆文档频率映射词典。

通过如下公式得到修正的逆文档频率：

eps_idf＝epsilon*average_idf

本实施例中，epsilon取值为0.25；当然，在其它实施例中修正参数的取值可根据实际需要合理设置。

上述公式让idf小于0的数字不要太低，使得其在全局平均值的范围内缩放；否则idf小于0的这个负数会影响最后的相关性分值。比如语料关键词“我”是idf小于0的一个负值，某一个语料文档中通篇都在说“我”怎么了，通过上述公式是让语料关键词“我”在计算分值的时候降低一点点影响。

上述步骤，当语料关键词的逆文档频率小于0时对逆文档频率进行修正，降低负值对相关性分值的影响，提高相关性文本匹配准确度。

作为示例性的实施例，步骤S2将语料文本、语料关键词和语料关键词的逆文档频率进行映射，得到所有语料关键词的逆文档频率映射词典的步骤中，包括步骤S201-S202。

步骤S201：将语料库中的每一个语料文本进行标识，得到语料库中每一个语料文本的标识信息，所述标识信息是预先确定好的用于唯一标识每一个语料文本。

本实施例中，先获取预先确定好的标识信息，标识信息用于唯一标识每一个语料文本。具体的标识信息可以是文本编码，如数字编码1、2、3等。本实施例对此仅作示意性描述，不以此为限；在其它实施例中，还可以是字母编码、或者字母加数字的编码，根据需要合理设置即可。然后，根据确定好的标识信息对语料库中的每一个语料文本分别进行标识，将每一个语料文本与标识信息形成一一对应关系。

步骤S202：按照语料文本的标识信息对语料关键词和语料关键词的逆文档频率进行映射，得到逆文档频率映射词典。

本实施例中，按照语料文本的标识信息对语料关键词和其对应的逆文档频率进行映射，得到每一个语料文本中包含的语料关键词以及语料关键词对应的idf值，上述每一个语料文本、语料文本包含的语料关键词以及语料关键词所对应的idf值便组成了逆文档频率映射词典。

通过上述步骤将语料库中的语料文本进行标识，使得每一个语料文本对应唯一的标识信息，根据标识信息便可确定对应的语料文本；按照语料文本的标识信息对语料关键词和语料关键词的逆文档频率进行映射，得到每一个语料文本中语料关键词及其对应的逆文档频率，形成逆文档频率映射词典，以便后续在逆文档频率映射词典中查找待查询文本关键词对应的逆文档频率。

作为示例性的实施例，步骤S6根据待查询关键词和每一个语料文本中所包含的语料关键词得到待查询关键词在每一个语料文本中的文档权重值的步骤中，包括步骤S601-S603。

步骤S601：逐一判断待查询关键词是否在每一个语料文本。

本实施例中，将待查询关键词与每一个语料文本中包含的关键词进行比较，以确定待查询关键词是否在语料文本中。若待查询关键词不在语料文本中，则执行步骤S602；若待查询关键词在语料文本中，则执行步骤S603。

步骤S602：若待查询关键词不在语料文本中，则待查询关键词在语料文本中对应的文档权重值为第一权重值。

本实施例中，当待查询关键词不在语料文本中时，说明语料文本中不包含该待查询关键词，该待查询关键词在该语料文本中的文档权重较低，将其设置为第一权重值。

具体的，第一权重值的取值范围为0.5-1，第一权重值设置为0.5；当然，在其它实施例中，第一权重值的具体数值可根据实际需要合理设置。

步骤S603：若待查询关键词在语料文本中，则待查询关键词在语料文本中对应的文档权重值为第二权重值，所述第二权重值大于第一权重值。

本实施例中，当待查询关键词在语料文本中时，说明语料文本中包含该待查询关键词，该待查询关键词在该语料文本中的文档权重较高，将其设置为第二权重值，第二权重值大于第一权重值。

第一权重值与第二权重值的大小是为了衡量当前关键词的权重存在与否时的差异。

具体的，第二权重值的取值范围为1.0-1.5，第二权重值设置为1.2；当然，在其它实施例中，第二权重值的具体数值可根据实际需要合理设置。

上述步骤，若待查询关键词不在语料文本中，则待查询关键词在该语料文本中的文档权重值较小；若待查询关键词在语料文本中，则待查询关键词在该语料文本中的文档权重值较大；通过文档权重值调节文本相关性。

作为示例性的实施例，步骤S10根据待查询文本的相关性评分结果进行文本匹配，得到文本匹配结果的步骤中，包括步骤S1001-S1003。

步骤S1001：获取文本相关性匹配数量。

具体的，文本相关性匹配数量根据用户查询需求确定，如用户查询需求为相关性最高的前5个文本，则文本相关性匹配数量为5。

步骤S1002：根据所述文本相关性匹配数量和相关性评分结果确定语料库中的匹配文本的文本标识。

具体的，根据文本相关性匹配数量确定需要匹配的文本数量；然后再根据相关性评分结果从高到低选取对应数量的语料文本所对应的文本标识，这些相应数量的语料文本所对应的文本标识便是匹配文本的文本标识。

步骤S1003：根据文本标识确定对应的匹配文本的文本数据，并将文本数据作为文本匹配结果。

本实施例中，由于每一个语料文本均对应一个唯一的文本标识，故根据文本标识便找到对应的语料文本，进而得到对应的匹配文本的文本数据；上述文本数据即为文本匹配结果。

通过上述步骤得到了与待查询文本相关性较高的若干语料文本。

作为示例性的实施例，步骤S10根据待查询文本的相关性评分结果进行文本匹配，得到文本匹配结果的步骤之后，还包括步骤S15。

步骤S15：将文本匹配结果返回给后端用于展示文本数据。

具体的，查询到与待查询文本相关性较高的文本匹配结果后，将文本匹配结果返回给后端，以使后端实现文本数据的展示。

通过上述步骤实现了文本匹配结果的展示。

在本实施例中还提供了一种基于文本相关性的文本匹配系统，该系统用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例还提供一种基于文本相关性的文本匹配系统，如图2所示，包括：

第一获取模块1，用于获取语料库中每一个语料关键词在每一个语料文本中的逆文档频率和每一个语料文本中所包含的语料关键词个数；

第一处理模块2，用于将语料文本、语料关键词和语料关键词的逆文档频率进行映射，得到所有语料关键词的逆文档频率映射词典，所述逆文档频率映射词典用于表征每一个语料文本中的语料关键词和语料关键词对应的逆文档频率的对应关系；

第二获取模块3，用于获取待查询文本；

第二处理模块4，用于对所述待查询文本进行分词和关键词提取，得到待查询文本对应的待查询文本关键词；

第三处理模块5，用于将待查询文本关键词在语料库中进行词频统计，得到待查询文本关键词在每一个语料文本中的词频数统计值；

第四处理模块6，用于根据待查询关键词和每一个语料文本中所包含的语料关键词得到待查询关键词在每一个语料文本中的文档权重值；

第五处理模块7，用于根据待查询关键词和逆文档频率映射词典得到待查询关键词在每一语料文本中对应的待查询关键词逆文档映射频率；

第六处理模块8，用于根据待查询文本关键词在每一个语料文本中的词频数统计值、文档权重值和待查询关键词逆文档映射频率分别得到待查询文本与每一个语料文本的相关性分数值；

第七处理模块9，用于对待查询文本于每一个语料文本的相关性分数值进行排序，得到待查询文本的相关性评分结果；

第八处理模块10，用于根据待查询文本的相关性评分结果进行文本匹配，得到文本匹配结果。

作为示例性的实施例，所述第一获取模块包括：第一获取单元，用于获取语料库，所述语料库包括多个语料文本；第一处理单元，用于对每一个语料文本分别进行分词和关键词提取，得到每一个语料文本对应的关键词；第二处理单元，用于将每一个语料文本对应的关键词进行统计，得到语料库的语料关键词和每一个语料文本中所包含的语料关键词个数；第三处理单元，用于将语料关键词在语料库中进行频次统计，得到每一个语料关键词在语料库中对应的频次；第四处理单元，用于根据每一个语料关键词在语料库中对应的频次得到每一个语料关键词在每一个语料文本中的逆文档频率。

作为示例性的实施例，该系统还包括：第九处理模块，用于根据逆文档频率和逆文档频率映射词典得到每一个语料关键词在语料库中的平均频率；判断模块，用于分别判断每一个语料关键词的逆文档频率是否小于0；第十处理模块，用于若语料关键词的逆文档频率大于或者等于0，则不执行任何操作；第十一处理模块，用于若语料关键词的逆文档频率小于0，则根据平均频率对逆文档频率继续修正，得到修正的逆文档频率，将修正后的逆文档频率更新至逆文档频率映射词典中，得到修正后的逆文档频率映射词典。

作为示例性的实施例，通过如下公式得到平均频率：

average_idf＝idf_sum/len(idf_dict_ori)

其中，idf_sum是语料库中所有语料关键词的逆文档频率之和，idf_dict_ori是语料库中所有语料关键词的未经过修正的逆文档频率映射词典；逆文档频率映射词典的大小长度；

eps_idf＝epsilon*average_idf

作为示例性的实施例，所述第一处理模块包括：第五处理单元，用于将语料库中的每一个语料文本进行标识，得到语料库中每一个语料文本的标识信息，所述标识信息是预先确定好的用于唯一标识每一个语料文本；第六处理单元，用于按照语料文本的标识信息对语料关键词和语料关键词的逆文档频率进行映射，得到逆文档频率映射词典。

作为示例性的实施例，所述第四处理模块包括：判断单元，用于逐一判断待查询关键词是否在每一个语料文本中；第七处理单元，用于若待查询关键词不在语料文本中，则待查询关键词在语料文本中对应的文档权重值为第一权重值；第八处理单元，用于若待查询关键词在语料文本中，则待查询关键词在语料文本中对应的文档权重值为第二权重值，所述第二权重值大于第一权重值。

作为示例性的实施例，所述第八处理模块包括：第二获取单元，用于获取文本相关性匹配数量；第九处理单元，用于根据所述文本相关性匹配数量和相关性评分结果确定语料库中的匹配文本的文本标识；第十处理单元，用于根据文本标识确定对应的匹配文本的文本数据，并将文本数据作为文本匹配结果。

本实施例中的基于文本相关性的文本匹配系统是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本发明实施例还提供了一种电子设备，如图3所示，该电子设备包括一个或多个处理器71以及存储器72，图3中以一个处理器71为例。

该控制器还可以包括：输入装置73和输出装置74。

处理器71、存储器72、输入装置73和输出装置74可以通过总线或者其他方式连接，图3中以通过总线连接为例。

处理器71可以为中央处理器(Central Processing Unit，CPU)。处理器71还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者是任何常规的处理器等。

存储器72作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的基于文本相关性的文本匹配方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的基于文本相关性的文本匹配方法。

存储器72可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据服务器操作的处理装置的使用所创建的数据等。此外，存储器72可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器72可选包括相对于处理器71远程设置的存储器，这些远程存储器可以通过网络连接至网络连接装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置73可接收输入的数字或字符信息，以及产生与服务器的处理装置的用户设置以及功能控制有关的键信号输入。输出装置74可包括显示屏等显示设备。

一个或者多个模块存储在存储器72中，当被一个或者多个处理器71执行时，执行如图1所示的方法。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指示相关的硬件来完成，被执行的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述基于文本相关性的文本匹配方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

虽然结合附图描述了本发明的实施方式，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种基于文本相关性的文本匹配方法，其特征在于，包括：

获取待查询文本；

2.根据权利要求1所述的基于文本相关性的文本匹配方法，其特征在于，获取语料库中每一个语料关键词在每一个语料文本中的逆文档频率和每一个语料文本中所包含的语料关键词个数的步骤中，包括：

获取语料库，所述语料库包括多个语料文本；

3.根据权利要求2所述的基于文本相关性的文本匹配方法，其特征在于，将语料文本、语料关键词和语料关键词的逆文档频率进行映射，得到所有语料关键词的逆文档频率映射词典的步骤之后，还包括：

分别判断每一个语料关键词的逆文档频率是否小于0；

4.根据权利要求3所述的基于文本相关性的文本匹配方法，其特征在于，

通过如下公式得到平均频率：

average_idf＝idf_sum/len(idf_dict_ori)

eps_idf＝epsilon*average_idf

5.根据权利要求1所述的基于文本相关性的文本匹配方法，其特征在于，将语料文本、语料关键词和语料关键词的逆文档频率进行映射，得到所有语料关键词的逆文档频率映射词典的步骤中，包括：

6.根据权利要求1所述的基于文本相关性的文本匹配方法，其特征在于，根据待查询关键词和每一个语料文本中所包含的语料关键词得到待查询关键词在每一个语料文本中的文档权重值的步骤中，包括：

逐一判断待查询关键词是否在每一个语料文本中；

7.根据权利要求1所述的基于文本相关性的文本匹配方法，其特征在于，根据待查询文本的相关性评分结果进行文本匹配，得到文本匹配结果的步骤中，包括：

获取文本相关性匹配数量；

8.一种基于文本相关性的文本匹配系统，其特征在于，包括：

第二获取模块，用于获取待查询文本；

9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-7任意一项所述的基于文本相关性的文本匹配方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使所述计算机执行权利要求1-7任意一项所述的基于文本相关性的文本匹配方法。