CN112926308B

CN112926308B - 匹配正文的方法、装置、设备、存储介质以及程序产品

Info

Publication number: CN112926308B
Application number: CN202110209688.4A
Authority: CN
Inventors: 潘旭; 黄强; 杨哲; 洪赛丁; 章文俊; 钟辉强; 徐思琪; 周厚谦; 刘崇
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-25
Filing date: 2021-02-25
Publication date: 2024-01-12
Anticipated expiration: 2041-02-25
Also published as: CN112926308A

Abstract

本申请公开了一种匹配正文的方法、装置、设备、存储介质以及程序产品，涉及自然语言处理和深度学习等人工智能技术领域。该方法的一具体实施方式包括：获取热点事件对应的第一标题文本，以及与预设的文本集合中的正文对应的第二标题文本；将第一标题文本中的分词和第二标题文本中的分词进行聚类，得到词集合；根据词集合中的分词对应的权重，以及第一标题文本中的分词对应的权重，确定第二标题文本与第一标题文本之间的相似度；响应于相似度大于预设的相似度阈值，将文本集合中与第二标题文本对应的正文作为第一标题文本的目标正文。

Description

匹配正文的方法、装置、设备、存储介质以及程序产品

技术领域

本申请涉及计算机技术领域，具体涉及自然语言处理和深度学习等人工智能技术领域，尤其涉及一种匹配正文的方法、装置、设备、存储介质以及程序产品。

背景技术

在网络舆情扩散过程中，用户可以从不同的舆情榜单中可以获取到当前热点事件的标题文本，但是该热点事件的标题文本，没有正文或正文地址。那么，在这种情况下，亟需一种给热点事件的标题文本匹配正文的方法。

目前，现有技术通过短文本相似度计算，确定热点事件的标题文本的相似文章，以给热点事件匹配正文。

发明内容

本申请实施例提出了一种匹配正文的方法、装置、设备、存储介质以及程序产品。

第一方面，本申请实施例提出了一种匹配正文的方法，包括：获取热点事件对应的第一标题文本，以及与预设的文本集合中的正文对应的第二标题文本；将第一标题文本中的分词和第二标题文本中的分词进行聚类，得到词集合；根据词集合中的分词对应的权重，以及第一标题文本中的分词对应的权重，确定第二标题文本与第一标题文本之间的相似度；响应于相似度大于预设的相似度阈值，将文本集合中与第二标题文本对应的正文作为第一标题文本的目标正文。

第二方面，本申请实施例提出了一种匹配正文的装置，包括：文本获取模块，被配置成获取热点事件对应的第一标题文本，以及与预设的文本集合中的正文对应的第二标题文本；集合得到模块，被配置成将第一标题文本中的分词和第二标题文本中的分词进行聚类，得到词集合；相似度确定模块，被配置成根据词集合中的分词对应的权重，以及第一标题文本中的分词对应的权重，确定第二标题文本与第一标题文本之间的相似度；作为正文模块，被配置成响应于相似度大于预设的相似度阈值，将文本集合中与第二标题文本对应的正文作为第一标题文本的目标正文。

第三方面，本申请实施例提出了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如第一方面描述的方法。

第四方面，本申请实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如第一方面描述的方法。

第五方面，本申请实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现第一方面描述的方法。

本申请实施例提供的匹配正文的方法、装置、设备、存储介质以及程序产品，首先获取热点事件对应的第一标题文本，以及与预设的文本集合中的正文对应的第二标题文本；之后将第一标题文本中的分词和第二标题文本中的分词进行聚类，得到词集合；之后根据词集合中的分词对应的权重，以及第一标题文本中的分词对应的权重，确定第二标题文本与第一标题文本之间的相似度；最后响应于相似度大于预设的相似度阈值，将文本集合中与第二标题文本对应的正文作为第一标题文本的目标正文。从而可以根据词集合中的分词的权重、以及第一标题文本中的分词对应的权重给热点事件对应的第一标题文本匹配目标正文，提高了匹配度。

应当理解，本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征，也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是本申请可以应用于其中的示例性系统架构；

图2是根据本申请的匹配正文的方法的一个实施例的流程图；

图3是根据本申请的匹配正文的方法的另一个实施例的流程图；

图4是根据本申请的匹配正文的方法的一个应用场景图；

图5是根据本申请的训练权重确定模型的一个实施例的流程图；

图6是根据本申请的匹配正文的装置的一个实施例的结构示意图；

图7是用来实现本申请实施例的匹配正文的方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的匹配正文的方法和装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103、服务器105任意两个之间提供通信链路的介质。网络104可以包括各种连接类别，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种应用，例如各种客户端应用、多方交互应用、人工智能应用、搜索类应用等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的请求等数据进行分析等处理，并将处理结果反馈给终端设备。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

在实践中，本申请实施例所提供的匹配正文的方法可以由终端设备101、102、103或服务器105执行，匹配正文的装置也可以设置于终端设备101、102、103或服务器105中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的匹配正文的方法的一个实施例的流程200。该匹配正文的方法包括以下步骤：

步骤201，获取热点事件对应的第一标题文本，以及与预设的文本集合中的正文对应的第二标题文本。

在本实施例中，匹配正文的方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以先从网页上获取热点事件对应的第一标题文本；之后，获取预设的文本集合；之后，获取与文本集合中的正文对应的第二标题文本。上述网页可以为用于呈现热点事件的网页。上述文本集合中的文本可以包括正文和与正文对应的第二标题文本。

在这里，热点是指比较受广大群众关注或者欢迎的新闻或者信息，或指某时期引人注目的人物、地方或问题，通常现实中发生突发事件、出现热点人物及热点话题之后，首先会在媒体、网络上出现一些报道，接着用户会通过不同形式的搜索串query进行搜索，根据事件的发展及用户的点击搜索，该事件的报道会持续一段时间，在这段时间内该事件可以认为是热点事件。其中，热点事件的具体内容可以以文本、语音、图像等形式体现。

需要说明的是，热点事件对应的第一标题文本可以为上述网页中的部分热点事件对应的标题文本，例如排在前30的热点事件对应的标题文本。此处的第一标题文本中的“第一”并不是用于限定标题文本的数量为一个，而是用于表征某类型的标题文本，在此不再赘述。

在这里，获取预设的文本集合中的正文可以为：根据热点事件对应的第一标题文本或第一标题文本的分词从全网网页库中召回的正文；或，全网网页库中的所有正文。其中，文本集合包括多个文本，每个文本可以包括正文和标题等其他内容。

需要说明的是，通过召回得到的文本集合，其实是给第一标题文本从全网网页库中确定与第一标题文本关联的文本，该关联可以指第一标题文本与文本集合中的正文具有一定的匹配度(一般取值范围为0％～100％)，例如匹配度为100％，则表明第一标题文本与文本集合中的该正文完全关联；匹配度为50％，则表明第一标题文本与文本集合中的该正文部分关联；匹配度为0％，则表明第一标题文本与文本集合中的该正文完全不关联。且匹配度越高，表明第一标题与文本集合中的该文本的关联性更强。

需要说明的是，在通过第一标题文本中的分词进行召回操作时，该匹配正文的方法还可以包括：

对第一标题文本进行切词，以得到第一标题文本中的分词。

其中，对第一标题文本进行切词的方法可以包括：使用字典、词库匹配的分词方法；或者，使用以隐马尔可夫模型(Hidden Markov Model，HMM)为代表的基于模型的分词方法。其中，基于字典的分词方法需由手工构建一个字典，然后基于构建的字典实现对第一标题文本的切词；采用以HMM为代表的基于统计的分词方法，使用动态规划算法对待分词的文本进行词语的序列标注，以实现对第一标题文本的切词。

步骤202，将第一标题文本中的分词和第二标题文本中的分词进行聚类，得到词集合。

在本实施例中，上述执行主体可以将第一标题文本中的分词与第二标题文本中的分词聚类，得到词集合。

需要说明的是，步骤201中所述的与预设的文本集合中的正文对应的第二标题文本的数量一般为多个，也即，文本集合可以包括多个文本对应的第二标题文本，例如文本集合包括第一文本对应的标题文本、第二文本对应的标题文本和第三文本对应的标题文本。上述聚类可以用于将第一标题文本与第二标题文本中相似或相同的分词汇聚在一起，以形成词集合。此处的第二标题文本中的“第二”并不是用于限定标题文本的次序为第二，而是用于表征某类型的标题文本，在此不再赘述。

步骤203，根据词集合中的分词对应的权重，以及第一标题文本中的分词对应的权重，确定第二标题文本与第一标题文本之间的相似度。

在本实施例中，上述执行主体可以根据词集合中的分词对应的权重，以及第一标题文本中的分词对应的权重，确定第二标题与第一标题文本之间的相似度。上述词集合中的分词对应的权重可以由预先训练的权重确定模型确定的权重；或，由人工根据分词的热度设置权重。上述第一标题文本中的分词对应的权重可以由预先训练的权重确定模型确定的权重；或，由人工设定的权重。

需要说明的是，相似度的值越高，表明第二标题文本与第一标题文本的匹配度更高。

步骤204，响应于相似度大于预设的相似度阈值，将文本集合中与第二标题文本对应的正文作为第一标题文本的目标正文。

在本实施例中，上述执行主体在相似度大于预设的相似度阈值时，将文本集合中与第二标题文本对应的正文作为第一标题文本的目标正文。上述相似度可以用于从文本集合中选取与第一标题文本完全匹配的目标正文。

本申请实施例提供的匹配正文的方法，首先获取热点事件对应的第一标题文本，以及与预设的文本集合中的正文对应的第二标题文本；之后将第一标题文本中的分词和第二标题文本中的分词进行聚类，得到词集合；之后根据词集合中的分词对应的权重，以及第一标题文本中的分词对应的权重，确定第二标题文本与第一标题文本之间的相似度；最后响应于相似度大于预设的相似度阈值，将文本集合中与第二标题文本对应的正文作为第一标题文本的目标正文。从而可以根据词集合中的分词的权重、以及第一标题文本中的分词对应的权重给热点事件对应的第一标题文本匹配目标正文，提高了匹配度。

在本实施例的一些可选的实现方式中，将第一标题文本中的分词和第二标题文本中的分词进行聚类，得到词集合，包括：根据第一标题文本中的实体词和其他词，以及第二标题文本中的实体词和其他词交集，得到词集合。

在本实现方式中，上述执行主体可以根据第一标题文本中的实体词与第二标题文本中的实体词进行的交集，以及将第一标题文本中的其他词与第二标题文本中的其他词的交集，以得到词集合。上述交集可以用于将第一标题文本和第二标题文本中相同的分词聚类在一起，以形成词集合。相较相似聚类，精准性更高。上述实体词的数量可以为至少一个，上述其他词的数量可以为至少一个。

上述实体词可以指文本字符中具有特定意义的实体，包括人名、地名、机构名、专有名词等，以及时间、数量、货币、比例数值等文字。上述其他词可以为第一标题文本中除实体词之外的词，例如动词、宾语、名词等。

在这里，在根据第一标题文本中的实体词和其他词，以及第二标题文本中的实体词和其他词交集，得到词集合之前，该匹配正文的方法还可以包括：

对上述第一标题文本和第二标题文本分别进行实体词，以确定第一标题文本中的实体词和第二标题文本中的实体词。

需要说明的是，确定实体词的方法可以包括：与预先设定的实体词库中的实体词进行匹配以确定第一标题文本中的实体词；或，结合长短期记忆网络(Long Short-TermMemory，LSTM)和条件随机场(conditional random field，CRF)实现对第一标题文本中的实体词的识别。

确定第一标题文本中的其他词的词性，以及第二标题文本中的其他词的词性。其中，确定其他词的词性的方法可以包括：通过预先训练的词性标注模型，确定其他词性对应的词性。上述词性标注模型可以是双向循环神经网络(BiLSTM)与Softmax结合的模型，其他词经过输入BiLSTM网络，得到其他词相对各个词性的概率，并基于Softmax得到其他词的词性。

需要说明的是，确定其他词性的步骤可以与确定实体词的步骤同时执行，也可以先执行确定其他词词性的步骤，还可以先现执行确定实体词的步骤；还可以在执行确定实体词的步骤之后，只对第一标题文本中的其他词的词性进行标注，在此不再赘述。

在一个具体的示例中，词性可以包括：名词，专有名词，动词，处所名词，动副词，名形词，作品，动名词，数量词等。

实体词可以包括：人物，地点，组织机构，作品等。

在这里，根据第一标题文本中的实体词和其他词，以及第二标题文本中的实体词和其他词交集，得到词集合可以包括：将第一标题文本和第二标题文本以词包的形式进行计算，该词包可以包括实体词和其他词，将第一标题文本和第二标题文本中交集的其他词或交集的实体词，用1表示，其他用0表示，以得到词集合。

对应地，在该示例中，若词集合包括目标实体词和其他目标词，步骤203的根据词集合中的分词对应的权重，以及第一标题文本中的分词对应的权重，确定第二标题文本与第一标题文本的相似度可以包括：根据目标实体词对应的权重，其他目标词的词性对应的权重，确定词集合对应的权重；根据第一标题文本中的实体词对应的权重和其他词对应的权重，确定第一标题文本对应的权重；根据词集合对应的权重与第一标题文本对应的权重的比值，确定第二标题文本与第一标题文本的相似度。

在本实现方式中，通过第一标题文本中的实体词和其他词，与第二标题文本中的实体词和其他词的交集，以得到词集合。

在本实施例的一些可选的实现方式中，若词集合包括：目标实体词和其他实体词。其中，步骤203所述的根据词集合中的分词对应的权重，以及第一标题文本中的分词对应的权重，确定第二标题文本与第一标题文本之间的相似度，可以包括：

根据目标实体词对应的权重，其他目标实体词的词性对应的权重，第一标题文本中的实体词对应的权重，以及第一标题文本中的其他词的词性对应的权重，确定第二标题文本与第一标题文本之间的相似度。上述目标实体词可以为第一标题文本和第二标题文本中均存在的实体词。上述其他目标词可以为除目标实体词之外的任意词。上述权重可以由预先训练的权重确定模型所确定；或，由人工设定的权重。

在一个可选的示例中，若词集合包括目标实体词时，确定第二标题文本与第一标题文本之间的相似度可以包括：根据目标实体词对应的权重，第一标题文本中的实体词对应的权重，以及第一标题文本中的其他词的词性对应的权重，确定第二标题文本与第一标题文本之间的相似度。

若词集合包括其他目标词时，确定第二标题文本与第一标题文本之间的相似度可以包括：根据其他目标实体词的词性对应的权重，第一标题文本中的实体词对应的权重，以及第一标题文本中的其他词的词性对应的权重，确定第二标题文本与第一标题文本之间的相似度。

需要说明的是，在确定相似度的过程中，可以词集合中的分词的词性对应的权重，以及第一标题文本中的分词的词性对应的权重，确定第二标题文本与第一标题文本之间的相似度。也即，在本实现方式中，可以根据词性对应的权重来确定第二标题文本与第一标题文本之间的相似度。本实现方式中，在上述在相似度过程中，则将实体词的词性对应的权重用实体词对应的权重进行替换，目的是将热度更高的事件优先推荐给用户。

由于，实体词一般都是热点相对较高的专有名词，所以实体词对应的权重一般高于实体词的词性对应的权重，这样以实体词对应的权重替换实体词的词性对应的权重，可以实现将热度更高的事件推荐给用户，提高了用户体验。

在本实现方式中，可以根据目标实体词对应的权重，其他目标实体词的词性对应的权重，第一标题文本中的实体词对应的权重，以及第一标题文本中的其他词的词性对应的权重，实现对第二标题文本与第一标题文本之间的相似度的精准确定。

在本实施例的一些可选的实现方式中，根据目标实体词对应的权重，其他目标实体词的词性对应的权重，第一标题文本中的实体词对应的权重，以及第一标题文本中的其他词的词性对应的权重，确定第二标题文本与第一标题文本之间的相似度，可以包括：

根据目标实体词对应的权重和其他目标词的词性对应的权重，确定词集合对应的权重；根据第一标题文本中的实体词对应的权重和其他词的词性对应的权重，确定第一标题文本对应的权重；根据词集合对应的权重与第一标题文本对应的权重的比值，确定第二标题文本与第一标题文本之间的相似度。

需要说明的是，确定词集合对应的权重的步骤可以与确定第一标题文本对应的权重同时执行；或，先执行确定第一标题文本对应的权重；或，先执行确定词集合对应的权重。

在一个具体的示例中，词性可以包括：名词，专有名词，动词，处所名词，动副词，名形词，作品，动名词，数量词。

实体词可以包括：人物，地点，组织机构，作品。

每一种词性或实体词有对应的权重。以词包的形式计算，交集的其他词或交集的实体词，用1表示，其他用0表示，交集的其他词乘以该其他词的词性对应的权重与交集的实体词乘以该实体词对应的权重的和，这样得到确定词集合对应的权重。按照同样的方法计算第一标题文本对应的权重，将第一标题文本对应的权重作为一个词包，符合前面定义的词性和实体词的为1，将第一标题文本中实体词对应的权重和其他词的词性对应的权重加起来得到第一标题文本对应的权重。最后，用词集合对应的权重除以第一标题文本对应的权重，得到第二标题文本与第一标题文本之间的相似度。

需要说明的是，实体词和其他词的数量可以为至少一个，在此不限定。在实体词的数量为多个时，可以根据实体词的顺序设置对应的权重，例如排在第一位实体词的权重可以高于其他实体词的权重。实体词对应的权重还可以根据实体词的热度进行设置。

在本实现方式中，可以根据目标实体词对应的权重和其他目标词的词性对应的权重，确定词集合对应的权重；根据第一标题文本中的实体词对应的权重和其他词的词性对应的权重，确定第一标题文本对应的权重；根据词集合对应的权重与第一标题文本对应的权重的比值，实现对第二标题文本与第一标题文本之间的相似度的确定。

在本实施例的一些可选的实现方式中，第一标题文本中的实体词对应的权重和其他词的词性对应的权重基于以下步骤确定：

将第一标题文本中的实体词和其他词分别输入预先训练的权重确定模型中，得到第一标题文本中的实体词对应的权重和其他词的词性对应的权重。

需要说明的是，上述第二标题文本中的实体词对应的权重和其他词的词性对应的权重也可以通过预先训练的权重确定模型来确定。

在本实现方式中，可以通过预先训练的权重确定模型实现对第一标题文本中的实体词对应的权重和其他词的词性对应的权重的确定。

在本实施例的一些可选的实现方式中，权重确定模型基于以下步骤确定：

获取训练样本集，其中，训练样本集中的训练样本包括样本标题文本中的分词的属性信息和对应的样本权重标签；

将样本标题文本中的分词的属性信息作为权重确定模型的输入，将样本权重标签作为权重确定模型的输出，训练初始模型，得到权重确定模型。

在本实现方式中，基于样本标题文本中的分词的属性信息和样本权重标签进行训练，得到权重确定模型，从而实现对样本标题文本中的分词的属性信息的权重标签的准确确定。

在本实施例的一些可选的实现方式中，属性信息为实体词或词性。

实体词可以包括：人物，地点，组织机构，作品等。

在本实现方式中，可以通过权重确定模型在分词为实体词时，确定该实体词对应的权重；或分词为上述任一词性时，可以确定该分词的词性对应的权重。

在本实施例的一些可选的实现方式中，若相似度大于预设的相似度阈值的正文的数量为多个，该匹配正文的方法还包括：响应于相似度大于预设的相似度阈值，将相似度最大的第二标题文本对应的正文作为第一标题文本的目标正文。

在一个具体的示例中，响应于相似度大于预设的相似度阈值，将相似度大于预设的相似度阈值的正文进行排序，将相似度最大的第二标题文本对应的正文作为第一标题文本的目标正文。

需要说明的是，与第一标题文本匹配的目标正文还可以为与第一标题文本匹配的目标正文的链接或网络地址等。

在本实现方式中，可以通过预设的相似度阈值，实现向用户推荐与第一标题文本匹配的目标正文。

在本实施例的一些可选的实现方式中，文本集合中的正文为通过第一标题文本召回的正文。

在本实现方式中，为了进一步缩小给第一标题文本匹配目标正文的范围，可以预先通过第一标题文本召回文本集合，以在更进一步为第一标题文本匹配目标正文的同时，缩短了匹配目标正文的时间，进而提高了用户体验。

继续参考图3，其示出了根据本申请的匹配正文的方法的另一个实施例的流程300。该匹配正文的方法包括以下步骤：

步骤301，获取热点事件对应的第一标题文本，以及与预设的文本集合中的正文对应的第二标题文本。

步骤302，根据第一标题文本中的实体词和其他词，以及第二标题文本中的实体词和其他词交集，得到词集合。

在本实施例中，匹配正文的方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以根据第一标题文本中的实体词和第二标题文本中的实体词的交集，以及第一标题文本中的其他词和第二标题文本中的其他词的交集，确定词集合。

步骤303，根据目标实体词对应的权重，其他目标词的词性对应的权重，第一标题文本中的实体词对应的权重，以及第一标题文本中的其他词的词性对应的权重，确定第二标题文本与第一标题文本之间的相似度。

在本实施例中，上述执行主体可以根据目标实体词对应的权重，其他目标词的词性对应的权重，第一标题文本中的实体词对应的权重，以及第一标题文本中的其他词的词性对应的权重，确定第二标题文本与第一标题文本之间的相似度。

步骤304，响应于相似度大于预设的相似度阈值，将文本集合中与第二标题文本对应的文本作为第一标题文本的目标正文。

在本实施例中，步骤301和304具体操作已在图2所示的实施例中步骤201和204进行了详细的介绍，在此不再赘述。

从图3中可以看出，与图2对应的实施例相比，本实施例中的匹配正文的方法的流程300突出了确定相似度的步骤。由此，本实施例描述的方案提升了给第一热点事件对应的第一标题文本匹配目标正文的匹配度。

根据目标实体词对应的权重，其他目标词的词性对应的权重，确定词集合对应的权重；根据第一标题文本中的实体词对应的权重和其他词的词性对应的权重，确定第一标题文本对应的权重；根据词集合对应的权重与第一标题文本对应的权重的比值，确定第二标题文本与第一标题文本之间的相似度。

实体词可以包括：人物，地点，组织机构，作品。

每一种词性或实体词有对应的权重。以词包的形式计算，交集的其他词或交集的实体词，用1表示，其他用0表示，交集的其他词乘以该其他词的词性对应的权重和交集的实体词乘以该实体词对应的权重，这样得到确定词集合对应的权重。按照同样的方法计算第一标题文本对应的权重，将第一标题文本对应的权重作为一个词包，符合前面定义的词性和实体词的为1，将第一标题文本中实体词对应的权重和其他词的词性对应的权重加起来得到第一标题文本对应的权重。最后，用词集合对应的权重除以第一标题文本对应的权重，得到第二标题文本与第一标题文本之间的相似度。

需要说明的是，实体词和其他词的数量可以为至少一个，在此不限定。

在本实现方式中，可以根据目标实体词对应的权重，其他目标词的词性对应的权重，确定词集合对应的权重；根据第一标题文本中的实体词对应的权重和其他词的词性对应的权重，确定第一标题文本对应的权重；根据词集合对应的权重与第一标题文本对应的权重的比值，实现对第二标题文本与第一标题文本之间的相似度的确定。

为了便于理解，下面提供可以实现本申请实施例的匹配正文的方法的应用场景。以终端设备(例如图1所示的终端设备101、102、103)为示例。如图4所示，终端设备401可以先获取热点事件对应的第一标题文本，以及与预设的文本集合中的正文对应的第二标题文本402；之后，终端设备401可以将第一标题文本中的分词和第二标题文本中的分词进行聚类，得到词集合403；之后，终端设备401可以根据词集合中的分词对应的权重，以及第一标题文本中的分词对应的权重，确定第二标题文本与第一标题文本之间的相似度404；而后，在相似度大于预设的相似度阈值时，终端设备401可以将文本集合中与第二标题文本对应的正文作为第一标题文本的目标正文405。

进一步参考图5，图5是根据本申请的匹配正文的方法中训练权重确定模型的一个实施例的流程500。如图5所示，本实施例中，训练权重确定模型的训练步骤可以包括：

步骤501，获取训练样本集，其中，训练样本集中的训练样本包括样本标题文本中的分词的属性信息和对应的样本权重标签。

在本实施例中，训练步骤的执行主体可以与匹配正文的方法的执行主体相同或者不同。如果相同，则训练步骤的执行主体可以在训练得到权重确定模型后将训练好的权重确定模型存储在本地。如果不同，则训练步骤的执行主体可以在训练得到权重确定模型后将训练好的权重确定模型发送给匹配正文的方法的执行主体。

在本实施例中，训练步骤的执行主体可以通过多种方式来获取训练样本集。例如，可以通过有线连接方式或无线连接方式，从数据库服务器中获取存储于其中的训练样本集。再例如，可以通过终端设备来收集训练样本集。上述训练样本集中的训练样本包括样本标题文本中的分词的属性信息和对应的样本权重标签。上述分词的属性信息可以为用于表征该分词的属性，例如分词是否为实体词、分词的词性是否为某一词性。上述样本权重标签可以用于标注分词的属性信息对应的权重。

步骤502，将样本标题文本中的分词的属性信息作为权重确定模型的输入，将样本权重标签作为权重确定模型的输出，训练初始模型，得到权重确定模型。

本实施例中，上述执行主体在得到样本标题文本中的分词的属性信息，以及样本权重标签后，可以利用样本标题文本中的分词的属性信息和样本权重标签训练初始模型，得到权重确定模型。在训练时，执行主体可以将样本标题文本中的分词的属性信息作为权重确定模型的输入，以及将所输入对应的样本权重标签，作为期望输出，得到权重确定模型。上述初始模型可以为现有技术或未来发展技术中的概率模型、分类模型或者其他分类器等，例如，初始模型可以包括以下任意一项：极端梯度提升树模型(XGBoost)、逻辑斯蒂回归模型(LR)、深度神经网络模型(DNN)、梯度提升决策树模型(Gradient BoostingDecision Tree，GBDT)。

本申请实施例提供的方法，基于样本标题文本中的分词的属性信息和样本权重标签进行训练，得到权重确定模型，从而实现对样本标题文本中的分词的属性信息的权重标签的准确确定。

实体词可以包括：人物，地点，组织机构，作品等。

例如，第一标题文本：“AA人物出访B国家”。其中，“AA人物”和“B国家”为实体词，“出访”的词性为动词。将“AA人物”、“B国家”、“出访”依次输入权重确定模型，可以依次得到“AA人物”对应的权重、“B国家”对应的权重、“出访”对应的权重。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种匹配正文的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的匹配正文的装置600可以包括：文本获取模块601、集合得到模块602、相似度确定模块603和作为正文模块604。其中，文本获取模块601，被配置成获取热点事件对应的第一标题文本，以及与预设的文本集合中的正文对应的第二标题文本；集合得到模块602，被配置成将第一标题文本中的分词和第二标题文本中的分词进行聚类，得到词集合；相似度确定模块603，被配置成根据词集合中的分词对应的权重，以及第一标题文本中的分词对应的权重，确定第二标题文本与第一标题文本之间的相似度；作为正文模块604，被配置成响应于相似度大于预设的相似度阈值，将文本集合中与第二标题文本对应的文本作为第一标题文本的目标正文。

在本实施例中，匹配正文的装置600中：文本获取模块601、集合得到模块602、相似度确定模块603和作为正文模块604的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明，在此不再赘述。

在本实施例的一些可选的实现方式中，集合得到模块602，进一步配置成：根据第一标题文本中的实体词和其他词，以及第二标题文本中的实体词和其他词交集，得到词集合。

在本实施例的一些可选的实现方式中，若词集合包括目标实体词和其他目标词；

相似度确定模块603，进一步被配置成：根据目标实体词对应的权重，其他目标词的词性对应的权重，第一标题文本中的实体词对应的权重，以及第一标题文本中的其他词的词性对应的权重，确定第二标题文本与第一标题文本之间的相似度。

在本实施例的一些可选的实现方式中，相似度确定模块603，进一步被配置成：根据目标实体词对应的权重和其他目标词的词性对应的权重，确定词集合对应的权重；根据第一标题文本中的实体词对应的权重和其他词的词性对应的权重，确定第一标题文本对应的权重；根据词集合对应的权重与第一标题文本对应的权重的比值，确定第二标题文本与第一标题文本之间的相似度。

在本实施例的一些可选的实现方式中，该匹配正文的装置还包括：权重得到模块(图中未示出)，被配置成将第一标题文本中的实体词和其他词分别输入预先训练的权重确定模型中，得到第一标题文本中的实体词对应的权重和其他词的词性对应的权重。

在本实施例的一些可选的实现方式中，该匹配正文的装置还包括：样本获取模块(图中未示出)，被配置成获取训练样本集，其中，训练样本集中的训练样本包括样本标题文本中的分词的属性信息和对应的样本权重标签；模型训练模块(图中未示出)，被配置成将样本标题文本中的分词的属性信息作为权重确定模型的输入，将样本权重标签作为权重确定模型的输出，训练初始模型，得到权重确定模型。

在本实施例的一些可选的实现方式中，所述属性信息为实体词或词性。

根据本申请的实施例，本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图7示出了可以用来实施本申请的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图7所示，设备700包括计算单元701，其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序，来执行各种适当的动作和处理。在RAM 703中，还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

设备700中的多个部件连接至I/O接口705，包括：输入单元706，例如键盘、鼠标等；输出单元707，例如各种类型的显示器、扬声器等；存储单元708，例如磁盘、光盘等；以及通信单元709，例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理，例如匹配正文的方法。例如，在一些实施例中，匹配正文的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元708。在一些实施例中，计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时，可以执行上文描述的匹配正文的方法的一个或多个步骤。备选地，在其他实施例中，计算单元701可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行匹配正文的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

人工智能是研究计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语音处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

根据本申请的技术方案，首先获取热点事件对应的第一标题文本，以及与预设的文本集合中的正文对应的第二标题文本；之后将第一标题文本中的分词和第二标题文本中的分词进行聚类，得到词集合；之后根据词集合中的分词对应的权重，以及第一标题文本中的分词对应的权重，确定第二标题文本与第一标题文本之间的相似度；最后响应于相似度大于预设的相似度阈值，将文本集合中与第二标题文本对应的正文作为第一标题文本的目标正文。从而可以根据词集合中的分词的权重、以及第一标题文本中的分词对应的权重给热点事件对应的第一标题文本匹配目标正文，提高了匹配度。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种匹配正文的方法，包括：

获取热点事件对应的第一标题文本，以及与预设的文本集合中的正文对应的第二标题文本；

将所述第一标题文本中的分词和所述第二标题文本中的分词进行聚类，得到词集合，其中，所述词集合包括目标实体词和其他目标词；

根据所述目标实体词对应的权重和所述其他目标词的词性对应的权重，确定所述词集合对应的权重；根据所述第一标题文本中的实体词对应的权重和其他词的词性对应的权重，确定所述第一标题文本对应的权重；根据词集合对应的权重与所述第一标题文本对应的权重的比值，确定所述第二标题文本与所述第一标题文本之间的相似度；

响应于所述相似度大于预设的相似度阈值，将所述文本集合中与所述第二标题文本对应的正文作为所述第一标题文本的目标正文。

2.根据权利要求1所述的方法，其中，所述将所述第一标题文本中的分词和所述第二标题文本中的分词进行聚类，得到词集合，包括：

根据所述第一标题文本中的实体词和其他词，以及所述第二标题文本中的实体词和其他词交集，得到所述词集合。

3.根据权利要求1所述的方法，其中，所述第一标题文本中的实体词对应的权重和其他词的词性对应的权重基于以下步骤确定：

将所述第一标题文本中的实体词和其他词分别输入预先训练的权重确定模型中，得到所述第一标题文本中的实体词对应的权重和其他词的词性对应的权重。

4.根据权利要求3所述的方法，其中，所述权重确定模型基于以下步骤确定：

获取训练样本集，其中，所述训练样本集中的训练样本包括样本标题文本中的分词的属性信息和对应的样本权重标签；

将所述样本标题文本中的分词的属性信息作为所述权重确定模型的输入，将所述样本权重标签作为所述权重确定模型的输出，训练初始模型，得到权重确定模型。

5.根据权利要求4所述的方法，其中，所述属性信息为实体词或词性。

6.根据权利要求1所述的方法，其中，所述文本集合中的正文为通过所述第一标题文本召回的正文。

7.一种匹配正文的装置，包括：

文本获取模块，被配置成获取热点事件对应的第一标题文本，以及与预设的文本集合中的正文对应的第二标题文本；

集合得到模块，被配置成将所述第一标题文本中的分词和所述第二标题文本中的分词进行聚类，得到词集合，其中，所述词集合包括目标实体词和其他目标词；

相似度确定模块，被配置成根据所述目标实体词对应的权重和所述其他目标词的词性对应的权重，确定所述词集合对应的权重；根据所述第一标题文本中的实体词对应的权重和其他词的词性对应的权重，确定所述第一标题文本对应的权重；根据词集合对应的权重与所述第一标题文本对应的权重的比值，确定所述第二标题文本与所述第一标题文本之间的相似度；

作为正文模块，被配置成响应于所述相似度大于预设的相似度阈值，将所述文本集合中与所述第二标题文本对应的正文作为所述第一标题文本的目标正文。

8.根据权利要求7所述的装置，其中，所述集合得到模块，进一步配置成：

9.根据权利要求7所述的装置，所述装置还包括：

权重得到模块，被配置成将所述第一标题文本中的实体词和其他词分别输入预先训练的权重确定模型中，得到所述第一标题文本中的实体词对应的权重和其他词的词性对应的权重。

10.根据权利要求9所述的装置，所述装置还包括：

样本获取模块，被配置成获取训练样本集，其中，所述训练样本集中的训练样本包括样本标题文本中的分词的属性信息和对应的样本权重标签；

模型训练模块，被配置成将所述样本标题文本中的分词的属性信息作为所述权重确定模型的输入，将所述样本权重标签作为所述权重确定模型的输出，训练初始模型，得到权重确定模型。

11.根据权利要求10所述的装置，其中，所述属性信息为实体词或词性。

12.根据权利要求7所述的装置，其中，所述文本集合中的正文为通过所述第一标题文本召回的正文。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。