CN115858939A

CN115858939A - 一种同行召回方法、系统及存储介质

Info

Publication number: CN115858939A
Application number: CN202211737390.1A
Authority: CN
Inventors: 包智; 曾思亮; 蔡子哲
Original assignee: Qizhidao Network Technology Co Ltd
Current assignee: Qizhidao Network Technology Co Ltd
Priority date: 2022-12-31
Filing date: 2022-12-31
Publication date: 2023-03-28

Abstract

本申请涉及同行推荐服务领域，具体公开了一种同行召回方法、系统及存储介质,所述方法包括：获取用户输入的公司名称，并根据公司名称获取公司信息，所述公司信息包括公司的产品词以及对应的权重；对公司的产品词进行分词，并根据分词结果结合对应权重生成搜索项；基于搜索项，通过预设的搜索库进行搜索匹配，获取第一组召回结果；对公司的产品词通过预设的编码方式进行编码，获取词向量并对词向量进行加权，以生成企业向量；根据企业向量，通过相似向量检索库进行召回，获取第二组召回结果。本申请通过在公司产品词的基础上生成多种不同形式的召回策略，可以获取到更全面的同行信息，并且只需输入公司名称即可进行同行召回。

Description

一种同行召回方法、系统及存储介质

技术领域

本申请涉及同行推荐服务领域，尤其涉及一种同行召回方法、系统及存储介质。

背景技术

同行召回表示的从相应的企业库中寻找属于同一行业的其它公司或者企业，在同行推荐的过程中，召回作为一个重要流程，决定了所推荐同行的最大范围，后续的所有操作，都是在召回的同行公司内进行筛选，所以对召回的处理得当，可以让同行推荐服务性能效果更加优秀。

现有的召回方式一般都是根据所属行业或者所涉及业务来输入相关的关键词，从而进行搜索获取到要查询的同行公司。

但这种方式获取的搜索结果可能并不全面或者说并不能贴合用户需求，例如A公司为化妆品生产销售商，B公司为化妆品原料供应商，两个公司都涉及到化妆品业务，但并不属于同行，这种情况下，若A公司想要查询同行，输入关键词为化妆品，B公司可能也会被纳入匹配项，显然并不符合需求。想要进行区分，则还需要增加新的关键词，如此一来，整个召回过程可能需要不断地对输入关键词进行调整，相对比较繁琐。

发明内容

本申请的目的是提供一种同行召回方法、系统及存储介质，通过新的召回策略，在同行推荐服务中，只需要输入公司名称，便可获取到公司的产品词，然后通过对公司产品词生成召回策略，即可召回所需的大部分公司。

第一方面，本申请提供一种同行召回方法，采用如下的技术方案：

获取用户输入的公司名称，并根据公司名称获取公司信息，所述公司信息包括公司的产品词，所述产品词附带有对应的权重；

对公司的产品词进行分词，并根据分词结果结合对应权重生成搜索项；

基于搜索项，通过预设的搜索库进行搜索匹配，获取第一组召回结果；

对公司的产品词通过预设的编码方式进行编码，获取词向量；

通过产品词对应的权重对词向量进行加权，以生成企业向量；

根据企业向量，通过相似向量检索库进行召回，获取第二组召回结果；

输出第一组召回结果和第二组召回结果。

通过上述技术方案，只需通过输入公司名称即可根据公司名称提取到对应的公司产品词，在产品词的基础上采用多种不同的召回方式，可以获取不同的召回结果，可更好地满足对于同行召回的需求。

可选的，所述搜索项包括第一搜索项和第二搜索项，所述对公司的产品词进行分词，并根据分词结果结合对应权重生成搜索项，包括：

对公司的所有产品词进行分词并去掉虚词，记剩下的产品词为第一主题词；

对公司的所有产品词进行分词，对每一个分词结果以从后往前的顺序去掉虚词，并将去掉虚词的最后一个词记为第二主题词；

分别对第一主题词和第二主题词统计词频，将每个词的词频与对应权重相乘，记为该词的重要度；

根据所有的第一主题词和各词对应的重要度，获取第一搜索项；

根据所有的第二主题词和各词对应的重要度，获取第二搜索项。

可选的，所述基于搜索项，通过预设的搜索库进行搜索匹配，获取第一组召回结果，包括：

基于第一主题词，通过第一预设搜索匹配方式进行匹配搜索，并对搜索结果根据各词对应的重要度进行排序，获取第一搜索结果集；

基于第二主题词，通过第二预设搜索匹配方式进行匹配搜索，并对搜索结果根据各词对应的重要度进行排序，获取第二搜索结果集；

将第一搜索结果集和第二搜索结果集合并为第一组召回结果。

可选的，所述获取用户输入的公司名称，并根据公司名称获取公司信息之后，还包括：

对输入公司的所有产品词根据权重进行筛选，获取高分词；

对于每一个高分词，通过预设的词性分词方式进行划分，获取对应的一组局部高分词；

对每一组局部高分词，通过预设的替换方法进行词替换，并对替换后的词进行重组，获取重组高分词；

对所有的重组高分词通过预设的编码方式进行编码，获取重组词向量；

基于重组词向量，通过相似向量检索库进行召回，获取第三组召回结果。

可选的，所述对每一组局部高分词，通过预设的替换方法进行词替换，并对替换后的词进行重组，获取重组高分词，包括：

对每一组局部高分词，通过预设的替换方式进行词替换，获取多组局部替换高分词，并形成局部替换高分词集合；

对每一组局部高分词，通过预设的编码方式进行编码，获取基准词向量；

遍历局部替换高分词集合，对于每一组局部替换高分词，通过预设的编码方式进行编码，获取替换词向量；

对基准词向量和替换词向量，通过相似度计算获取对应相似度；

当相似度达到预设的语义相似阈值时，将当前新的替换词记为有效替换词；

遍历完成之后，对所有的有效替换词进行重组，将重组后的词作为重组高分词。

可选的，所述公司信息还包括业务信息，所述业务信息包括人工标注信息、专利信息，所述专利信息包含专利的IPC号，所述获取用户输入的公司名称之后，还包括:

基于人工标注信息，获取人工召回结果；

基于专利的IPC号，通过IPC号的位数进行模糊匹配，获取专利召回结果；

将人工召回结果同专利召回结果进行合并，获取第四组召回结果。

可选的，获取用户输入的公司名称之后，还包括：

基于查询公司名称，通过预设的搜索库进行检索判断是否输入名称有误，

若输入名称无误，将当前用户输入的公司名称记录在预设数据库中，并根据公司名称获取公司信息；

若输入名称有误，则判断预设数据库中是否存在当前用户的输入查询记录并且查询数据量达到预设阈值；

若否，输出提示信息，所述提示信息表示输入名称有误请重新输入；

若是，则根据当前用户的历史查询记录对输入的公司名称进行改写，并根据改写后的公司名称获取公司信息。

可选的，所述根据当前用户的历史查询记录对输入的公司名称进行改写，包括：

根据当前用户的历史查询记录，统计当前用户输入过的所有公司名称以及相应频次；

根据当前输入的公司名称，对历史输入的所有公司名称进行相似度匹配，获取相似度结果；

判断是否存在频次高于预设频次阈值并且相似度结果大于预设相似度阈值的历史输入公司名称，

若是，则对满足条件的所有历史输出公司名称按频次和相似度进行综合排序，选取排名最高的公司名称作为改写公司名称；

若否，则输出提示信息，所述提示信息表示输入名称有误请重新输入。

第二方面，本申请提供一种同行召回系统，包括：

数据获取模块（101），用于获取用户输入的公司名称，并根据公司名称获取公司信息，所述公司信息包括公司的产品词，所述产品词附带有对应的权重；

分词模块（102），对公司的产品词进行分词，并根据分词结果结合对应权重生成搜索项；

第一召回模块（103），用于基于搜索项，通过预设的搜索库进行搜索匹配，获取第一组召回结果；

数据编码模块（104），对公司的产品词通过预设的编码方式进行编码，获取词向量；

第二召回模块（105），用于通过产品词对应的权重对词向量进行加权，以生成企业向量，然后根据企业向量，通过相似向量检索库进行召回，获取第二组召回结果；

结果输出模块（106），用于输出第一组召回结果和第二组召回结果。

第三方面，本申请提供一种计算机可读存储介质，存储有能够被处理器加载并执行上述一种同行召回方法的计算机程序。

综上所述，本申请通过在公司产品词的基础上，设计多种召回策略，以从各个层面获取到相应的同行召回信息，另外结合各个产品词的频次以及附加的权重值，可以对召回结果按重要程度进行排序，以便更好地贴合用户的需求，此外，只需输入待查询的公司名称，即可获取到对应的同行召回结果，并且可以根据不同的召回策略进行相应的结果展示，用户可根据实际侧重点有针对性地获取所需同行信息。

附图说明

图1是本申请实施例所提供的一种同行召回方法的流程图；

图2是本申请实施例所提供的一种对高分词进行替换并进行召回的流程图；

图3是本申请实施例所提供的一种对高分词进行替换并获取重组高分词的流程图；

图4是本申请实施例所提供的一种对输入公司名称判断及相应处理的流程图；

图5是本申请实施例所提供的一种对错误输入的公司名称进行改写的流程图；

图6是本申请实施例所提供的一种同行召回系统的示意图。

具体实施方式

以下结合附图1-附图6，对本申请作进一步详细说明。

本申请提供一种同行召回方法，参见图1，包括以下步骤：

S100、获取用户输入的公司名称，并根据公司名称获取公司信息。

其中，公司信息包括公司的产品词，公司的产品词为词与权重的组合，例如某一公司的产品词为：[“通信,1.02”, “计算机、通信和其他电子设备制造,0.9942744639098113”, “终端产品,0.6807782824499731”…]，另外公司信息还包括业务信息，其中业务信息包括人工标注信息、专利信息，人工标注信息表示的是该公司手动标注的同行信息，专利信息包含专利的IPC号。

公司的产品词是通过公司官网、百度百科、顺企网、等多种渠道爬取的，然后将爬取的文本抽取出产品词，然后经过相互投票、清洗、过滤、排序打分等一系列操作得到各个产品词的权重值，最后形成如上述的产品词。

在本申请实施例中，通过用户输入的待查询的公司名称，可获取到与该公司名称对应的产品词，产品词作为公司的标签，是比较能够代表公司所述属行业以及所涉及业务体系的，所以通过以产品词来作为关键词可以较好的匹配出同行公司信息。

S200、对公司的产品词进行分词，并根据分词结果结合对应权重生成搜索项。

其中，搜索项包括第一搜索项和第二搜索项，第一搜索项表示的是对产品词进行分词和过滤掉虚词，然后由剩下的产品词以及对应的权重值生成的参与搜索匹配的关键词组合；第二搜索项表示的是对产品词进行分词和过滤掉虚词，从后往前去掉虚词后的最后一个词作为主题词，然后由主题词结合对应的权重值生成的参与搜索匹配的关键词组合。

在本申请实施例中，在以公司产品词作为召回基准来获取待查询公司的同行公司信息时，首先会进行产品词字面召回，也就是根据产品词的字面信息来进行召回，所以需要对产品词进行分词和过滤，以重新编排关键词，然后根据关键词来进行搜索匹配，以召回出相应的同行公司信息。并且根据不同的关键词摘选策略可以生成不同的关键词序列。对应的，获取到的同行召回信息也会有一定的区别，这样一来也可以覆盖到更多的情况，有助于获取更为全面的同行召回信息。

在本申请实施例中，对公司的产品词进行分词，并根据分词结果结合对应权重生成搜索项，具体包括如下步骤：

S210、对公司的所有产品词进行分词并去掉虚词，记剩下的产品词为第一主题词。

其中，对产品词进行分词采用了两种分词方法，分别为ik_smart和jieba。 ik_smart 可以将需要分词的文本做最大粒度的拆分，这里的最大粒度可理解为尽量将存在语义关联的字/词组合到一起；Jieba库作为优秀的中文分词第三方库，可以利用一个中文词库，确定汉字之间的关联概率，汉字间概率大的组成词组，形成分词结果。

虚词表示的是没有完整意义的词汇，包括介词、连词、助词、语气词。

在本申请实施例中，首先会通过对产品词来进行分词并过滤掉虚词，然后将剩余的产品词记为第一主题词。

例如，用户输入维沃通信科技有限公司，获取对应的公司产品词为：[“通信,1.02”, “计算机、通信和其他电子设备制造,0.9942744639098113”,“移动通信终端产品,0.9919987826623713”, “vivo智能手机,0.9899125286694042”, “移动通信终端产品设计,0.9880435126490608”,“音乐手机,0.9876141567213143”,“手机通讯,0.9872055320764995”, “智能手机,0.9851080081922604”,“手机,0.9819278798026589”,“手机及配件,0.9741175263949924”,“手机周边设备,0.9508078460714534”,“通信终端设备,0.830390351448445”,“终端产品,0.6807782824499731”]。

可以看出产品词按对应的权重从高到低进行了排序，通过分词并且去掉虚词，可以将其中的部分产品词进行拆分，如“计算机、通信和其他电子设备制造”通过分词和过滤会变成“计算机，通信，电子设备，制造”，对所有的产品词进行一轮分词并过滤掉虚词之后，将剩下的产品词都记为第一主题词。

S220、对公司的所有产品词进行分词，对每一个分词结果以从后往前的顺序去掉虚词，并将去掉虚词的最后一个词记为第二主题词。

由于对产品词进行分词以及过滤是为了提取搜索匹配的关键词，以此来参与同行召回，并且针对不同的搜索匹配方法，也需要对参与搜索匹配的关键词进行相应的组合，以实现更精准的匹配。

因此，在本申请实施例中，除了对所有的产品词进行分词过滤，保留剩下的产品词作为第一主题词之外，还会对所有的产品词进行分词过滤，只保留去虚词后的最后一个词作为第二主题词。

如上述的例子，其中产品词“计算机、通信和其他电子设备制造”通过分词和按从后往前的顺序去掉虚词，并将去掉虚词的最后一个词记为第二主题词，可得到最后的第二主题词为“制造”，同理“移动通信终端产品设计”得到的第二主题词为“产品设计”。

S230、分别对第一主题词和第二主题词统计词频，将每个词的词频与对应权重相乘，记为该词的重要度。

S240、根据所有的第一主题词和各词对应的重要度，获取第一搜索项。

S250、根据所有的第二主题词和各词对应的重要度，获取第二搜索项。

由于产品词还附带有对应的权重值，并根据对应权重值从高到低进行了排序，而权重值本身也可作为产品词重要程度的体现。不管是第一主题词还是第二主题词，都是通过产品词进行分词并过滤得到的，所以所有生成的第一主题词和第二主题词同样也会有对应的权重值。并且由于经过分词处理之后，会出现重复的词，而一个词出现频次越多，一定程度上也反映了该词的重要程度。

因此，在本申请实施例中，结合词出现的频次以及对应的权重值，将每个词的词频与对应权重相乘，记为该词的重要度。

通过分别对第一主题词和第二主题词统计词频，并根据每个词对应的权重获取各词对应的重要度，然后结合所有的第一主题词和各词对应的重要度，获取第一搜索项。同样地，结合所有的第二主题词和各词对应的重要度，获取第二搜索项。

如上述例子，由第一主题词和各词对应的重要度，得到的第一搜索项为：[“手机”:5.214798222931102, “通信”: 5.060830386091318,“智能手机”: 3.9419618628474153,“移动”: 3.3246691802298844,“产品设计”: 2.216490202249584,“周边设备”:2.104723591076622,“制造”: 1.609033688402306,“通讯”: 1.2310165939996074,“电子设备”: 1.2214005588698462,“计算机”: 1.0800551630984945, “终端产品”: 0.992,“vivo”: 0.99,“音乐手机”: 0.988]。

由第二主题词和各词对应的重要度，得到的第二搜索项为：[“智能手机”:3.9419618628474153,“手机”: 2.5886504789229123,“通信”: 2.5519560334471496,“产品设计”: 2.216490202249584,“周边设备”: 2.104723591076622,“手机通讯”:1.6303755919980383,“制造”: 1.609033688402306,“手机及配件”:1.4110612437816472,“终端产品”: 0.992,“音乐手机”: 0.988]。

S300、基于搜索项，通过预设的搜索库进行搜索匹配，获取第一组召回结果。

其中预设的搜索库表示的查找同行公司信息的企业库，其中存储有大量的公司或者企业信息，根据相应的搜索匹配规则可以获取到想要查询的同行公司信息。

搜索匹配采用了ES(ElasticSearch), ES是一个高拓展和开源的全文搜索和分析引擎,可以实时地搜索、分析海量的数据。

在本申请实施例中，基于搜索项，通过预设的搜索库进行搜索匹配，获取第一组召回结果，具体包括如下步骤：

S310、基于第一主题词，通过第一预设搜索匹配方式进行匹配搜索，并对搜索结果根据各词对应的重要度进行排序，获取第一搜索结果集。

S320、基于第二主题词，通过第二预设搜索匹配方式进行匹配搜索，并对搜索结果根据各词对应的重要度进行排序，获取第二搜索结果集。

其中，第一预设搜索匹配方式表示的是ES中提供的一种匹配查询方式Match。在执行Match查询时，默认情况下，匹配项包含任意一个关键词，就满足查询条件，也就是通过第一主题词进行Match查询时，只须满足所有第一主题词中的任意一个词，即可作为匹配成功项被召回。

第二预设搜索匹配方式表示的是ES中提供的另一种匹配查询方式Match_phrase(短语匹配查询)。在执行Match_phrase查询时，默认情况下，匹配项必须包含所有的关键词，并且保证各个关键词的相对位置不变，才能满足查询条件，也就是通过第二主题词进行Match_phrase查询时，必须满足所有的第二主题词，才可能作为匹配成功项被召回。

在本申请实施例中，根据第一主题词，通过Match进行匹配搜索，可以从预设搜索库中获取到所有满足匹配条件的搜索结果。同样地，根据第二主题词，通过Match_phrase进行匹配搜索，可以从预设搜索库中获取到所有满足匹配条件的搜索结果。

由于通过Match或Match_phrase查询时，所有成功匹配的结果会有对应的分数score, 并且对于所有满足条件的成功匹配项，根据对应的命中词可以获取到对应的重要程度，根据命中词的重要程度以及对应的分数可以对所有的搜索结果进行排序，也就是按分数与对应的重要程度的乘积作为总分，按照总分从大到小对所有的搜索结果进行排序。其中命中词表示的是参与某一搜索结果成功匹配的第一主题词或第二主题词。

因此将通过Match匹配搜索后的所有搜索结果进行排序，并将排序后的所有搜索结果记为第一搜索结果集。同样地，将通过Match_phrase匹配搜索后的所有搜索结果进行排序，并将排序后的所有搜索结果记为第二搜索结果集。

此外，由于考虑到上述两种匹配方式都会使用BM25算法来进行相似度的评估，也就是与上述提到的得分score有关， BM25 作为一种用来评价搜索词和文本之间相关性的算法，有两个控制变量，一个是文本长度，一个是词频。所以最后召回的搜索匹配项的得分会与搜索词出现在文本的频次以及包含搜索词的文本长度有关。

因为搜索匹配的目标实际上就是预设搜索库中的各公司信息，而不同的公司参与搜索匹配的文本根据不同的企业规模会有相应的差异，例如规模较小的公司涉及的业务相对会少一点，对应的产品词相对也更少，产品词在参与搜索匹配的文本中出现的频次也会更多一些，当进行搜索匹配时，搜索词出现在文本的频次也就相对会更高一些。所以通过这种方式来进行搜索匹配时，最后的得分会因为企业规模的不同有一定的失衡。

因此，在本申请实施例中，在根据搜索项进行搜索匹配时，会将预设的搜索库根据企业规模划分大、中、小三个桶，分别根据不同的桶进行来进行搜索匹配。这样一来，大中小规模的公司都能以相对公平的状态参与搜索匹配，从而被召回。

S330、将第一搜索结果集和第二搜索结果集合并为第一组召回结果。

由于两种不同的搜索匹配方式侧重点并不一样，通过第一搜索项进行搜索匹配获取的结果覆盖范围更广一些，而第二搜索匹配项相当于进行了更多地限制，从而根据第二搜索匹配项进行搜索匹配获取到的搜索匹配结果范围会更小一下，但相对而言，由于参与成功匹配的命中项更多，相应的最后成功匹配的搜索结果对应的分数也更高。

因此在本申请实施例中，会将第一搜索结果集和第二搜索结果集合并为第一组召回结果，通过将两种方式获取的搜索结果进行整合，进行重新排序，使获取的召回信息更全面的同时，也方便用户进行相关地筛选工作。所谓的第一组召回结果表示的就是根据产品词字面召回得到的同行召回信息。

S400、对公司的产品词通过预设的编码方式进行编码，获取词向量。

其中，预设的编码方式是word2vec，word2vec可将每个单词表示成一个定长度的向量，通过在语料库上的预训练使得向量能够较好地表达出不同词语之间的相似和类比关系，以引入一定的语义信息。

在本申请实施例中，首先根据产品词字面召回得到第一组召回结果之后，还会根据公司产品词组合后进行语义召回，也就是会根据各产品词之间的语义关联信息来进行建模，例如通过word2vec来对产品词进行编码，并将编码后得到的向量记为词向量。

S500、通过产品词对应的权重对词向量进行加权，以生成企业向量。

由于通过词向量可以在预设的搜索库中进行向量的相似度搜索匹配，并可获取到满足相似度要求的搜索匹配结果，相应地会以相似度的高低来对搜索匹配结果进行排序，但是还考虑到各个产品词本身附带有对应的权重，所以在由各个产品词组成的词向量进行向量相似度匹配时，会对权重值高的产品词赋予更多的关注，也就是会将权重值也融入到向量的相似度计算中。

因此，在本申请实施例中，会通过产品词对应的权重对词向量进行加权，以生成企业向量，然后由企业向量来作为搜索项，从预设的搜索库中进行搜索匹配，以获取相应的搜索匹配结果。

S600、根据企业向量，通过相似向量检索库进行召回，获取第二组召回结果。

其中，相似向量检索库采用的是Faiss（相似向量检索库），Faiss可以为向量提供高效相似度搜索和聚类，是目前最为成熟的近似近邻搜索库。

在本申请实施例中，在获取到企业向量之后，可以根据企业向量通过Faiss这种方式从预设的搜索库中进行相似度搜索，将所有相似度达到一定阈值的搜索结果作为第二组召回结果。所谓的第二组召回结果表示的就是根据产品词语义召回得到的同行召回信息。

S700、输出第一组召回结果和第二组召回结果。

在本申请实施例中，获取用户输入待查询的公司名称之后，分别通过对该公司的产品词进行产品词字面召回和产品词语义召回，可以获取到第一组召回结果和第二组召回结果，然后会将两种召回结果进行输出展示。

另外，由于考虑到并不一定产品词不同，就说明一定不是同行，可能存在有些产品词虽然不同，但表示的意思却是相同，同样也属于同行的范畴，例如，产品词“维修”和“修理”，意思也很接近，分别包含这两个产品词的公司也是存在属于同行的可能性。

所以，除了进行产品词字面召回和产品词语义召回之外，还会对产品词进行替换后再进行召回，这里提到的替换指的是对部分产品词进行近义词、同义词替换。并且部分产品词指的也是重要程度比较高的产品词，只有对重要程度较高的产品词进行替换得到的新词，才能被赋予更多的属于同行的可能性。

因此，在本申请实施例中，获取用户输入的公司名称，并根据公司名称获取公司信息之后，参见图2，还包括如下步骤：

S810、对输入公司的所有产品词根据权重进行筛选，获取高分词。

在本申请实施例中，根据用户输入的公司名称，获取到公司信息后，会根据公司信息中的产品词进行同行的召回。与此同时，会对获取到的产品词进行相应替换，根据替换后的新产品词同样进行同行的召回。

对获取到的产品词进行相应替换，首先确定要参与替换的词，上述有提到，参与替换的产品词会是重要程度比较高的词，所以会对输入公司的所有产品词根据权重进行筛选，将权重达到一定阈值的产品词，来作为参与替换的词，这里记为高分词。

S820、对于每一个高分词，通过预设的词性分词方式进行划分，获取对应的一组局部高分词。

其中，预设的词性分词方法表示的是一种根据词性来进行分词的方法，例如jieba词性分词方法，在分词的过程还增加了词性的标注，最后按词性进行词的拆分。

由于产品词可能是单个的词也可能是多个词的组合，所以对于由多个词组合成的产品词进行替换时，需要先将产品词进行分词，由于替换的方式是采用同义词或者近义词，所以对产品词进行划分会根据产品词的词性来做划分参考。

在本申请实施例中，对于每一个高分词都会作为一个整体来进行替换，首先会通过预设的词性分词方式进行划分，将划分之后得到的词记为局部高分词，例如，某一公司产品词中的高分词为“新能源汽车修理服务”，通过词性划分得到一组局部高分词为：“新能源”、“ 汽车”、“ 修理”、“ 服务”。对于每一个高分词，通过进行划分，都能获取到对应的一组局部高分词。

S830、对每一组局部高分词，通过预设的替换方法进行词替换，并对替换后的词进行重组，获取重组高分词。

其中，预设的替换方法为同义词表、近义词表以及CN-Dbpedia（中文通用百科知识图谱）等，CN-Dbpedia提供有同义词查询的接口。

由于单个词的相似性并不一定意味着文本级相似性，存在同义词替换仍然可以改变文本的语义内容的情况，例如上述中的高分词“新能源汽车修理服务”如果“修理”采样同义或近义替换为“修茸、修缮、培修、修建、修补”中的任一个，都可能会改变高分词的语义内容。语义内容一旦发生较大变化，那通过替换后的词来参与同行召回，获取的信息可能会出现较大的偏差。

所以对于高分词的替换除了通过同义词、近义词进行字面替换外，还会进行语义替换，也就会根据每一个高分词字面替换内容进行上下文语义关联，从中选取语义相似度高的词作为替换词。

在本申请实施例中，对每一组局部高分词，通过预设的替换方法进行词替换，并对替换后的词进行重组，获取重组高分词，参见图3，具体包括如下步骤：

S831、对每一组局部高分词，通过预设的替换方式进行词替换，获取多组局部替换高分词，并形成局部替换高分词集合。

在本申请实施例中，对每一组局部高分词，会分别对各个局部高分词进行替换，获取替换后的词，例如，将局部高分词“新能源”、“ 汽车”、“ 修理”、“ 服务”分别进行近义词或同义词替换，可以得到替换后的新词，例如“新能源” --> “节能、太阳能、电动、…”，“汽车” --> “车辆、轿车、卡车、…”, “修理” --> “修整、维修、检修、…”,“服务”-->“效劳、使用、业务、…”。

值得说明的是，并不是所有的词都可以通过查找同义词表或者近义词表以参与替换，并且也不能将意思偏差较大的词作为替换词，所以对于参与替换的词都会通过同义词表、近义词表以及CN-Dbpedia进行综合提取并筛选，例如只选取一个词作为替换词，当然也可根据实际情况进行调整。

为了使完成替换之后并不会改变原高分词的语义内容，对于每一个替换词都会进行语义关联检测，也就是会将替换后并重新组合的高分词与原高分词进行语义相似度计算，只有当语义相似度达到预设的标准程度，才会将该替换词保留。

所以，在本申请实施例中，会将获取的替换词分别与其余的局部高分词作为一个组合，记为局部替换高分词，例如将“节能”与“ 汽车”、“ 修理”、“ 服务”作为一个组合，即为“节能、汽车、修理、服务”。对于每一个替换词都进行同样的组合，并获取到对应的局部替换高分词，从而形成由多组局部替换高分词而组成的集合。

S832、对每一组局部高分词，通过预设的编码方式进行编码，获取基准词向量。

由于要对每一组局部替换高分词进行语义关联检测，以确认替换后的新词不会改变原有高分词的语义内容，所以会以原有的高分词作为一个参考标准，也就是会侧重关注各个局部高分词之间的语义关联。

因此，在本申请实施例中，会对每一组局部高分词，通过预设的编码方式进行编码，将编码得到的向量作为基准词向量，以作为检测替换词是否能实现替换的标准。

S833、遍历局部替换高分词集合，对于每一组局部替换高分词，通过预设的编码方式进行编码，获取替换词向量。

S834、对基准词向量和替换词向量，通过相似度计算获取对应相似度。

S835、当相似度达到预设的语义相似阈值时，将当前新的替换词记为有效替换词。

S836、遍历完成之后，对所有的有效替换词进行重组，将重组后的词作为重组高分词。

在本申请实施例中，局部替换高分词集合是由多组局部替换高分词组成，对于每一组局部替换高分词，通过预设的编码方式进行编码，并将编码后的向量作为替换词向量。

通过对基准词向量和替换词向量进行相似度计算，可以获取对应的相似度，当相似度达到对应的预设相似阈值时，则说明当前新的替换词在进行替换之后仍能满足相应的语义要求，所以将该新的替换词记为有效替换词。

例如，原局部高分词“新能源、汽车、修理、服务”，当前的一组局部替换高分词“节能、“汽车、修理、服务”,通过分别进行编码并获取对应的基准词向量和替换词向量之后，然后进行相似度计算，计算得到的相似度满足预设的相似阈值，则将当前新的替换词“节能”记为有效替换词。

遍历完成之后，对所有的有效替换词进行重组，将重组后的词作为重组高分词。若是由某一局部高分词获取到的替换词均未能满足语义替换要求，则将该局部高分词不予替换，例如当前局部高分词中的“服务”通过替换得到的新词在与其余的局部高分词组合后都未能通过语义关联检测，则将“服务”不进行替换。如上述例子中的当前局部高分词“新能源、汽车、修理、服务”，通过替换获取到的有效替换词为“节能”、“车辆”、“维修”，最后得到的重组高分词为“节能车辆维修服务”。

S840、对所有的重组高分词通过预设的编码方式进行编码，获取重组词向量。

S850、基于重组词向量，通过相似向量检索库进行召回，获取第三组召回结果。

在本申请实施例中，对所有的高分词通过替换之后得到对应的重组高分词之后，会将所有的重组高分词作为整体，并通过预设的编码方式进行编码以形成重组词向量。最后根据重组词向量，通过相似向量检索库进行召回，将获取到的召回结果记为第三组召回结果。所谓的第三组召回结果表示的是通过对部分产品词进行替换得到的同行召回信息。

由于根据当前用户输入的公司信息，除了获取到产品词外，还会获取到相应的公司业务信息，如人工标注信息和专利信息，而人工标注信息表示的是该公司手动标注的同行信息，专利信息中的IPC号作为专利检索的一种方式，可帮助找到相似的专利，对于拥有相似专利的公司和企业也会考虑纳入同行的范畴。

因此，在本申请实施例中，获取用户输入的公司名称之后，还包括如下步骤:

S910、基于人工标注信息，获取人工召回结果。

在本申请实施例中，对于人工标注的同行，直接从预设的企业库提取，并将提取到同行信息作为人工召回结果。

S920、基于专利的IPC号，通过IPC号的位数进行模糊匹配，获取专利召回结果。

对于专利的IPC号，由于IPC分类表分为八个大部，用A～H表示, 各个部对应不同行业，如A部表示人类生活必需（农、轻、医），B部表示作业、运输，H部表示电学。每一部被细分为若干大类，每个大类都包括一个或若干个小类，每个小类又被划分为组。最后，小组又形成自己的分级结构。每一层级的分类都会对应有代码表示，最后组合便是IPC号。

例如IPC号如H01F1/01，则表示的电学部；大类为基本电气元件；小类为磁体、电感、变压器、磁性材料的选择；大组为按所有磁性材料区分的磁体、磁性材料的选择；小组为无机材料的。由此可以看出通过IPC号可以知道对应的分类，方便进行专利检索，同时通过对IPC 号进行相应的相似匹配也能帮助找到对应的同行信息。

因此，在本申请实施例中，会通过IPC号的位数进行模糊匹配，这里的位数指的是对应的分类层级表示，而模糊匹配表示的根据选取的IPC位数进行字符串匹配，之所以要选取位数是因为首先要确保搜索匹配的对象是同属于一个部或者一个大类，也就是会固定部或者大类对应的层级表示，例如上述中的H01F1/01，若固定到大类，即H01是固定的，对后面的F1/01进行模糊匹配，以获取相似的专利IPC所对应的同行公司。

S930、将人工召回结果同专利召回结果进行合并，获取第四组召回结果。

在本申请实施例中，获取到人工召回结果和专利召回结果之后，会将两者就进行合并，以作为第四组召回结果。所谓的第四组召回结果表示的就是根据公司业务信息召回得到的同行召回信息。

由于考虑到用户在输入公司名称时可能会出现名称输入错误的情况，这种情况也就无法准确获知到当前用户想要查询的公司信息，进而进行同行召回，但通过对每个用户的输入查询痕迹进行记录，例如当某一个用户对于某一个公司的历史查询记录达到一定频次，并且与当前的输入公司名称相似度达到一定高度，可以一定程度推断出该用户想要查询的公司名称。

因此，在本申请实施例中，获取用户输入的公司名称之后，参见图4，还包括如下步骤：

S1010、基于查询公司名称，通过预设的搜索库进行检索判断是否输入名称有误。

S1020、若输入名称无误，将当前用户输入的公司名称记录在预设数据库中，并根据公司名称获取对应公司信息。

S1030、若输入名称有误，则判断预设数据库中是否存在当前用户的输入查询记录并且查询数据量达到预设阈值。

S1040、若否，输出提示信息，所述提示信息表示输入名称有误请重新输入。

S1050、若是，则根据当前用户的历史查询记录对输入的公司名称进行改写，并根据改写后的公司名称获取公司信息。

在本申请实施例中，获取到用户输入的查询公司名称之后，首先会判断输入的公司名称是否有误，也就是通过预设的搜索库进行检索判断，若根据输入的公司名称通过预设的搜索库进行检索，发现并未能检索到任何信息，说明当前输入的公司并不存在于预设的搜索库中，则会将当前输入的公司名称记为输入名称有误，相对地，若能够检索到当前输入的公司信息，则说明输入名称无误。

若当前输入的公司名称无误，则会根据输入的公司名称获取对应的公司信息，进而获取同行召回信息，与此同时，会将当前用户输入的公司名称记录下来，并以与当前用户关联的形式保存在预设的数据库中，以作为该用户的历史输入查询记录。

若当前输入的公司名称有误，由于在每一次用户输入查询后，都会将输入的查询痕迹记录下来，所以会根据历史输入查询记录信息来帮助推断用户实际想要查询的公司名称，但前提是存在当前用户的历史输入查询记录并且历史的输入查询记录达到一定数量。只有同时满足这两个条件才可以进行相应的推断。

所以会进一步判断预设数据库中是否存在当前用户的输入查询记录并且查询数据量达到预设查询阈值。若不满足条件，则会当作无法根据当前的输入公司名称召回到同行信息处理。所以会输出相应的提示信息，用以表示无法召回到同行信息，请用户检查是否输入名称有误。

若满足条件，也就是存在当前用户的历史输入查询记录并且历史的输入查询记录达到预设查询阈值，这时会根据当前用户的历史查询记录对输入的公司名称进行改写，并根据改写后的公司名称获取公司信息，进而进行同行召回。

在本申请实施例中，根据当前用户的历史查询记录对输入的公司名称进行改写，参见图5，具体包括如下步骤：

S1051、根据当前用户的历史查询记录，统计当前用户输入过的所有公司名称以及相应频次。

S1052、根据当前输入的公司名称，对历史输入的所有公司名称进行相似度匹配，获取相似度结果。

S1053、判断是否存在频次高于预设频次阈值并且相似度结果大于预设相似度阈值的历史输入公司名称。

S1054、若是，则对满足条件的所有历史输出公司名称按频次和相似度进行综合排序，选取排名最高的公司名称作为改写公司名称。

S1055、若否，则输出提示信息，所述提示信息表示输入名称有误请重新输入。

在本申请实施例中，根据当前用户的历史查询记录对输入的公司名称进行改写，首先会统计当前用户输入过的所有公司名称以及频次，然后会根据当前输入的公司名称，对历史输入的所有公司名称进行相似度匹配，以获取相似度结果。

由于要实现根据当前用户的历史查询记录，对用户当前的输入进行合理推断并进行名称改写还需要达到一定条件，也就是作为改写后的公司名称要与当前的输入公司名称有很高的相似度，并且在历史输入查询记录中出现的频次也需达到一定的数量。

因此，会判断是否存在频次高于预设频次阈值并且相似度结果大于预设相似度阈值的历史输入公司名称，若存在满足这两个条件的历史输入公司名称，则对满足条件的所有历史输出公司名称按频次和相似度进行综合排序，选取排名最高的公司名称作为改写公司名称。

若不存在同时满足这两个条件的历史输入公司名称，则仍会当作无法根据当前的输入公司名称召回到同行信息处理。同样地，会输出相应的提示信息，用以表示无法召回到同行信息，请用户检查是否输入名称有误。

另外，由于除了通过产品词字面召回和产品词语义召回两种方式进行同行召回外，还提供了业务召回以及对公司产品词进行词替换召回，同样也会获取到相应的召回结果。所以在本申请实施例中，会将各种结果都进行输出，用户可以根据自己的需求来进行相应的信息提取。

本申请实施例还提供了一种同行召回系统，参见图6，该系统包括：数据获取模块101、分词模块102、第一召回模块103、数据编码模块104、第二召回模块105、结果输出模块106。

其中，数据获取模块101，用于获取用户输入的公司名称，并根据公司名称获取公司信息。

分词模块102，用于对公司的产品词进行分词，并根据分词结果结合对应权重生成搜索项。

第一召回模块103，用于基于搜索项，通过预设的搜索库进行搜索匹配，获取第一组召回结果。

数据编码模块104，用于对公司的产品词通过预设的编码方式进行编码，获取词向量。

第二召回模块105，用于通过产品词对应的权重对词向量进行加权，以生成企业向量，然后根据企业向量，通过相似向量检索库进行召回，获取第二组召回结果。

结果输出模块106，用于输出第一组召回结果和第二组召回结果。

在本申请实施例中，数据获取模块101具体用于获取用户输入的公司名称，并根据公司名称获取公司对应的产品词、公司专利信息以及人工标注同行信息。

分词模块102具体用于对公司的产品词进行分词并过滤，并根据不同的选词方式获取不同分词结果，并根据分词结果结合对应权重生成相应的搜索项。

第一召回模块103具体用于基于搜索项，通过预设的搜索库进行搜索匹配，获取第一组召回结果。

数据编码模块104具体用于对公司的产品词通过预设的编码方式进行编码，以生成具有语义关联信息的词向量。

第二召回模块105具体用于通过产品词对应的权重对词向量进行加权，以生成企业向量，然后根据企业向量，通过相似向量检索库进行召回，获取第二组召回结果。

结果输出模块106具体用于输出由各种不同的召回策略生成的召回同行信息。

本申请实施例还提供一种计算机可读存储介质，存储有能够被处理器加载并执行上述任一种同行召回方法的计算机程序。

本具体实施方式的实施例均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种同行召回方法，其特征在于，包括：

输出第一组召回结果和第二组召回结果。

2.根据权利要求1所述的一种同行召回方法，其特征在于，所述搜索项包括第一搜索项和第二搜索项，所述对公司的产品词进行分词，并根据分词结果结合对应权重生成搜索项，包括：

3.根据权利要求2所述的一种同行召回方法，其特征在于，所述基于搜索项，通过预设的搜索库进行搜索匹配，获取第一组召回结果，包括：

4.根据权利要求1所述的一种同行召回方法，其特征在于，所述获取用户输入的公司名称，并根据公司名称获取公司信息之后，还包括：

对输入公司的所有产品词根据权重进行筛选，获取高分词；

5.根据权利要求4所述的一种同行召回方法，其特征在于，所述对每一组局部高分词，通过预设的替换方法进行词替换，并对替换后的词进行重组，获取重组高分词，包括：

6.根据权利要求1所述的一种同行召回方法，其特征在于，所述公司信息还包括业务信息，所述业务信息包括人工标注信息、专利信息，所述专利信息包含专利的IPC号，所述获取用户输入的公司名称之后，还包括:

基于人工标注信息，获取人工召回结果；

7.根据权利要求1所述的一种同行召回方法，其特征在于，获取用户输入的公司名称之后，还包括：

8.根据权利要求7所述的一种同行召回方法，其特征在于，所述根据当前用户的历史查询记录对输入的公司名称进行改写，包括：

9.一种同行召回系统，其特征在于，包括：

10.一种计算机可读存储介质，存储有能够被处理器加载并执行如权利要求1至8任一项所述的一种同行召回方法的计算机程序。