CN112597208A - 企业名称检索方法、企业名称检索装置及终端设备 - Google Patents

企业名称检索方法、企业名称检索装置及终端设备 Download PDF

Info

Publication number
CN112597208A
CN112597208A CN202011604087.5A CN202011604087A CN112597208A CN 112597208 A CN112597208 A CN 112597208A CN 202011604087 A CN202011604087 A CN 202011604087A CN 112597208 A CN112597208 A CN 112597208A
Authority
CN
China
Prior art keywords
name
sentence vector
enterprise
retrieval
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011604087.5A
Other languages
English (en)
Inventor
赵洋
朱继刚
包荣鑫
王瑗
梅金芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Valueonline Technology Co ltd
Original Assignee
Shenzhen Valueonline Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Valueonline Technology Co ltd filed Critical Shenzhen Valueonline Technology Co ltd
Priority to CN202011604087.5A priority Critical patent/CN112597208A/zh
Publication of CN112597208A publication Critical patent/CN112597208A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请适用于数据处理技术领域,提供了一种企业名称检索方法、企业名称检索装置及终端设备,方法包括:根据训练后的句向量生成模型获取第一检索语句的第一句向量;获取多个候选企业名称各自的第二句向量;根据所述第一句向量和所述第二句向量之间的距离,从所述多个候选企业名称中确定出多个召回企业名称;根据训练后的排序模型,从所述多个召回企业名称中确定出所述第一检索语句对应的目标企业名称。通过上述方法,能够有效提高企业名称检索的准确度,同时提高检索效率。

Description

企业名称检索方法、企业名称检索装置及终端设备
技术领域
本申请属于数据处理技术领域,尤其涉及一种企业名称检索方法、企业名称检索装置及终端设备。
背景技术
随着经济的快速增长,注册企业的数量呈逐年上升的趋势。许多企业的名称全称较长,对于用户而言,可能只记住了企业名称的简称、或其中几个词语。这种情况下,从大量的企业名称中很难查找到目标名称。
现有的企业名称检索方法中,通常是将检索语句划分为字或词,然后以字或词为单位进行检索。现有方法仅考虑了词之间或字之间的匹配度,但是并未考虑检索语句的语义信息,导致检索结果并不准确。
发明内容
本申请实施例提供了一种企业名称检索方法、企业名称检索装置及终端设备,可以提高企业名称检索的准确度。
第一方面,本申请实施例提供了一种企业名称检索方法,包括:
根据训练后的句向量生成模型获取第一检索语句的第一句向量;
获取多个候选企业名称各自的第二句向量;
根据所述第一句向量和所述第二句向量之间的距离,从所述多个候选企业名称中确定出多个召回企业名称;
根据训练后的排序模型,从所述多个召回企业名称中确定出所述第一检索语句对应的目标企业名称。
本申请实施例中,通过训练后的句向量生成模型获取第一检索语句的第一句向量,避免了将检索语句划分为字或词,而是将第一检索语句作为整体进行处理,能够保留第一检索语句的语义信息;然后通过计算第一句向量和第二句向量之间的距离,确定目标企业名称,即找到与第一检索语句语义相近的企业名称,有效提高了检索结果的准确性。另外,句向量生成模型和排序模型均为训练后的模型,利用训练后的模型进行数据处理,能够大大节约句向量的生成时间和排序时间,进而提高了检索的效率。
在第一方面的一种可能的实现方式中,所述根据所述第一句向量和所述第二句向量之间的距离,从所述多个候选企业名称中确定出多个召回企业名称,包括:
计算所述第一句向量与每个所述第二句向量之间的欧式距离;
将计算出的所述欧式距离按照从小到大的顺序排序,获得距离队列;
将所述距离队列中前M个所述欧式距离各自对应的所述候选企业名称确定为所述召回企业名称,其中,所述M为正整数。
在第一方面的一种可能的实现方式中,所述根据训练后的排序模型,从所述多个召回企业名称中确定出所述第一检索语句对应的目标企业名称,包括:
将所述第一句向量和所述多个召回企业名称各自的所述第二句向量输入到所述训练后的排序模型中,输出所述多个召回企业名称各自的匹配概率;
将所述匹配概率按照从大到小的顺序排序,获得概率队列;
将所述概率队列中前N个所述匹配概率各自对应的所述召回企业名称确定为所述目标企业名称,其中,所述N为正整数,且N小于或等于所述召回企业名称的数量。
在第一方面的一种可能的实现方式中,所述方法还包括:
获取多组第一训练数据,其中,每组所述第一训练数据中包括第二检索语句、第一正例名称、第一反例名称和第二反例名称,所述第一正例名称用于表示与所述第二检索语句相匹配的企业名称,所述第一反例名称和所述第二反例名称用于表示与所述第二检索语句不匹配的企业名称;
分别将每组所述第一训练数据输入到所述句向量生成模型中,输出每组所述第一训练数据的向量数据组,其中,每组所述第一训练数据的向量数据组中包括所述第二检索语句的第三句向量、所述第一正例名称的第四句向量、所述第一反例名称的第五句向量和所述第二反例名称的第六句向量;
根据所述多组第一训练数据各自的所述向量数据组计算第一误差值;
利用所述第一误差值更新所述句向量生成模型的模型参数,获得所述训练后的句向量生成模型。
在第一方面的一种可能的实现方式中,所述根据所述多组第一训练数据各自的所述向量数据组计算第一误差值,包括:
通过预设公式计算所述第一误差值;
所述预设公式为:
Figure BDA0002870020880000031
其中,LOSS为所述第一误差值,Si为第i组所述训练数据中的所述第二检索语句的所述第三句向量,Pi为第i组所述训练数据中的所述第一正例名称的所述第四句向量,
Figure BDA0002870020880000032
为第i组所述训练数据中的所述第一反例名称的所述第五句向量,
Figure BDA0002870020880000033
为第i组所述训练数据中的所述第二反例名称的所述第六句向量,t1和t2为预设阈值,Q为所述训练数据的组数。
在第一方面的一种可能的实现方式中,所述方法还包括:
获取第二训练数据,其中,所述第二训练数据中包括第三检索语句、第二正例名称、所述第二正例名称的属性信息、第三反例名称和所述第三反例名称的属性信息,所述第二正例名称用于表示与所述第三检索语句相匹配的企业名称,所述第三反例名称用于表示与所述第三检索语句不匹配的企业名称;
将所述第三检索语句、所述第二正例名称和所述第二正例名称的属性信息拼接为第一拼接语句;
将所述第三检索语句、所述第三反例名称和所述第三反例名称的属性信息拼接为第二拼接语句;
将所述第一拼接语句和所述第二拼接语句分别输入到所述排序模型中,输出所述第二正例名称对应的第一概率值和所述第三反例名称对应的第二概率值;
根据所述第一概率值和第一预设概率计算第二误差值;
根据所述第二概率值和第二预设概率计算第三误差值;
分别根据所述第二误差值和所述第三误差值更新所述排序模型的模型参数,获得所述训练后的排序模型。
在第一方面的一种可能的实现方式中,所述句向量生成模型为ALBERT模型。
第二方面,本申请实施例提供了一种企业名称检索装置,包括:
向量生成单元,用于根据训练后的句向量生成模型获取第一检索语句的第一句向量;
向量获取单元,用于获取多个候选企业名称各自的第二句向量;
距离计算单元,用于根据所述第一句向量和所述第二句向量之间的距离,从所述多个候选企业名称中确定出多个召回企业名称;
名称检索单元,用于根据训练后的排序模型,从所述多个召回企业名称中确定出所述第一检索语句对应的目标企业名称。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的企业名称检索方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的企业名称检索方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中任一项所述的企业名称检索方法。
可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的企业名称检索方法的流程示意图;
图2是本申请实施例提供的句向量生成模型的训练方法的流程示意图;
图3是本申请又一实施例提供的句向量生成模型的训练方法的流程示意图;
图4是本申请实施例提供的排序模型的训练方法的流程示意图;
图5是本申请实施例提供的排序模型的结构示意图;
图6是本申请实施例提供的企业名称检索装置的结构框图;
图7是本申请实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。
参见图1,是本申请实施例提供的企业名称检索方法的流程示意图,作为示例而非限定,所述方法可以包括以下步骤:
S101,根据训练后的句向量生成模型获取第一检索语句的第一句向量。
现有技术中,通常是将检索语句分割成词语,然后利用tf-idf算法计算每个词语的词向量,之后根据各个词向量计算输入语句的句向量。现有的方法更侧重于检索语句中每个词语各自的含义,而忽略了检索语句中词语之间的语义关系,导致检索结果的准确度较低。
为了解决现有技术中的问题,本申请实施例中利用训练后的句向量生成模型获取检索语句的句向量。避免了将语句划分为字或词,而是将检索语句作为整体进行处理,能够保留检索语句的语义信息。另外,利用训练后的句向量生成模型,能够有效提高句向量的生成速度,进而提高了检索效率。
S102,获取多个候选企业名称各自的第二句向量。
实际应用中,可以预先建立数据库,在数据库中存储多个企业名称,数据库中的企业名称均为候选企业名称。通常企业名称是不会轻易变更的,因此,可以预先将数据库中的每个企业名称生成句向量,并存储在数据库中。当需要使用时,从数据库中调用即可,无需每次检索时重新生成句向量,有效提高了检索效率。
需要说明的是,数据库中每个候选企业名称的句向量的生成方法,可以与S101中的方法相同,在此不再赘述。
S103,根据第一句向量和第二句向量之间的距离,从多个候选企业名称中确定出多个召回企业名称。
本申请实施例中的距离用于衡量两个句向量之间的相似程度。距离值越大,说明两个句向量之间的相似程度越低;距离值越小,说明两个句向量之间的相似程度越高。用于衡量两个向量之间距离的方式有多种,如马氏距离、切比雪夫距离和曼哈顿距离等等。
在本申请一个实施例中,可以采用欧式距离。相应的,确定召回企业名称的一种实现方式包括:
计算第一句向量与每个第二句向量之间的欧式距离;将计算出的欧式距离按照从小到大的顺序排序,获得距离队列;将距离队列中前M个欧式距离各自对应的候选企业名称确定为召回企业名称。
其中,M为正整数。
欧式距离的计算公式如下所示:
Figure BDA0002870020880000071
其中,d(x,y)表示向量x与向量y之间的距离,xj为向量x中第j个元素,yj为向量y中第j个元素,n为向量维度。
将欧式距离按照从小到大排序,实质上是按照相似度从大到小到顺序排序。那么距离队列中前M个欧式距离个字对应的候选企业名称即为与第一检索语句相似度较高的企业名称。
在步骤S103中,实质是要衡量两个向量之间的相似程度,因此,除了上述的利用距离衡量相似程度之外,可选的,还可以计算两个向量之间的相似系数,如计算两个向量之间的余弦相似系数、杰卡德系数和皮尔森系数等。相应的,确定召回企业名称的另一种实现方式包括:
计算第一句向量与每个第二句向量之间的相似系数;将计算出的相似系数按照从大到小的顺序排序,获得系数队列;将系数队列中前M个相似系数各自对应的候选企业名称确定为召回企业名称。
S104,根据训练后的排序模型,从多个召回企业名称中确定出第一检索语句对应的目标企业名称。
通过训练后的排序模型从多个召回企业名称中确定出目标企业名称,即找到与第一检索语句语义相近的企业名称,有效提高了检索结果的准确性。另外,利用训练后的模型进行数据处理,能够大大节约排序时间,进而提高了检索的效率。
在一个实施例中,确定目标企业名称的一种实现方式包括:
将第一句向量和多个召回企业名称各自的第二句向量输入到训练后的排序模型中,输出多个召回企业名称各自的匹配概率;将匹配概率按照从大到小的顺序排序,获得概率队列;将概率队列中前N个匹配概率各自对应的召回企业名称确定为目标企业名称。
其中,N为正整数,且N小于或等于召回企业名称的数量。
匹配概率越高,说明匹配程度越高。可以将匹配概率较高的N个召回企业名称显示给用户,以供用户选择。
上述排序模型的输出为匹配概率。可选的,在另一个实施例中,可以将第一句向量和多个召回企业名称各自的第二句向量输入到训练后的排序模型中,输出目标企业名称。
这样,相当于将匹配概率排序的过程包含在了排序模型中,这种方式中排序模型的自动化程度更高,但是较前一种方式灵活性较差。具体方式可根据实际需要选择。
示例性的,假设数据库中有1000个候选企业名称,并存储有每个候选企业名称的第二句向量。当用户输入第一检索语句时,处理器利用本申请实施例中的企业名称检索方法,先根据训练后的句向量生成模型获取第一检索语句的第一句向量,并获取1000个第二句向量;然后分别计算第一句向量和每个第二句向量之间的欧式距离,得到1000个欧式距离;之后将1000个欧式距离按照从小到大的顺序排序,获得距离序列;将距离序列中前100个欧式距离各自对应的候选企业名称确定为召回企业名称;将召回企业名称输入到训练后到排序模型中,输出每个召回企业名称的匹配概率;将100个匹配概率按照从大到小到顺序排序,得到概率序列;将概率序列中前10个匹配概率各自对应的召回企业名称确定为目标企业名称;最后将这10个目标企业名称通过显示装置显示给用户。
根据上述方法,需要用到训练后的句向量生成模型和排序模型。那么就需要对这两个模型预先训练。下面分别介绍两个模型的训练方法。
在一个实施例中,参见图2,是本申请实施例提供的句向量生成模型的训练方法的流程示意图,如图2所示,句向量生成模型的训练方法可以包括:
S201,获取多组第一训练数据。
其中,每组第一训练数据中包括第二检索语句、第一正例名称、第一反例名称和第二反例名称。
第一正例名称用于表示与第二检索语句相匹配的企业名称,第一反例名称和所述第二反例名称用于表示与第二检索语句不匹配的企业名称。
在实际应用中,可以人工为第二检索语句分配第一正例名称、第一反例名称和所述第二反例名称。其中,第一反例名称和第二反例名称可以是数据库中除第一正例名称外的任意两个企业名称。
S202,分别将每组第一训练数据输入到句向量生成模型中,输出每组第一训练数据的向量数据组。
其中,每组第一训练数据的向量数据组中包括第二检索语句的第三句向量、第一正例名称的第四句向量、第一反例名称的第五句向量和第二反例名称的第六句向量。
由于现有的word2vec模型和glove模型等无法进行微调,而针对于上下文语境信息不丰富的公司名称,需要更精准的予以层面理解。因此,可选的,句向量生成模型可以为ALBERT模型。该模型具有训练时间短、占用内存小、预测速度快等优点。
参见图3,是本申请又一实施例提供的句向量生成模型的训练方法的流程示意图。
ALBERT模型有三种输入数据,包括input_ids、input_masks和segment_ids。其中,input_ids表示输入语句对应的索引序列(可从预设字典中获得);input_masks表示输入语句的遮罩(输入语句中预设长度内遮罩为1,超过预设长度的部分遮罩为0);segment_ids表示多输入对应字符的区分(第一个输入遮罩为0,第二个句子遮罩为1)。
如图3所示,分别将第二检索语句、第一正例名称、第一反例名称和第二反例名称分别转换为三种输入数据;然后再将其各自的三种输入数据输入到ALBERT模型中,输出其各自的句向量。
S203,根据多组第一训练数据各自的向量数据组计算第一误差值。
可选的,第一误差值的计算方法包括:
通过预设公式计算第一误差值;
预设公式为:
Figure BDA0002870020880000101
其中,LOSS为第一误差值,Si为第i组训练数据中的第二检索语句的第三句向量,Pi为第i组训练数据中的第一正例名称的所述第四句向量,
Figure BDA0002870020880000102
为第i组训练数据中的第一反例名称的第五句向量,
Figure BDA0002870020880000103
为第i组训练数据中的第二反例名称的第六句向量,t1和t2为预设阈值,Q为训练数据的组数。
因为检索语句和正例名称之间的距离不可能无限接近于0,同时检索语句和反例名称之间的距离、以及反例名称与反例名称之间的距离不能无限接近于1,所以设定阈值t1和t2。学习目标为d(检索,反例)和d(检索,正例)之间的距离之差大于t1,当距离之差大于t1时说明已经学习足够了。同样,根据阈值t2,对于两个反例名称之间的距离进行同样操作获得误差。
S204,利用第一误差值更新句向量生成模型的模型参数,获得训练后的句向量生成模型。
可以使用Adam优化器,通过反向传播更新参数。
另外,上述步骤中的多组第一训练数据可以看作是一个训练集合。实际应用中,可以选择多个训练集合,然后分别利用每个训练集合对模型进行训练,不断缩小误差,最终训练至收敛。示例性的,可以将1000组第一训练数据划分为10个训练集合,每个训练集合中有100组第一训练数据。先用第1个训练集合中的100组第一训练数据对模型进行训练,然后用第2个训练集合中的100组第一训练数据对模型进行训练,依次类推,直到模型收敛(即第一误差值小于预设差值);将此时的句向量生成模型确定为训练后的句向量生成模型。
训练句向量生成模型的目的是,使检索语句和正例名称在空间中的距离较小,而使检索语句与反例名称在空间中的距离较大。通过正例名称可以“告诉”模型什么名称是正确的,通过反例名称可以“告诉”模型什么名称是错误的。通过正例和反例训练后的模型,可以使输出结果最大程度地“接近”正例、最大程度的“远离”反例。相比于单个反例,双反例能学习到反例之间的差异性,在具有更高准确性的同时还能加速网络收敛。通过上述方法,能够提高句向量生成模型的精度;另外,由于一次训练过程中同时用到了1个正例和2个反例,即同时训练了3个数据,使得训练效率大大提高,加快了模型的收敛速度。
在一个实施例中,参见图4,是本申请实施例提供的排序模型的训练方法的流程示意图。如图4所示,排序模型的训练方法可以包括:
S401,获取第二训练数据。
其中,第二训练数据中包括第三检索语句、第二正例名称、第二正例名称的属性信息、第三反例名称和第三反例名称的属性信息,第二正例名称用于表示与第三检索语句相匹配的企业名称,第三反例名称用于表示与第三检索语句不匹配的企业名称。
当然,也可以如图2实施例中所述,采用1个正例和2个反例的训练数据。
词向量生成阶段处理数据量较大,对处理效率要求较高。而排序阶段仅处理M条召回企业名称,数据量较小,因此可以引入更多特征进行精准排序。此任务可以类比为自然语言处理中的语义相似度匹配任务,除了企业名称本身外,还可以引入属性信息(如名称简称、企业注册地、股票代码、企业法人、董事长等)辅助排序过程。
S402,将第三检索语句、第二正例名称和第二正例名称的属性信息拼接为第一拼接语句。
可选的,可以使用BERT模型中特有的标记[CLS]和[SEP]进行拼接。例如:第三检索语句为xxyy,第二正例名称为xxyy公司,第二正例名称的属性信息为简称为xy、注册地为北京、股票代码为000022、企业法人为张三,拼接后的第一拼接语句为[CLS]xxyy[SEP]xxyy公司的简称为xy、注册地为北京、股票代码为000022、企业法人为张三。
S403,将第三检索语句、第三反例名称和第三反例名称的属性信息拼接为第二拼接语句。
第二拼接语句的方法与S402中相同,在此不再赘述。
S404,将第一拼接语句和第二拼接语句分别输入到排序模型中,输出第二正例名称对应的第一概率值和第三反例名称对应的第二概率值。
可选的,排序模型也可以选用ALBERT模型。参见图5,是本申请实施例提供的排序模型的结构示意图。如图5所示,排序模型中包括ALBERT模型、第一全连接层、第二全连接层和softmax层。
这里的ALBERT模型与词向量生成模型的参数不同,但作用也是用于生成输入语句的词向量。
全连接层的层数越多,语义识别的越精准,但是计算量也越大。优选的,本申请实施例中选用两层全连接层。示例性的,第一全连接层可以包括128个神经元,第二全连接层可以包括2个神经元。通过上述的两层全连接层的网络结构,在保证识别精度的同时,能够保证计算效率。
softmax层用于计算概率值,并对概率值进行归一化处理。例如,将概率值归一化为两个数值,如0或1;也可以归一化到一个预设数值区间,如[0,1]。
S405,根据第一概率值和第一预设概率计算第二误差值。
S406,根据第二概率值和第二预设概率计算第三误差值。
可选的,可以采用交叉熵函数作为误差函数。
S407,分别根据第二误差值和第三误差值更新排序模型的模型参数,获得训练后的排序模型。
可以使用Adam优化器,通过反向传播更新参数。
上述步骤中描述的是一次训练过程,实际应用中,可以采用多组第二训练数据对排序模型进行训练,直至排序模型收敛。
通过上述方法,利用了正例名称和反例名称的属性信息训练排序模型,能够有效提高排序模型的精度;另外,由于一次训练过程中同时用到了正例和反例,即同时训练了多个数据,使得训练效率大大提高,加快了模型的收敛速度。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的企业名称检索方法,图6是本申请实施例提供的企业名称检索装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图6,该装置包括:
向量生成单元61,用于根据训练后的句向量生成模型获取第一检索语句的第一句向量。
向量获取单元62,用于获取多个候选企业名称各自的第二句向量。
距离计算单元63,用于根据所述第一句向量和所述第二句向量之间的距离,从所述多个候选企业名称中确定出多个召回企业名称。
名称检索单元64,用于根据训练后的排序模型,从所述多个召回企业名称中确定出所述第一检索语句对应的目标企业名称。
可选的,距离计算单元63还用于:
计算所述第一句向量与每个所述第二句向量之间的欧式距离;将计算出的所述欧式距离按照从小到大的顺序排序,获得距离队列;将所述距离队列中前M个所述欧式距离各自对应的所述候选企业名称确定为所述召回企业名称,其中,所述M为正整数。
可选的,名称检索单元64还用于:
将所述第一句向量和所述多个召回企业名称各自的所述第二句向量输入到所述训练后的排序模型中,输出所述多个召回企业名称各自的匹配概率;将所述匹配概率按照从大到小的顺序排序,获得概率队列;将所述概率队列中前N个所述匹配概率各自对应的所述召回企业名称确定为所述目标企业名称,其中,所述N为正整数,且N小于或等于所述召回企业名称的数量。
可选的,装置6包括:
句向量生成模型训练单元,用于获取多组第一训练数据,其中,每组所述第一训练数据中包括第二检索语句、第一正例名称、第一反例名称和第二反例名称,所述第一正例名称用于表示与所述第二检索语句相匹配的企业名称,所述第一反例名称和所述第二反例名称用于表示与所述第二检索语句不匹配的企业名称;分别将每组所述第一训练数据输入到所述句向量生成模型中,输出每组所述第一训练数据的向量数据组,其中,每组所述第一训练数据的向量数据组中包括所述第二检索语句的第三句向量、所述第一正例名称的第四句向量、所述第一反例名称的第五句向量和所述第二反例名称的第六句向量;根据所述多组第一训练数据各自的所述向量数据组计算第一误差值;利用所述第一误差值更新所述句向量生成模型的模型参数,获得所述训练后的句向量生成模型。
可选的,句向量生成模型训练单元还用于:
通过预设公式计算所述第一误差值;
所述预设公式为:
Figure BDA0002870020880000151
其中,LOSS为所述第一误差值,Si为第i组所述训练数据中的所述第二检索语句的所述第三句向量,Pi为第i组所述训练数据中的所述第一正例名称的所述第四句向量,
Figure BDA0002870020880000152
为第i组所述训练数据中的所述第一反例名称的所述第五句向量,
Figure BDA0002870020880000153
为第i组所述训练数据中的所述第二反例名称的所述第六句向量,t1和t2为预设阈值,Q为所述训练数据的组数。
可选的,所述句向量生成模型为ALBERT模型。
可选的,装置6包括:
排序模型训练单元,用于获取第二训练数据,其中,所述第二训练数据中包括第三检索语句、第二正例名称、所述第二正例名称的属性信息、第三反例名称和所述第三反例名称的属性信息,所述第二正例名称用于表示与所述第三检索语句相匹配的企业名称,所述第三反例名称用于表示与所述第三检索语句不匹配的企业名称;将所述第三检索语句、所述第二正例名称和所述第二正例名称的属性信息拼接为第一拼接语句;将所述第三检索语句、所述第三反例名称和所述第三反例名称的属性信息拼接为第二拼接语句;将所述第一拼接语句和所述第二拼接语句分别输入到所述排序模型中,输出所述第二正例名称对应的第一概率值和所述第三反例名称对应的第二概率值;根据所述第一概率值和第一预设概率计算第二误差值;根据所述第二概率值和第二预设概率计算第三误差值;分别根据所述第二误差值和所述第三误差值更新所述排序模型的模型参数,获得所述训练后的排序模型。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
另外,图6所示的企业名称检索装置可以是内置于现有的终端设备内的软件单元、硬件单元、或软硬结合的单元,也可以作为独立的挂件集成到所述终端设备中,还可以作为独立的终端设备存在。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图7是本申请实施例提供的终端设备的结构示意图。如图7所示,该实施例的终端设备7包括:至少一个处理器70(图7中仅示出一个)处理器、存储器71以及存储在所述存储器71中并可在所述至少一个处理器70上运行的计算机程序72,所述处理器70执行所述计算机程序72时实现上述任意各个企业名称检索方法实施例中的步骤。
所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图7仅仅是终端设备7的举例,并不构成对终端设备7的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),该处理器70还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器71在一些实施例中可以是所述终端设备7的内部存储单元,例如终端设备7的硬盘或内存。所述存储器71在另一些实施例中也可以是所述终端设备7的外部存储设备,例如所述终端设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器71还可以既包括所述终端设备7的内部存储单元也包括外部存储设备。所述存储器71用于存储操作系统、应用程序、引导装载程序(Boot Loader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种企业名称检索方法,其特征在于,包括:
根据训练后的句向量生成模型获取第一检索语句的第一句向量;
获取多个候选企业名称各自的第二句向量;
根据所述第一句向量和所述第二句向量之间的距离,从所述多个候选企业名称中确定出多个召回企业名称;
根据训练后的排序模型,从所述多个召回企业名称中确定出所述第一检索语句对应的目标企业名称。
2.如权利要求1所述的企业名称检索方法,其特征在于,所述根据所述第一句向量和所述第二句向量之间的距离,从所述多个候选企业名称中确定出多个召回企业名称,包括:
计算所述第一句向量与每个所述第二句向量之间的欧式距离;
将计算出的所述欧式距离按照从小到大的顺序排序,获得距离队列;
将所述距离队列中前M个所述欧式距离各自对应的所述候选企业名称确定为所述召回企业名称,其中,所述M为正整数。
3.如权利要求1所述的企业名称检索方法,其特征在于,所述根据训练后的排序模型,从所述多个召回企业名称中确定出所述第一检索语句对应的目标企业名称,包括:
将所述第一句向量和所述多个召回企业名称各自的所述第二句向量输入到所述训练后的排序模型中,输出所述多个召回企业名称各自的匹配概率;
将所述匹配概率按照从大到小的顺序排序,获得概率队列;
将所述概率队列中前N个所述匹配概率各自对应的所述召回企业名称确定为所述目标企业名称,其中,所述N为正整数,且N小于或等于所述召回企业名称的数量。
4.如权利要求1所述的企业名称检索方法,其特征在于,所述方法还包括:
获取多组第一训练数据,其中,每组所述第一训练数据中包括第二检索语句、第一正例名称、第一反例名称和第二反例名称,所述第一正例名称用于表示与所述第二检索语句相匹配的企业名称,所述第一反例名称和所述第二反例名称用于表示与所述第二检索语句不匹配的企业名称;
分别将每组所述第一训练数据输入到所述句向量生成模型中,输出每组所述第一训练数据的向量数据组,其中,每组所述第一训练数据的向量数据组中包括所述第二检索语句的第三句向量、所述第一正例名称的第四句向量、所述第一反例名称的第五句向量和所述第二反例名称的第六句向量;
根据所述多组第一训练数据各自的所述向量数据组计算第一误差值;
利用所述第一误差值更新所述句向量生成模型的模型参数,获得所述训练后的句向量生成模型。
5.如权利要求4所述的企业名称检索方法,其特征在于,所述根据所述多组第一训练数据各自的所述向量数据组计算第一误差值,包括:
通过预设公式计算所述第一误差值;
所述预设公式为:
Figure FDA0002870020870000021
其中,LOSS为所述第一误差值,Si为第i组所述训练数据中的所述第二检索语句的所述第三句向量,Pi为第i组所述训练数据中的所述第一正例名称的所述第四句向量,
Figure FDA0002870020870000022
为第i组所述训练数据中的所述第一反例名称的所述第五句向量,
Figure FDA0002870020870000023
为第i组所述训练数据中的所述第二反例名称的所述第六句向量,t1和t2为预设阈值,Q为所述训练数据的组数。
6.如权利要求1所述的企业名称检索方法,其特征在于,所述方法还包括:
获取第二训练数据,其中,所述第二训练数据中包括第三检索语句、第二正例名称、所述第二正例名称的属性信息、第三反例名称和所述第三反例名称的属性信息,所述第二正例名称用于表示与所述第三检索语句相匹配的企业名称,所述第三反例名称用于表示与所述第三检索语句不匹配的企业名称;
将所述第三检索语句、所述第二正例名称和所述第二正例名称的属性信息拼接为第一拼接语句;
将所述第三检索语句、所述第三反例名称和所述第三反例名称的属性信息拼接为第二拼接语句;
将所述第一拼接语句和所述第二拼接语句分别输入到所述排序模型中,输出所述第二正例名称对应的第一概率值和所述第三反例名称对应的第二概率值;
根据所述第一概率值和第一预设概率计算第二误差值;
根据所述第二概率值和第二预设概率计算第三误差值;
分别根据所述第二误差值和所述第三误差值更新所述排序模型的模型参数,获得所述训练后的排序模型。
7.如权利要求1至6任一项所述的企业名称检索方法,其特征在于,所述句向量生成模型为ALBERT模型。
8.一种企业名称检索装置,其特征在于,包括:
向量生成单元,用于根据训练后的句向量生成模型获取第一检索语句的第一句向量;
向量获取单元,用于获取多个候选企业名称各自的第二句向量;
距离计算单元,用于根据所述第一句向量和所述第二句向量之间的距离,从所述多个候选企业名称中确定出多个召回企业名称;
名称检索单元,用于根据训练后的排序模型,从所述多个召回企业名称中确定出所述第一检索语句对应的目标企业名称。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202011604087.5A 2020-12-29 2020-12-29 企业名称检索方法、企业名称检索装置及终端设备 Pending CN112597208A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011604087.5A CN112597208A (zh) 2020-12-29 2020-12-29 企业名称检索方法、企业名称检索装置及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011604087.5A CN112597208A (zh) 2020-12-29 2020-12-29 企业名称检索方法、企业名称检索装置及终端设备

Publications (1)

Publication Number Publication Date
CN112597208A true CN112597208A (zh) 2021-04-02

Family

ID=75203963

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011604087.5A Pending CN112597208A (zh) 2020-12-29 2020-12-29 企业名称检索方法、企业名称检索装置及终端设备

Country Status (1)

Country Link
CN (1) CN112597208A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676319A (zh) * 2022-03-01 2022-06-28 广州云趣信息科技有限公司 获取商家名称的方法、装置及可读存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615767A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 搜索排序模型的训练方法、搜索处理方法及装置
CN107704563A (zh) * 2017-09-29 2018-02-16 广州多益网络股份有限公司 一种问句推荐方法及系统
CN108647233A (zh) * 2018-04-02 2018-10-12 北京大学深圳研究生院 一种用于问答系统的答案排序方法
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110969006A (zh) * 2019-12-02 2020-04-07 支付宝(杭州)信息技术有限公司 一种文本排序模型的训练方法和系统
CN111046147A (zh) * 2018-10-11 2020-04-21 马上消费金融股份有限公司 一种问答方法、装置及终端设备
CN111191465A (zh) * 2018-10-25 2020-05-22 中国移动通信有限公司研究院 一种问答匹配方法、装置、设备及存储介质
CN111639194A (zh) * 2020-05-29 2020-09-08 天健厚德网络科技(大连)有限公司 基于句向量的知识图谱查询方法及系统
CN111767375A (zh) * 2020-05-13 2020-10-13 平安科技(深圳)有限公司 语义召回方法、装置、计算机设备及存储介质
CN111782950A (zh) * 2020-06-30 2020-10-16 北京三快在线科技有限公司 样本数据集获取方法、装置、设备及存储介质
CN111858859A (zh) * 2019-04-01 2020-10-30 北京百度网讯科技有限公司 自动问答处理方法、装置、计算机设备及存储介质
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615767A (zh) * 2015-02-15 2015-05-13 百度在线网络技术(北京)有限公司 搜索排序模型的训练方法、搜索处理方法及装置
CN107704563A (zh) * 2017-09-29 2018-02-16 广州多益网络股份有限公司 一种问句推荐方法及系统
CN108647233A (zh) * 2018-04-02 2018-10-12 北京大学深圳研究生院 一种用于问答系统的答案排序方法
CN111046147A (zh) * 2018-10-11 2020-04-21 马上消费金融股份有限公司 一种问答方法、装置及终端设备
CN111191465A (zh) * 2018-10-25 2020-05-22 中国移动通信有限公司研究院 一种问答匹配方法、装置、设备及存储介质
CN111858859A (zh) * 2019-04-01 2020-10-30 北京百度网讯科技有限公司 自动问答处理方法、装置、计算机设备及存储介质
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110969006A (zh) * 2019-12-02 2020-04-07 支付宝(杭州)信息技术有限公司 一种文本排序模型的训练方法和系统
CN111767375A (zh) * 2020-05-13 2020-10-13 平安科技(深圳)有限公司 语义召回方法、装置、计算机设备及存储介质
CN111639194A (zh) * 2020-05-29 2020-09-08 天健厚德网络科技(大连)有限公司 基于句向量的知识图谱查询方法及系统
CN111782950A (zh) * 2020-06-30 2020-10-16 北京三快在线科技有限公司 样本数据集获取方法、装置、设备及存储介质
CN111950269A (zh) * 2020-08-21 2020-11-17 清华大学 文本语句处理方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114676319A (zh) * 2022-03-01 2022-06-28 广州云趣信息科技有限公司 获取商家名称的方法、装置及可读存储介质
CN114676319B (zh) * 2022-03-01 2023-11-24 广州云趣信息科技有限公司 获取商家名称的方法、装置及可读存储介质

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN111046667B (zh) 一种语句识别方法、语句识别装置及智能设备
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN111078837A (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN112214576B (zh) 舆情分析方法、装置、终端设备及计算机可读存储介质
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN114818729A (zh) 一种训练语义识别模型、查找语句的方法、装置及介质
CN113934848B (zh) 一种数据分类方法、装置和电子设备
CN113590811A (zh) 文本摘要生成方法、装置、电子设备及存储介质
CN117194616A (zh) 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质
CN117520503A (zh) 基于llm模型的金融客服对话生成方法、装置、设备及介质
CN112597208A (zh) 企业名称检索方法、企业名称检索装置及终端设备
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN112541357B (zh) 实体识别方法、装置及智能设备
CN111382246B (zh) 文本的匹配方法、匹配装置、终端及计算机可读存储介质
CN111382265B (zh) 搜索方法、装置、设备和介质
CN113688633A (zh) 一种提纲确定方法及装置
CN112579774A (zh) 模型训练方法、模型训练装置及终端设备
CN112347320A (zh) 数据表字段的关联字段推荐方法及装置
CN111967248A (zh) 拼音识别方法、装置、终端设备及计算机可读存储介质
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
CN114706927B (zh) 基于人工智能的数据批量标注方法及相关设备
CN115062783B (zh) 实体对齐方法及相关装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination