CN111160007B

CN111160007B - 基于bert语言模型的搜索方法、装置、计算机设备及存储介质

Info

Publication number: CN111160007B
Application number: CN201911285760.0A
Authority: CN
Inventors: 朱俊祺
Original assignee: Ping An Property and Casualty Insurance Company of China Ltd
Current assignee: Ping An Property and Casualty Insurance Company of China Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2023-04-07
Anticipated expiration: 2039-12-13
Also published as: CN111160007A

Abstract

本申请实施例公开了一种基于BERT语言模型的搜索方法、装置、设备及存储介质，属于大数据处理技术领域，该方法包括:获取原始搜索字段；对获取的原始搜索字段进行字段分析，基于字段分析结果生成搜索字段集；将搜索字段集作为查询条件进行搜索，获得预选集；基于预选集中元素的资源链接获取标题集；将标题集中的元素和搜索字段集中的元素两两组合生成文本对集合，并将文本对集合作为模型输入集，输入BERT语言模型进行处理，获得搜索结果集；基于所述搜索结果集中每一个元素的链接获取所述搜索结果集中每一个元素对应的内容，并发送获得的内容到用户界面进行展示。本申请有助于提高用户的搜索效率和准确性，给用户提供更加良好的搜索结果。

Description

基于BERT语言模型的搜索方法、装置、计算机设备及存储介质

技术领域

本申请涉及大数据处理技术领域，尤其涉及一种基于BERT语言模型的搜索方法、装置、计算机设备及存储介质。

背景技术

文章内容搜索是大多数应用中一个重要的功能，当前字节跳动、百度、腾讯等各大互联网企业都有多款爆款互联网应用，里面一个重要的功能就是搜索推荐。该功能会分析理解用户的搜索关键词内容，从自有数据库中挑出用户最可能点击查看的文章内容展示给用户。现有搜索推荐方法框架主要包含召回流程和排序流程：召回流程的主要工作是从拥有上千万数据的内容库中挑出一定数量的相关内容，给到后续排序流程进行排序；排序流程包含精排和重排序，重点是针对召回来的内容进行一个排序，使得最终内容排序结果中，用户最关注、最可能点击的内容排列在靠前位置。

目前的搜索方法主要使用神经网络训练作为推荐方式，需要大量的标注数据进行训练，这会耗费大量的人力物力来构造数据；而且网络文章的不断更新，使用传统的语义相似性模型难以覆盖到大量新建的文章。由此可知，现有技术进行搜索时，具有消耗资源过多和搜索结果不够准确的问题。

发明内容

本申请实施例的目的在于提出一种基于BERT语言模型的搜索方法、装置、计算机设备及存储介质，以解决现有技术中用户进行搜索时网络资源消耗过多和搜索结果不够准确的问题。

为了解决上述技术问题，本申请实施例提供一种基于BERT语言模型的搜索方法，采用了如下所述的技术方案：

一种基于BERT语言模型的搜索方法，包括：

获取原始搜索字段；

对获取的所述原始搜索字段进行字段分析，基于字段分析结果生成搜索字段集，其中所述字段分析包括原始搜索字段分类、同义词扩写和句法分析；

将所述搜索字段集作为查询条件进行搜索，基于搜索结果获得预选集；

基于所述预选集中元素的资源链接获取资源标题，得到标题集；

将所述标题集中的元素和所述搜索字段集中的元素两两组合生成文本对集合，并将所述文本对集合作为模型输入集，输入BERT语言模型进行处理，获得搜索结果集；

基于所述搜索结果集中每一个元素的链接获取所述搜索结果集中每一个元素对应的内容，并发送获得的内容到用户界面进行展示。

进一步的，所述基于BERT语言模型的搜索方法，所述原始搜索字段分类包括：

基于预先设定的语义分类模型对所述原始搜索字段进行语义识别，解析出所述原始搜索字段的语义信息；

基于预先设定的分类类别和解析出的语义信息，对所述原始搜索字段进行分类。

进一步的，所述基于BERT语言模型的搜索方法，所述同义词扩写包括：

基于预先配置的同义词数据表和所述解析出的语义信息，获取与所述原始搜索字段语义相同的字段，得到扩写字段。

进一步的，所述基于BERT语言模型的搜索方法，所述句法分析包括：

基于根据语料库预先生成的词汇缓存表，对所述原始搜索字段和所述扩写字段进行拆分，并对拆分后的字段进行词性分析；

若经过词性分析后，分析出所述原始搜索字段和所述扩写字段中包括动宾结构，基于所述动宾结构对所述原始搜索字段和所述扩写字段进行二次字段拆分，获取二次字段拆分后的宾语部分字段。

进一步的，所述基于BERT语言模型的搜索方法，所述将所述搜索字段集作为查询条件进行搜索，基于搜索结果获得预选集包括：

以资源平台或者预先存储的资源包作为搜索库，将所述搜索字段集中的每一个元素作为查询条件进行查询；

基于查询结果生成预选集，并获取所述预选集中各元素的资源链接。

进一步的，所述基于BERT语言模型的搜索方法，所述基于所述预选集中元素的资源链接获取资源标题包括：

基于所述预选集的资源链接，对所述预选集中的每一个元素进行标题获取，若所述预选集中的元素存在有对应的标题，提取对应的标题作为所述标题集的一个元素，若所述预选集中的元素不存在对应的标题，提取所述预选集中元素的关键词或者关键句作为所述标题集的一个元素。

进一步的，所述基于BERT语言模型的搜索方法，所述将所述标题集中的元素和所述搜索字段集中的元素两两组合生成文本对集合，并将所述文本对集合作为模型输入集，输入BERT语言模型进行处理，获得搜索结果集包括：

确定用于组成文本对的标题集中的元素和搜索字段集中的元素，在两个元素之间插入连接字符串，并在其中一个元素之前插入首字符串，在另一个元素之后插入末端字符串，生成单个文本对，将所述单个文本对加入到文本对集合中，得到模型输入集；

将所述模型输入集输入BERT语言模型，以BERT语言模型中的原始语义信息为对比基准，对文本对进行相似性对比；

选择超过设定阈值的文本对进行缓存，对缓存的文本对进行去搜索字段处理，获取文本对中的标题字段，生成搜索结果集。

为了解决上述技术问题，本申请实施例还提供了一种基于BERT语言模型的搜索装置，采用了如下所述的技术方案：

一种基于BERT语言模型的搜索装置，包括：

数据采集模块，用于获取原始搜索字段；

数据分析模块，用于对获取的所述原始搜索字段进行字段分析，基于字段分析结果生成搜索字段集，其中所述字段分析包括原始搜索字段分类、同义词扩写和句法分析；

第一数据查询模块，用于将所述搜索字段集作为查询条件进行搜索，基于搜索结果获得预选集；

第二数据查询模块，用于基于所述预选集中元素的资源链接获取资源标题，得到标题集；

模型分析模块，用于将所述标题集中的元素和所述搜索字段集中的元素两两组合生成文本对集合，并将所述文本对集合作为模型输入集，输入BERT语言模型进行处理，获得搜索结果集；

数据展示模块，用于基于所述搜索结果集中每一个元素的链接获取所述搜索结果集中每一个元素对应的内容，并发送获得的内容到用户界面进行展示。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现本申请实施例中提出的一种基于BERT语言模型的搜索方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种非易失性计算机可读存储介质，采用了如下所述的技术方案：

一种非易失性计算机可读存储介质，计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本申请实施例中提出的一种基于BERT语言模型的搜索方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请实施例公开了基于BERT语言模型的搜索方法、装置、设备及存储介质，通过获取原始搜索字段；对获取的原始搜索字段进行字段分析，基于字段分析结果生成搜索字段集；其中，字段分析包括原始搜索字段分类、同义词扩写、句法分析；通过原始搜索字段分类，有效的限定了用户的搜索范围，使得用户有效避免了搜索范围过大时，消耗网络资源过多的问题；通过对原始搜索字段进行同义词扩写处理，获得与原始搜索字段语义相同的字段，提高了搜索结果的准确性；通过对原始搜索字段和扩写字段进行句法分析，获取原始搜索字段和扩写字段中的宾语部分，提高了搜索单元的精细化；将搜索字段集作为查询条件进行搜索，基于搜索结果获得预选集；通过搜索字段集作为查询条件，搜索更加全面，提高了搜索的准确性；基于预选集中元素的资源链接获取资源标题，得到标题集；通过获取标题集的方式，避免了获取全部页面信息，减少了网络资源的使用；将标题集中的元素和搜索字段集中的元素两两组合生成文本对集合，并将文本对集合作为模型输入集，输入BERT语言模型进行处理，获得搜索结果集；通过BERT语言模型对模型输入集中元素进行相似性选取，获得与BERT语言模型中对比后，相似性更高的模型输入集中元素，并生成搜索结果集，一定程度上提高的搜索结果的准确性；基于搜索结果集中每一个元素的链接获取搜索结果集中每一个元素对应的内容，并发送获得的内容到用户界面进行展示；搜索结果集中元素对应的内容，为经过相似性筛选之后的搜索结果，将搜索结果集对应的内容进行用户界面展示，一定程度上改善了用户的搜索体验，提高了用户的搜索准确性。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例可以应用于其中的示例性系统架构图；

图2为本申请实施例中所述基于BERT语言模型的搜索方法的一个实施例的流程图；

图3为本申请实施例中BERT语言模型的模型输入集元素的生成示意图；

图4为本申请实施例中BERT语言模型的处理示意图。

图5为本申请实施例中搜索结果集的生成流程图；

图6为本申请实施例中搜索结果集的生成流程示例图；

图7为本申请实施例中所述基于BERT语言模型的搜索装置的一个实施例的结构示意图；

图8为本申请实施例中数据分析模块的结构示意图；

图9为本申请实施例中模型分析模块的结构示意图；

图10为本申请实施例中计算机设备的一个实施例的结构示意图；

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于BERT语言模型的搜索方法一般由服务器/终端设备执行，相应地，基于BERT语言模型的搜索装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，图中示出了本申请的基于BERT语言模型的搜索方法的一个实施例的流程图，所述的基于BERT语言模型的搜索方法包括以下步骤：

步骤201，获取原始搜索字段。

在本实施例中，所述获取原始搜索字段包括:可以从缓存里面获取，该缓存由用户进行搜索时输入的字段作为元素组成，即在用户输入搜索字段时，有一个做缓存的类表，将用户输入的搜索字段进行保存，在进行搜索时，直接从该缓存表中获取搜索字段作为原始搜索字段，也可以直接实时接收用户的输入字段作为原始搜索字段。

步骤202，对获取的所述原始搜索字段进行字段分析，基于字段分析结果生成搜索字段集，其中所述字段分析包括原始搜索字段分类、同义词扩写和句法分析。

在本实施例中，获取原始搜索字段后，将进行搜索前的字段预处理，具体对获取的原始搜索字段进行字段分析，基于字段分析结果生成搜索字段集。其中，所述搜索字段集包括原始搜索字段和经过字段分析后的结果字段。

在本申请的一些实施例中，所述步骤202中的原始搜索字段分类包括：基于预先设定的语义分类模型对所述原始搜索字段进行语义识别，解析出所述原始搜索字段的语义信息；基于预先设定的分类类别和解析出的语义信息，对所述原始搜索字段进行分类。

所述对搜索字段进行分类是基于现有的分类模型来进行分类的，例如基于人类日常生活中常用的表达语句和搜索语句进行数据整合，提取为不同的类别表，以表A、表B、表C分别对应服务查询表、活动查询表、普通搜索表；三张表中分别存入常用的关键词，如表A中包含加油站、餐厅、饭馆、咖啡馆、包子铺、收费站等，对搜索字段进行语义识别，进行中文分词处理，假如原始搜索字段为“我饿了，想搜索最近的包子铺”时，首先进行语义分析，具体根据现有的模型对中文文字进行出现概率确定，对某句话中所有字词根据组合的概率进行分割，“我/饿了，想/搜索/最近/的/包子/铺”，再根据每个字和词的特征值进行分析，对原始搜索字段分类时，将整个句子，分割为我、饿了、想、搜索、最近、的、包子、铺，再将分割后的词进行查询，在表A中查找能与其匹配的词，当在表A中通过sql查询对比，查到包子铺，确定“我饿了，想搜索最近的包子铺”属于服务类别。

在本申请的一些实施例中，所述步骤202中的同义词扩写包括：基于预先配置的同义词数据表和所述解析出的语义信息，获取与所述原始搜索字段语义相同的字段，得到扩写字段。

所述的同义词扩写为在数据库中预先存储有数据表tb_like，表中集成着近义词、同义词、替换词等，对原始搜索字段进行词段分割，分割为若干分词，再分别对照数据表tb_like，查询出近义词、同义词、替换词等进行整合获得原始搜索字段同义词扩写，再根据原始搜索字段整句的语义给出与整句原始搜索字段的相关句进行扩写。

例如对附近的加油站进行同义词扩写，对附近的加油站进行字段分割，分割为附近的和加油站，再分别对照数据表tb_like，查询出周围的、周边的、不远处、最近的和加油自助服务点、加油点、加油服务点进行整合获得同义词扩写，再根据整句的语义给出中国石化、中国石油进行相关词扩写。

在本申请的一些实施例中，所述步骤202中的句法分析包括：基于根据语料库预先生成的词汇缓存表，对所述原始搜索字段和所述扩写字段进行拆分，并对拆分后的字段进行词性分析；若经过词性分析后，分析出所述原始搜索字段和所述扩写字段中包括动宾结构，基于所述动宾结构对所述原始搜索字段和所述扩写字段进行二次字段拆分，获取二次字段拆分后的宾语部分字段。

所述动宾结构的一种判别方式：基于汉语语料库为预先生成的名词词汇缓存表和动词词汇缓存表，先对搜索字段进行拆分，例如搜索字段“你好，每一天更精彩”对应123459789，拆分格式为迭代拆分格式，若搜索字段含有“，”、“！”、“。”，将标点前后拆分为2个字符串，12和459789，然后分别对12和459789进行迭代拆分，获得1、2、4、5、9、7、8、9、12、45、59、97、78、89、459、597、978、789、4597、5978、9789、45978、59789、459789；将这些组合，对应到搜索字段的汉字上，即为搜索字段的所有拆分结构，由迭代方式进行单个拆分，两两拆分，三字拆分，四字拆分，直到长度为单个字符串的最长length；确保拆分的准确性，将拆分后的组合进行数据库查询，找到该组合对应的是什么词性，若名词进行标记A，若动词标记为B，提取AB或者BB连接的结构，即为动宾结构。

所述动宾结构的另一种判断方式:引入判断工具stanfordULP，该工具内有提前预设的名词、动词标识方式，若搜索字段中具有名词，会将所有的名词替换成VV，若搜索字段中含有动词结构，会将所有的动词替换为NN，查找被替换后的搜索字段是否含有VVNN结构，若含有该结构，对VVNN结构对应的原字段还原并进行提取，进行保存，该VVNN或者NNNN结构即为动宾结构。

最后，将原始搜索字段、原始搜索字段同义词扩写后的扩写字段和句法分析后获取的宾语部分字段组成搜索字段集。

步骤203，将所述搜索字段集作为查询条件进行搜索，基于搜索结果获得预选集。

在本申请的一些实施例中，所述步骤203中的将所述搜索字段集作为查询条件进行搜索，基于搜索结果获得预选集包括步骤：以资源平台或者预先存储的资源包作为搜索库，将所述搜索字段集中的每一个元素作为查询条件进行查询；基于查询结果生成预选集，并获取所述预选集中各元素的资源链接。

例如：集合A:{附近的加油站、周边的加油站、附近的加油服务点、中国石化、中国石油}；

首先将第一个集合元素“附近的加油站”作为查询条件，从资源库或者资源平台中搜索；

然后将第二个集合元素“周边的加油站”作为查询条件，从资源库或者资源平台中搜索；

通过集合迭代器的方式，将集合中每一个元素作为查询条件，从资源库或者资源平台中进行搜索；

最后，将通过每一个集合元素搜索到的结果作为预选集，并保存其资源链接。

所述资源链接分为不同的表达方式，若从资源库中进行搜索，所述资源链接为目标资源的文件夹路径，如：/var/temp/spool/news；若从资源平台中进行搜索，所述资源链接为目标资源的url路径，如:https://wenku.baidu.com/view/04ab9390.html？from＝search。

步骤204，基于所述预选集中元素的资源链接获取资源标题，得到标题集。

在本申请的一些实施例中，所述步骤204中基于所述预选集中元素的资源链接获取资源标题包括步骤：基于所述预选集的资源链接，对所述预选集中的每一个元素进行标题获取，若所述预选集中的元素存在有对应的标题，提取对应的标题作为所述标题集的一个元素，若所述预选集中的元素不存在对应的标题，提取所述预选集中元素的关键词或者关键句作为所述标题集的一个元素。

其中，若所述预选集中的元素存在有对应的标题，提取对应的标题作为所述标题集的一个元素，例如：百家号等网站中，文章、新闻、资讯等展示页面，都是固定的html格式，标题都使用<h1><h1>标签，可以直接进行标题提取，即提取前端页面中标签中的信息，使用CSS选择器进行提取，将提取到的标题作为标题集中的一个元素。

若所述预选集中的元素不存在对应的标题，提取所述预选集中元素的关键词或者关键句作为所述标题集的一个元素，例如：有一些页面为非固定的html格式和无标题格式，在进行提取上无法使用具体的选择器进行提取，可以使用概率统计的方式，将整篇文档当成一个集合，提取出其中的动词和名词，计算每个词组的出现概率，使用冒泡排序法选取概率最高的词组作为标题集中的一个元素。

所述的冒泡排序法为:有6个概率数值(0.12、0.13、0.2、0.3、0.4、0.5)进行比较，规定0.12为初始比较值，利用循环的方式，若后面的5个数值比0.12大，将其向前排一位(0.13、0.2、0.3、0.4、0.5、0.12)；然后再以1.3为初始比较值进行比较(0.2、0.3、0.4、0.5、0.13、0.12)；直到获得(0.5、0.4、0.3、0.2、0.13、0.12)，此时排在第一位的5为最大值，直接获取第一位的值。

步骤205，将所述标题集中的元素和所述搜索字段集中的元素两两组合生成文本对集合，并将所述文本对集合作为模型输入集，输入BERT语言模型进行处理，获得搜索结果集。

在本申请的一些实施例中，所述步骤205中将所述标题集中的元素和所述搜索字段集中的元素两两组合生成文本对集合包括步骤：确定用于组成文本对的标题集中的元素和搜索字段集中的元素，在两个元素之间插入连接字符串，并在其中一个元素之前插入首字符串，在另一个元素之后插入末端字符串，生成单个文本对，将所述单个文本对加入到文本对集合中，得到模型输入集。

例如:文本对组合方式为使用“SEP”作为文本对首字符串，“SEP”作为文本对连接字符串和末端字符串，在“SEP”首字符串和“CLS”连接字符串间插入标题集中的元素A，两个“CLS”之间插入搜索字段集中的元素B，具体格式如下:“SEP”A“CLS”B“CLS”，将每一个“SEP”A“CLS”B“CLS”格式的文本对作为一个元素加入到集合中，最后，生成文本对集合。

具体请参阅图3，图3为本申请实施例中，中BERT语言模型的模型输入集元素的生成示意图，所述中BERT语言模型的模型输入集元素的生成示意图3，图中301示出了标题集中的元素“手机钢化膜”，302示出了搜索字段集中的元素“贴膜”，将这两个元素组合，并经过SEP和CLS拼接生成图中303所示的文本对“SEP手机钢化膜CLS贴膜CLS”，利用循环迭代的方式，直到每一个标题集中的元素和搜索字段集中的元素都进行组合，生成文本对集合，即为模型输入集。

在本申请的一些实施例中，所述步骤205中将所述文本对集合作为模型输入集，输入BERT语言模型进行处理包括步骤：将所述模型输入集输入BERT语言模型，以BERT语言模型中的原始语义信息为对比基准，对文本对进行相似性对比；选择超过设定阈值的文本对进行缓存。

其中，具体的对比方式如下：对模型输入集中的元素进行相似性训练包括：设定判断函数

判断函数的范围为0～1，其中，z_j是相似性训练后的对比分数，对每个子集的函数结果进行迭代对比，选择其中超过设定阈值的子集组成训练目标集，例如：BERT语言模型中的原始语义信息作为对比基准1，每一个文本对在进行对比时，经过向量对比，BERT语言模型对每个文本对进行对比打分，对这些分值通过判断函数计算，做归一化处理，设定阈值为0.800，获取函数值在0.800以上的文本对作为训练目标集。

具体请参阅图4，图4为本申请实施例中BERT语言模型的处理示意图，所述BERT语言模型的处理过程包括：将模型输入集传输到BERT语言模型；BERT语言模型基于设定的函数公式和模型内部的大量数据，对模型输入集中每一个文本对元素，进行相似性对比；对模型输入集中所有文本对的相似性进行归一化处理，并基于预先设定的阈值判断每一个文本对的相似性，若超过设定阈值，将超过设定阈值的文本对进行集合存储，将最终获取的集合，作为搜索目标集；若未超过设定阈值，将未超过设定阈值的文本对进行缓存，不做其他处理。

在本申请的一些实施例中，所述步骤205中获得搜索结果集还包括步骤：对缓存的文本对进行去搜索字段处理，获取文本对中的标题字段，生成搜索结果集。

例如：“SEP中国CLS广东省CLS”，不能将整个文本对作为搜索结果集，需要先进行字符串解析，解析出指定字符串“SEP”和“CLS”间的字符串“中国”，即标题字段作为搜索结果集中的一个元素；具体的，对“SEP中国CLS广东省CLS”进行字符串拆分，拆分时“中国”，“广东省”都是一段中文汉字，先将字母SEPCLSCLS基于正则表达式进行替换，替换为空格，再以空格为分割点直接split()进行拆分，获取到两个非空子字符串“中国”和“广东省”，“中国”为标题字段，将“中国”作为搜索结果集中的一个元素。

具体请参阅图5、图6，图5为本申请实施例中搜索结果集的生成流程图，图6为本申请实施例中搜索结果集的生成流程示例图。所述搜索结果集的生成流程包括如下步骤:

501、获取搜索目标集；

所述搜索目标集的格式为：“SEP标题集中元素CLS搜索字段集中元素CLS”；例如图6中601所示的“SEP手机的贴膜方法CLS钢化膜CLS”。

502、对搜索目标集中所有元素进行去字母化处理；

本实施例一种可能的去字母化处理方式包括:若“SEP标题集中元素CLS搜索字段集中元素CLS”格式的字符串，将“SEP”和“CLS”进行替换，替换为设定字符，如“*”符号(也可以是其他标识符号，本申请不作限定)，此时，去字母化处理完成，得到“***标题集中元素***搜索字段集中元素***”格式的字符串；结合图6，图中601所示的字符串“SEP手机的贴膜方法CLS钢化膜CLS”中包含“SEP”或者“CLS”，将“SEP”和“CLS”进行替换，替换为设定字符，如“*”符号，此时，去字母化处理完成，被处理后的字符串的格式可如图6中602所示的“***手机的贴膜方法***钢化膜***”。

503、对去字母化完成的元素，进行字符串拆分；

在本实施例中一种可能的拆分方式包括:若得到“***标题集中元素***搜索字段集中元素***”格式的字符串，以“*”为拆分条件，使用String类的split方法，进行字符串拆分，拆分为“标题集中元素”和“搜索字段集中元素”两个数组元素；结合图6，图中602所示的“***手机的贴膜方法***钢化膜***”，将其拆分为如图6中603所示的数组，所述数组中包括如图6中603a所示的“手机的贴膜方法”和图6中所示的603b所示“钢化膜”两个数组元素；

504、获取所有标题集中元素，缓存为搜索结果集。

在本实施例中一种缓存为搜索结果集方式包括：将获取的“标题集中元素”，进行集合缓存，即每获取一个“标题集中元素”，将所述“标题集中元素”加入到集合中，生成搜索结果集；结合图6，图中603a所示的“手机的贴膜方法”，将“手机的贴膜方法”加入到如图6中604所示的搜索结果集。

步骤206，基于所述搜索结果集中每一个元素的链接获取所述搜索结果集中每一个元素对应的内容，并发送获得的内容到用户界面进行展示。

本申请实施例中所述的基于BERT语言模型的搜索方法，可以通过原始搜索字段分类，有效的限定了用户的搜索范围，使得用户有效避免了搜索范围过大时，消耗网络资源过多的问题；通过对原始搜索字段进行同义词扩写处理，获得与原始搜索字段语义相同的字段，提高了搜索结果的准确性；通过对原始搜索字段和扩写字段进行句法分析，获取原始搜索字段和扩写字段中的宾语部分，提高了搜索单元的精细化；通过BERT语言模型对模型输入集中元素进行相似性选取，获得与BERT语言模型中对比后，相似性更高的模型输入集中元素，并生成搜索结果集，一定程度上提高的搜索结果的准确性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图7，作为对上述图2所示方法的实现，本申请提供了一种基于BERT语言模型的搜索装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例所述的基于BERT语言模型的搜索装置7包括：数据采集模块701、数据分析模块702、第一数据查询模块703、第二数据查询模块704、模型分析模块705和数据展示模块706。其中：

数据采集模块701，用于获取原始搜索字段；

数据分析模块702，用于对获取的所述原始搜索字段进行字段分析，基于字段分析结果生成搜索字段集，其中所述字段分析包括原始搜索字段分类、同义词扩写和句法分析；

第一数据查询模块703，用于将所述搜索字段集作为查询条件进行搜索，基于搜索结果获得预选集；

第二数据查询模块704，用于基于所述预选集中元素的资源链接获取资源标题，得到标题集；

模型分析模块705，用于将所述标题集中的元素和所述搜索字段集中的元素两两组合生成文本对集合，并将所述文本对集合作为模型输入集，输入BERT语言模型进行处理，获得搜索结果集；

数据展示模块706，用于基于所述搜索结果集中每一个元素的链接获取所述搜索结果集中每一个元素对应的内容，并发送获得的内容到用户界面进行展示。

在本申请的一些实施例中，如图8，图8为本申请实施例中数据分析模块的结构示意图，所述数据采集模块702包括原始搜索字段分类单元702a、同义词扩写单元702b、句法分析单元702c。

在本申请的一些实施例中，所述原始搜索字段分类单元702a用于基于预先设定的语义分类模型对所述原始搜索字段进行语义识别，解析出所述原始搜索字段的语义信息；基于预先设定的分类类别和解析出的语义信息，对所述原始搜索字段进行分类。

在本申请的一些实施例中，所述同义词扩写单元702b用于基于预先配置的同义词数据表和所述解析出的语义信息，获取与所述原始搜索字段语义相同的字段，得到扩写字段。

在本申请的一些实施例中，所述句法分析单元702c用于基于根据语料库预先生成的词汇缓存表，对所述原始搜索字段和所述扩写字段进行拆分，并对拆分后的字段进行词性分析；若经过词性分析后，分析出所述原始搜索字段和所述扩写字段中包括动宾结构，基于所述动宾结构对所述原始搜索字段和所述扩写字段进行二次字段拆分，获取二次字段拆分后的宾语部分字段。

在本申请的一些实施例中，所述第一数据查询模块703在将所述搜索字段集作为查询条件进行搜索，基于搜索结果获得预选集时，具体用于以资源平台或者预先存储的资源包作为搜索库，将所述搜索字段集中的每一个元素作为查询条件进行查询；基于查询结果生成预选集，并获取所述预选集中各元素的资源链接。

在本申请的一些实施例中，所述第二数据查询模块704在基于所述预选集中元素的资源链接获取资源标题时，具体用于基于所述预选集的资源链接，对所述预选集中的每一个元素进行标题获取，若所述预选集中的元素存在有对应的标题，提取对应的标题作为所述标题集的一个元素，若所述预选集中的元素不存在对应的标题，提取所述预选集中元素的关键词或者关键句作为所述标题集的一个元素。

在本申请的一些实施例中，如图9，图9为本申请实施例中，模型分析模块的结构示意图，所述模型分析模块705包括模型输入集获取单元705a、文本相似性对比单元705b、搜索结果集获取单元705c。

在本申请的一些实施例中，所述输入集获取单元705a，用于确定用于组成文本对的标题集中的元素和搜索字段集中的元素，在两个元素之间插入连接字符串，并在其中一个元素之前插入首字符串，在另一个元素之后插入末端字符串，生成单个文本对，将所述单个文本对加入到文本对集合中，得到模型输入集。

在本申请的一些实施例中，所述文本相似性对比单元705b，用于将所述模型输入集输入BERT语言模型，以BERT语言模型中的原始语义信息为对比基准，对文本对进行相似性对比。

在本申请的一些实施例中，所述搜索结果集获取单元705c，用于选择超过设定阈值的文本对进行缓存，对缓存的文本对进行去搜索字段处理，获取文本对中的标题字段，生成搜索结果集。

本申请实施例所述的基于BERT语言模型的搜索装置，通过原始搜索字段分类，有效的限定了用户的搜索范围，使得用户有效避免了搜索范围过大时，消耗网络资源过多的问题；通过对原始搜索字段进行同义词扩写处理，获得与原始搜索字段语义相同的字段，提高了搜索结果的准确性；通过对原始搜索字段和扩写字段进行句法分析，获取原始搜索字段和扩写字段中的宾语部分，提高了搜索单元的精细化；通过BERT语言模型对模型输入集中元素进行相似性选取，获得与BERT语言模型中对比后，相似性更高的模型输入集中元素，并生成搜索结果集，一定程度上提高的搜索结果的准确性。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图10，图10为本实施例计算机设备基本结构框图。

所述计算机设备10包括通过系统总线相互通信连接存储器10a、处理器10b、网络接口10c。需要指出的是，图中仅示出了具有组件10a-10c的计算机设备10，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field-Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器10a至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器10a可以是所述计算机设备10的内部存储单元，例如该计算机设备10的硬盘或内存。在另一些实施例中，所述存储器10a也可以是所述计算机设备10的外部存储设备，例如该计算机设备10上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，所述存储器10a还可以既包括所述计算机设备10的内部存储单元也包括其外部存储设备。本实施例中，所述存储器10a通常用于存储安装于所述计算机设备10的操作系统和各类应用软件，例如基于BERT语言模型的搜索方法的程序代码等。此外，所述存储器10a还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器10b在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器10b通常用于控制所述计算机设备10的总体操作。本实施例中，所述处理器10b用于运行所述存储器10a中存储的程序代码或者处理数据，例如运行所述基于BERT语言模型的搜索方法的程序代码。

所述网络接口10c可包括无线网络接口或有线网络接口，该网络接口10c通常用于在所述计算机设备10与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有基于BERT语言模型的搜索程序，所述基于BERT语言模型的搜索程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于BERT语言模型的搜索方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于BERT语言模型的搜索方法，其特征在于，包括下述步骤：

获取原始搜索字段；

对获取的所述原始搜索字段进行字段分析，基于字段分析结果生成搜索字段集，其中所述字段分析包括原始搜索字段分类、同义词扩写和句法分析，其中，所述原始搜索字段分类的步骤，包括：基于预先设定的语义分类模型对所述原始搜索字段进行语义识别，解析出所述原始搜索字段的语义信息，基于预先设定的分类类别和解析出的语义信息，对所述原始搜索字段进行分类，所述同义词扩写的步骤，包括：基于预先配置的同义词数据表和所述解析出的语义信息，获取与所述原始搜索字段语义相同的字段，得到扩写字段，所述句法分析的步骤，包括：基于根据语料库预先生成的词汇缓存表，对所述原始搜索字段和所述扩写字段进行拆分，并对拆分后的字段进行词性分析，若经过词性分析后，分析出所述原始搜索字段和所述扩写字段中包括动宾结构，基于所述动宾结构对所述原始搜索字段和所述扩写字段进行二次字段拆分，获取二次字段拆分后的宾语部分字段，获取原始搜索字段、原始搜索字段同义词扩写后的扩写字段和句法分析后获取的宾语部分字段共同组成搜索字段集；

将所述标题集中的元素和所述搜索字段集中的元素两两组合生成文本对集合，并将所述文本对集合作为模型输入集，输入BERT语言模型进行处理，获得搜索结果集，其中，所述将所述标题集中的元素和所述搜索字段集中的元素两两组合生成文本对集合的步骤，包括：确定用于组成文本对的标题集中的元素和搜索字段集中的元素，在两个元素之间插入连接字符串，并在其中一个元素之前插入首字符串，在另一个元素之后插入末端字符串，生成单个文本对，利用循环迭代的方式，直到每一个标题集中的元素和搜索字段集中的元素都进行文本对组合，生成模型输入集，所述将所述文本对集合作为模型输入集，输入BERT语言模型进行处理，获得搜索结果集的步骤，包括：将所述模型输入集输入BERT语言模型，以BERT语言模型中的原始语义信息为对比基准，对文本对进行相似性对比；选择超过设定阈值的文本对进行缓存，对缓存的文本对进行去搜索字段处理，获取文本对中的标题字段，生成搜索结果集；

2.根据权利要求1所述的基于BERT语言模型的搜索方法，其特征在于，所述将所述搜索字段集作为查询条件进行搜索，基于搜索结果获得预选集包括：

3.根据权利要求2所述的基于BERT语言模型的搜索方法，其特征在于，所述基于所述预选集中元素的资源链接获取资源标题包括：

4.一种基于BERT语言模型的搜索装置，其特征在于，包括：

数据采集模块，用于获取原始搜索字段；

数据分析模块，用于对获取的所述原始搜索字段进行字段分析，基于字段分析结果生成搜索字段集，其中所述字段分析包括原始搜索字段分类、同义词扩写和句法分析，其中，所述原始搜索字段分类的步骤，包括：基于预先设定的语义分类模型对所述原始搜索字段进行语义识别，解析出所述原始搜索字段的语义信息，基于预先设定的分类类别和解析出的语义信息，对所述原始搜索字段进行分类，所述同义词扩写的步骤，包括：基于预先配置的同义词数据表和所述解析出的语义信息，获取与所述原始搜索字段语义相同的字段，得到扩写字段，所述句法分析的步骤，包括：基于根据语料库预先生成的词汇缓存表，对所述原始搜索字段和所述扩写字段进行拆分，并对拆分后的字段进行词性分析，若经过词性分析后，分析出所述原始搜索字段和所述扩写字段中包括动宾结构，基于所述动宾结构对所述原始搜索字段和所述扩写字段进行二次字段拆分，获取二次字段拆分后的宾语部分字段，获取原始搜索字段、原始搜索字段同义词扩写后的扩写字段和句法分析后获取的宾语部分字段共同组成搜索字段集；

模型分析模块，用于将所述标题集中的元素和所述搜索字段集中的元素两两组合生成文本对集合，并将所述文本对集合作为模型输入集，输入BERT语言模型进行处理，获得搜索结果集，其中，所述将所述标题集中的元素和所述搜索字段集中的元素两两组合生成文本对集合的步骤，包括：确定用于组成文本对的标题集中的元素和搜索字段集中的元素，在两个元素之间插入连接字符串，并在其中一个元素之前插入首字符串，在另一个元素之后插入末端字符串，生成单个文本对，利用循环迭代的方式，直到每一个标题集中的元素和搜索字段集中的元素都进行文本对组合，生成模型输入集，所述将所述文本对集合作为模型输入集，输入BERT语言模型进行处理，获得搜索结果集的步骤，包括：将所述模型输入集输入BERT语言模型，以BERT语言模型中的原始语义信息为对比基准，对文本对进行相似性对比；选择超过设定阈值的文本对进行缓存，对缓存的文本对进行去搜索字段处理，获取文本对中的标题字段，生成搜索结果集；

5.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至3任一项所述的基于BERT语言模型的搜索方法的步骤。

6.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述的基于BERT语言模型的搜索方法的步骤。