CN112231554B - 一种搜索推荐词生成方法、装置、存储介质和计算机设备 - Google Patents
一种搜索推荐词生成方法、装置、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN112231554B CN112231554B CN202011080213.1A CN202011080213A CN112231554B CN 112231554 B CN112231554 B CN 112231554B CN 202011080213 A CN202011080213 A CN 202011080213A CN 112231554 B CN112231554 B CN 112231554B
- Authority
- CN
- China
- Prior art keywords
- entity
- search
- target
- search content
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 84
- 238000012216 screening Methods 0.000 claims abstract description 50
- 230000011218 segmentation Effects 0.000 claims abstract description 31
- 230000010354 integration Effects 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000004590 computer program Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 10
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 241000219109 Citrullus Species 0.000 description 3
- 235000012828 Citrullus lanatus var citroides Nutrition 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 235000020094 liqueur Nutrition 0.000 description 3
- 241000938605 Crocodylia Species 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000270722 Crocodylidae Species 0.000 description 1
- 240000003173 Drymaria cordata Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000270708 Testudinidae Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- LNNWVNGFPYWNQE-GMIGKAJZSA-N desomorphine Chemical compound C1C2=CC=C(O)C3=C2[C@]24CCN(C)[C@H]1[C@@H]2CCC[C@@H]4O3 LNNWVNGFPYWNQE-GMIGKAJZSA-N 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开一种搜索推荐词生成方法、装置、存储介质和计算机设备;本申请与人工智能的自然语言处理领域相关,可以获取搜索标签和多个搜索内容;对每一搜索内容中的至少一个实体,以及实体的实体类型进行类型整合,以得到实体类型的整合后实体及其所属的目标搜索内容;对实体类型的目标搜索内容进行分词处理,得到目标搜索内容的词序列;基于实体类型的整合后实体及其所属的目标搜索内容、以及目标搜索内容的词序列,对实体类型的目标搜索内容进行筛除,以得到实体类型对应的搜索内容模板;确定搜索标签对应的目标实体;通过目标实体,对目标实体的目标实体类型对应的搜索内容模板进行填充,以生成搜索推荐词;本申请可提升搜索推荐词的质量。
Description
技术领域
本申请涉及搜索推荐领域,具体涉及一种搜索推荐词生成方法、装置、存储介质和计算机设备。
背景技术
通过搜索功能进行检索是一种获取信息的有效方式,随着技术的不断发展,除了用户主动输入搜索关键词进行搜索,搜索功能提供方也可以进行搜索词推荐,比如,全网热门搜索推荐词,用户可能感兴趣的搜索推荐词,等,现有技术中,确定用户可能感兴趣的搜索推荐词的过程可以包括:构建神经网络模型,通过样本数据对神经网络模型进行训练,最终通过训练后的神经网络模型生成用户可能感兴趣的搜索推荐词。
在对现有技术的研究和实践过程中,本申请的发明人发现,通过训练后的神经网络模型得到的搜索推荐词存在语句不通顺、不符合用户搜索习惯等问题,导致搜索推荐词的质量较差。
发明内容
本申请实施例提供一种搜索推荐词生成方法、装置、存储介质和计算机设备,可以提升搜索推荐词的质量。
本申请实施例提供一种搜索推荐词生成方法,包括:
获取对象的搜索标签和多个搜索内容;
对每一搜索内容中的至少一个实体,以及所述实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及所述整合后实体所属的目标搜索内容;
对每一实体类型的目标搜索内容进行分词处理,得到每一目标搜索内容的词序列;
基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板;
确定所述搜索标签对应的目标实体;
通过所述目标实体,对所述目标实体的目标实体类型对应的搜索内容模板进行填充,以生成所述对象的搜索推荐词。
相应地,本申请提供了一种搜索推荐词生成装置,包括:
获取模块,用于获取对象的搜索标签和多个搜索内容;
整合模块,用于对每一搜索内容中的至少一个实体,以及所述实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及所述整合后实体所属的目标搜索内容;
分词模块,用于对每一实体类型的目标搜索内容进行分词处理,得到每一目标搜索内容的词序列;
筛除模块,用于基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板;
确定模块,用于确定所述搜索标签对应的目标实体;
填充模块,用于通过所述目标实体,对所述目标实体的目标实体类型对应的搜索内容模板进行填充,以生成所述对象的搜索推荐词。
在一些实施例中,筛除模块可以包括预处理子模块以及筛除子模块,其中,
预处理子模块,用于对实体类型的每一整合后实体所属的目标搜索内容的词序列进行预处理,得到每一目标搜索内容的目标词序列;
筛除子模块,用于基于预设词长度阈值和每一目标搜索内容的目标词序列的词长度,对所述实体类型的目标搜索内容进行筛除,以得到所述实体类型对应的搜索内容模板。
在一些实施例中,目标搜索内容的词序列包括多个搜索词语,预处理子模块可以包括确定单元、第一删除单元和第二删除单元,其中,
确定单元,用于确定实体类型的目标搜索内容的词序列中每一搜索词语的出现频率,所述出现频率为所述搜索词语在所述实体类型的所有目标搜索内容中出现的频率;
第一删除单元,用于当搜索词语的出现频率与预设频率阈值不匹配时,将所述搜索词语从所述词序列中删除,得到初始词序列;
第二删除单元,用于当所述初始词序列中存在与预设停用词相同的目标停用词时,将所述目标停用词从所述初始词序列中删除,得到所述目标搜索内容的目标词序列。
在一些实施例中,确定单元具体用于:
确定实体类型的所有目标搜索内容的总内容数量、以及包含搜索词语的特定目标搜索内容的特定内容数量;
根据所述总内容数量和所述特定内容数量,计算所述搜索词语在所述实体类型的出现频率。
在一些实施例中,筛除子模块可以包括确定单元和生成单元,其中,
确定单元,用于当目标搜索内容的目标词序列的词长度与预设词长度阈值相匹配时,确定所述目标搜索内容为所述实体类型的类型搜索内容;
生成单元,用于基于所述实体类型的类型搜索内容、以及所述类型搜索内容中的实体,生成所述实体类型对应的搜索内容模板。
在一些实施例中,生成单元具体用于:
确定所述类型搜索内容的目标词序列中实体的位置信息;
在所述目标词序列中标记所述位置信息,以生成所述实体类型对应的搜索内容模板。
在一些实施例中,确定模块包括第一确定子模块、计算子模块和第二确定子模块,其中,
第一确定子模块,用于根据预设搜索标签和预设实体之间的映射关系,确定所述搜索标签对应的实体集,所述实体集包括多个候选实体;
计算子模块,用于计算所述实体集中每一候选实体的热度分数,所述热度分数表征候选实体的搜索热门程度;
第二确定子模块,用于基于每一候选实体的热度分数,从所有候选实体中确定所述搜索标签对应的目标实体。
在一些实施例中,计算子模块可以包括第一获取单元、第二获取单元和融合单元,其中,
第一获取单元,用于获取候选实体的对象访问热度;
第二获取单元,用于获取所述候选实体在预设知识图谱中的实体关联程度;
融合单元,用于融合所述对象访问热度和所述实体关联程度,得到所述候选实体的热度分数。
在一些实施例中,第一获取单元具体用于:
获取候选实体的对象访问次数、以及所有候选实体的对象访问总次数;
基于所述对象访问次数和所述对象访问总次数,计算所述候选实体的对象访问热度。
在一些实施例中,第二获取单元具体用于:
获取所述候选实体所属的预设知识图谱的实体总数量;
从所述预设知识图谱中,确定与所述候选实体关联的特征实体、以及每一特征实体的实体关联程度和关联实体数量;
基于每一特征实体的实体关联程度和关联实体数量、以及所述实体总数量,计算所述候选实体的实体关联程度。
在一些实施例中,获取模块具体用于:
获取对象的搜索标签和多个候选搜索内容;
计算每一候选搜索内容的语句完整度,所述语句完整度表征候选搜索内容符合标准语言语法的程度;
基于预设完整度阈值和每一候选搜索内容的语句完整度,从所有候选搜索内容中获取搜索内容。
相应的,本申请实施例还提供了一种存储介质,存储介质存储有计算机程序,计算机程序适于处理器进行加载,以执行本申请实施例提供的任一种搜索推荐词生成方法。
相应的,本申请实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现本申请实施例提供的任一种搜索推荐词生成方法。
本申请可以获取对象的搜索标签和多个搜索内容;对每一搜索内容中的至少一个实体,以及实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及整合后实体所属的目标搜索内容;对每一实体类型的目标搜索内容进行分词处理,得到每一目标搜索内容的词序列;基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板;确定搜索标签对应的目标实体;通过目标实体,对目标实体的目标实体类型对应的搜索内容模板进行填充,以生成对象的搜索推荐词。
本申请可以对对象的搜索内容进行处理,得到不同实体类型对应的搜索内容模板,根据对象的对象标签确定目标实体,再通过目标实体以及目标实体的目标实体类型对应的搜索内容模板,得到搜索推荐词,本方案中的搜索内容模板是基于对象的搜索内容得到,再结合对象的对象标签,可以得到更符合对象的搜索习惯,语法更加合理的搜索推荐词,即可有效提升推荐搜索词的质量。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的搜索推荐词生成系统的场景示意图;
图2是本申请实施例提供的搜索推荐词生成方法的流程示意图;
图3是本申请实施例提供的搜索推荐词生成方法的另一流程示意图;
图4是本申请实施例提供的搜索推荐词生成方法的页面交互示例图;
图5是本申请实施例提供的搜索推荐词生成方法的实施示例图;
图6是本申请实施例提供的搜索推荐词生成方法的另一实施示例图;
图7是本申请实施例提供的搜索推荐词生成装置的结构示意图;
图8是本申请实施例提供的搜索推荐词生成装置的另一结构示意图;
图9是本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,本申请所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例中的分词、计算语句完整度以及实体链接等涉及人工智能的自然语言处理领域,比如,对目标搜索内容进行分词处理等,具体将通过下述实施例进行详细说明。
本申请实施例提供一种搜索推荐词生成方法、装置、存储介质和计算机设备。具体地,本申请实施例可以集成在搜索推荐词生成装置中。
搜索推荐词生成装置可以集成在计算机设备中,该计算机设备可以包括终端或服务器等,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
参见图1,搜索推荐词生成装置可以集成在终端和服务器中,其中,服务器可以获取对象的搜索标签和多个搜索内容;对每一搜索内容中的至少一个实体,以及实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及整合后实体所属的目标搜索内容;对每一实体类型的目标搜索内容进行分词处理,得到每一目标搜索内容的词序列;基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板;确定搜索标签对应的目标实体;通过目标实体,对目标实体的目标实体类型对应的搜索内容模板进行填充,以生成对象的搜索推荐词,然后,服务器可以将对象的搜索推荐词发送至对象的终端,终端可以将搜索推荐词通过显示、播放语音等方式向对象呈现。
需要说明的是,图1所示的搜索推荐词生成装置的场景示意图仅仅是一个示例,本申请实施例描述的搜索推荐词生成装置以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着搜索推荐词生成装置的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。在本实施例中,将对搜索推荐词生成方法进行详细描述,该搜索推荐词生成方法可以集成在计算机设备上,如图2所示,图2是本申请实施例提供的搜索推荐词生成方法的流程示意图。该搜索推荐词生成方法可以包括:
101、获取对象的搜索标签和多个搜索内容。
其中,搜索标签可以是对对象的搜索偏好的一种概括表达,可以根据搜索标签对对象想要搜索的内容进行预测,搜索标签是生成搜索推荐词的关键前提,对象可以是使用搜索功能进行搜索的真实用户,也可以是研发等特殊场景中的智能设备、测试接口等。对象的数量可以为至少一个,当对象的数量为两个及以上时,每一对象应包含至少一个相同的搜索标签,搜索标签可以是对通过搜索找到的绝大多数内容的概括,特定的搜索标签可以通过分析对象以及对象的搜索历史等内容得到。
其中,搜索内容可以包括对象主动搜索时输入的搜索内容,搜索内容可以是图片、文本、音视频等,搜索功能提供方可以根据对象输入的搜索内容在特定范围内进行搜索,并向对象呈现得到的搜索结果,呈现可以通过音视频、图像、文字等形式进行。
具体地,对象的搜索标签和搜索内容可以直接从计算机设备(如服务器、终端)获取,计算机设备可以为集成了本推荐搜索词生成方法的计算机设备,也可以为仅包含对象的搜索标签和搜索内容的计算机设备。
此外,也可以从计算机设备获取相关初始数据,并对相关初始数据进行识别、筛选、或转化等步骤,得到对象的搜索标签或多个搜索内容。比如,相关初始数据可以包括对象的属性数据,可以对属性数据进行分析识别,得到对象的搜索标签。
比如,可以向特定存储服务器发送请求,并接收服务器根据该请求返回的对象的搜索标签和多个搜索内容。
在一些实施例中,步骤“获取对象的搜索标签和多个搜索内容”可以包括:
获取对象的搜索标签和多个候选搜索内容;计算每一候选搜索内容的语句完整度,语句完整度表征候选搜索内容符合标准语言语法的程度;基于预设完整度阈值和每一候选搜索内容的语句完整度,从所有候选搜索内容中获取搜索内容。
候选搜索内容可以包括所有对象主动搜索时输入的搜索内容,搜索内容可以包括部分对象主动输入时输入的搜索内容,在本方法中,可以从候选搜索内容中确定用于搜索推荐词生成的搜索内容。
语句完整度可以表征候选搜索内容符合标准语言语法的程度,为了确保得到的候选搜索词具有较为完整的语法结构,增强搜索推荐词的可读性和通顺度,可以对候选搜索内容进行语句完整度计算,计算可以通过语言模型进行,语言模型可以为已有的语言模型,比如,bert模型(一种语言模型),也可以为基于实际使用需求自行构建和训练的神经网络模型,等等。语句完整度可以通过分值、等级等形式描述,比如,候选搜索内容“吃饭不”的语句完整度可以为60分,候选搜索内容“今天中午吃饭吗”的语句完整度可以为85分。
候选搜索内容的形式可以包括图像、音视频等非文本形式,此时,计算语句完整度前需要对候选搜索内容进行处理,得到候选搜索内容对应的文本信息,再对文本信息的语句完整度进行计算,比如,可以对音频进行语言识别,可以通过计算机视觉的相关技术将图像或视频中的图像帧的内容转化为文字,等。
预设完整度阈值可以预先设置,预设完整度阈值与语句完整度的描述形式相对应,如,当语句完整度的描述形式为百分制分数时,预设完整度阈值可以为0分至到100分之间的一个分数值。预设完整度阈值的确定可以在实际应用场景中灵活设置,比如,可以根据实际需求的搜索内容数量、或候选搜索内容的分数的分布情况等进行设置。
此外,对象在进行主动搜索时,可能会产生由于存在明显语法错误、语义矛盾的候选搜索内容,为了提高搜索推荐词生成的效率,需要将这部分候选搜索内容删除;对象在进行搜索时,还可能基于同一搜索目的产生多个相似候选搜索内容,在实际操作过程中可以对这些相似候选搜索内容进行筛选,仅保留部分高质量的相似候选搜索内容,即确定用于搜索推荐词生成的搜索内容。
比如,可以通过训练后的语言模型P计算候选搜索内容的语句完整度,得到候选搜索内容n1的语句完整度d1、候选搜索内容n2的语句完整度d2、候选搜索内容n2的语句完整度d4、以及候选搜索内容n4的语句完整度d4等,并根据预设完整度阈值D,确定一个搜索内容:搜索内容1(即候选搜索内容n4)。
102、对每一搜索内容中的至少一个实体,以及实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及整合后实体所属的目标搜索内容。
实体可以包括对客观内容的描述,实体可以包括存在着的事物,事物可以为虚拟事物或真实事物,比如,人、动物、角色、自然景观、游戏道具、文艺作品等等,
实体类型可以包括对部分实体的共同特征的总结描述,比如,实体鳄鱼的实体类型可以为爬行动物,实体乌龟的实体类型可以为爬行动物、实体白雪公主的实体类型可以为故事角色、等等。
在进行类型整合前,可以对搜索内容进行实体链接,以确定实体内容中的实体以及实体的实体类型,实体链接可以将搜索内容中的实体链接到已有知识图谱中,以丰富已有知识图谱,同时通过该已有知识图谱获取该实体的更多信息(如该实体的其他实体类型信息、以及该实体与其他实体的关系信息等),具体进行实体链接的过程可以通过实体链接模型进行,实体链接模型可以包括集成已有的实体链接算法的模型,也可以包括相关人员根据知识图谱以及搜索内容的特点自行构建和训练的网络模型,等等。
其中,一实体类型的整合后实体可以为属于该实体类型的实体,目标搜索内容可以为该整合后实体所属的搜索内容,比如,实体类型诗人的整合后实体可以包括整合后实体李白、整合后实体屈原等,整合后实体李白所属的目标搜索内容为“李白是哪个朝代的诗人”,整合后实体“屈原”所属的目标搜索内容为“离骚的作者是屈原吗”。
具体地,可以根据每一实体的实体类型,对实体进行类型整合,得到每一实体类型对应的整合后实体,以及整合后实体所属的目标搜索内容,在此过程中,可以先统计所有实体包含的全部实体类型,将此全部实体类型作为待整合的实体类型;也可以预先获取待整合的实体类型,然后,将属于特定实体类型的实体整合起来,得到该特征实体类型的整合后实体,以及整合后实体所属的目标搜索内容,对全部实体类型进行类型整合,最终得到每一实体类型的整合后实体、以及整合后实体所属的目标搜索内容。
比如,可以对包括搜索内容1、搜索内容2在内的每一搜索内容进行实体链接,得到每一搜索内容的至少一个实体以及实体的实体类型,如得到搜索内容1的实体A及其实体类型S1、实体B及其实体类型S3,搜索内容2的实体C及其实体类型S4,然后,对每一搜索内容中的至少一个实体,以及实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及整合后实体所属的目标搜索内容,如实体类型S3的一个整合后实体及其所属的目标搜索内容为实体B及其所述搜索内容1。
103、对每一实体类型的目标搜索内容进行分词处理,得到每一目标搜索内容的词序列。
其中,目标搜索内容的词序列可以为若干包含顺序信息的词语,目标搜索内容可以为若干词语组成的短语或句子,为了便于通过目标搜索内容得到搜索内容模板,可以对目标搜索内容进行分词,其中,分词可以通过分词工具进行,如,结巴分词工具、斯坦福分词工具等,分词工具的选择可以在实际应用过程中根据语种、数据量等因素灵活选择,在此不再赘述。
比如,可以对实体类型S3的一个目标搜索内容:搜索内容1进行分词,搜索内容1可以为“最近一次日食的时间”,对搜索内容1进行分词得到的词序列可以为“最近、一次、日食、的、时间”。
104、基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板。
其中,搜索内容模板可以为包含若干特定词语的搜索内容,搜索内容模板的语法结构完整性可以随着筛除方案的变化而有所不同,并不受限制。比如,在得到搜索内容模板的过程中,可以确定搜索内容中待替换的位置信息后,将该位置信息上的至少一个词语删除,得到该搜索内容对应的搜索内容模板,其中,被删除的至少一个词语的实体类型即为该搜索内容模板的实体类型。
具体地,通过整合后实体和其所属的目标搜索内容的词序列进行实体类型的目标搜索内容的筛除,进而得到实体类型对应的搜索内容模板,其中,筛除可以包括对每一目标搜索内容的词序列中的词语进行筛除,也可以包括对目标搜索内容进行筛除,还可以包括对每一目标搜索内容的词序列以及部分目标搜索内容进行筛除,进行筛除的方式可以包括多种,比如,可以随机筛除部分目标搜索文本,又比如,可以通过阈值进行筛除,阈值可以包括但不限于最高阈值、最低阈值、以及分段阈值(即同时包含最高阈值和最低阈值)等,此种方式通过量化的数值或字符等进行比较,更加直观且易于操作。
比如,可以实体类型S3的每一整合后实体及其所述的目标搜索内容、以及每一目标搜索内容的词序列,对实体类型S3的目标搜索内容进行筛除,得到实体类型S3对应的搜索内容模板,对每一实体类型执行上述操作,以得到每一实体类型对应的搜索内容模板。
在一些实施例中,步骤“基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板”可以包括:
对实体类型的每一整合后实体所属的目标搜索内容的词序列进行预处理,得到每一目标搜索内容的目标词序列;基于预设词长度阈值和每一目标搜索内容的目标词序列的词长度,对实体类型的目标搜索内容进行筛除,以得到实体类型对应的搜索内容模板。
在通过目标搜索内容的词序列进行筛除前,可以对每一目标搜索内容的词序列进行预处理,得到每一目标搜索内容的目标词序列,预处理可以为对词序列中的内容进行包括删除、增加、以及转换顺序等在内的至少一种操作,具体地可以根据实际情况灵活选择和设置,在此不再赘述。
具体地,对目标搜索内容的筛除可以以目标搜索内容的目标词序列的词长度为筛除依据,以预设词长度阈值为筛除标准,对目标搜索内容进行筛除,以得到目标搜索模板。
比如,可以对实体类型S的每一目标搜索内容的词序列进行填充,得到每一搜索内容的目标词序列,然后通过预设词长度阈值C1和每一目标搜索内容的目标词序列的词长度,对该实体类型的目标搜索内容进行筛除,以得到该实体类型S对应的搜索内容模板SS。
在一些实施例中,目标搜索内容的词序列包括多个搜索词语,步骤“对实体类型的每一整合后实体所属的目标搜索内容的词序列进行预处理,得到每一目标搜索内容的目标词序列”可以包括:
确定实体类型的目标搜索内容的词序列中每一搜索词语的出现频率,出现频率为搜索词语在实体类型的所有目标搜索内容中出现的频率;当搜索词语的出现频率与预设频率阈值不匹配时,将搜索词语从词序列中删除,得到初始词序列;当初始词序列中存在与预设停用词相同的目标停用词时,将目标停用词从初始词序列中删除,得到目标搜索内容的目标词序列。
其中,出现频率可以为搜索词语在实体类型的所有目标搜索内容中出现的频率,出现频率可以直接获取,也可以通过相关数据进行计算,
匹配的方式可以包括多种,比如,预设频率阈值为分段阈值时,即包含预设第一频率阈值和预设第二频率阈值,预设第一频率阈值大于预设第二频率阈值,则不匹配可以为出现频率大于预设第一频率阈值或小于第二频率表阈值;不匹配也可以为出现频率大于预设第二频率阈值且小于预设第一频率阈值,等。
又比如,出现频率可以在一定程度上表明搜索词语的常用程度,相比之下,出现频率较低的搜索词语对于对象来说更加不常用,为了使得得到的搜索内容模板更加符合对象的用语习惯,可以将出现频率较低的搜索词语从目标搜索文本的词序列中删除,即不匹配为出现频率小于预设频率阈值。
其中,预设停用词可以包括应用范围过于宽泛或含义不明确的词语或符号,比如,“假”、“去”、“的”、“一”、“了”、以及“;”等,预设停用词可以从已有的预设停用词集中直接获取,也可以根据实际需求自行确定,由于预设停用词的自身特性,导致其在搜索过程中并不能对于得到准确的搜索结构产生有效的作用,为了节省网络资源和存储资源,可以根据预设停用词对目标搜索内容中的目标停用词进行删除。
具体地,第一筛除过程可以为确定搜索词语的出现频率,并通过预设频率阈值对词序列中的搜索词语进行筛选的过程;第二筛除过程可以为通过预设停用词对词序列中的搜索词语进行筛选的过程,第一筛除过程和第二筛除过程在实际操作时并没有先后顺序的限制,可以灵活调整。
在一些实施例中,步骤“确定实体类型的目标搜索内容的词序列中每一搜索词语的出现频率”可以包括:
确定实体类型的所有目标搜索内容的总内容数量、以及包含搜索词语的特定目标搜索内容的特定内容数量;根据总内容数量和特定内容数量,计算搜索词语在实体类型的出现频率。
其中,总内容数量为一实体类型包含的所有目标搜索内容的数量,特定内容数量为该实体类型中包含特定搜索词语的特定目标搜索内容的数量。
出现频率可以为特定内容数量与总内容数量的倒数的乘积,出现频率也可以为权重与特定内容数量和总内容数量的加权平均,等等。
比如,实体类型S包含20个目标搜索内容,即总内容数量为20,其中一个目标搜索内容(目标搜索内容1)的词序列包括搜索词语1,可以确定在除目标搜索内容1以外的其余19个目标搜索内容中是否存在该搜索词语1,可得特定内容数量为10,即可根据总内容数量20和特定内容数量10进行计算,得到搜索词语1的出现频率0.5。
在一些实施例中,步骤“基于预设词长度阈值和每一目标搜索内容的目标词序列的词长度,对实体类型的目标搜索内容进行筛除,以得到实体类型对应的搜索内容模板”可以包括:
当目标搜索内容的目标词序列的词长度与预设词长度阈值相匹配时,确定目标搜索内容为实体类型的类型搜索内容;基于实体类型的类型搜索内容、以及类型搜索内容中的实体,生成实体类型对应的搜索内容模板。
其中,类型搜索内容可以为与预设词长度阈值相匹配的目标搜索内容,实体类型的目标搜索内容的数量大于等于该实体类型的类型搜索内容的数量,为了使得生成的搜索推荐词的词长度适中,更加便于对象查阅和理解,同时确保搜索推荐词包含一定的信息量,可以通过该搜索推荐词得到想要的搜索结果,可以通过预设词长度阈值对目标搜索内容进行筛除,保留所有目标搜索内容中词长度适当的类型搜索内容。
然后,可以根据类型搜索内容中该实体类型的实体,得到该实体类型对应的搜索内容模板。比如,可以参照该实体类型的实体标准,根据类型搜索内容中的实体对该类型搜索内容进行处理,得到的处理后类型搜索内容即为该实体类型对应的一个搜索内容模板。
比如,实体类型S的预设词长度阈值可以为阈值1和阈值2(阈值1小于阈值2),当实体类型S的一个目标搜索内容(搜索内容1)的词长度大于阈值1且小于阈值2时,可以确定搜索内容1为实体类型S的一个类型搜索内容,然后,可以根据该类型搜索内容(搜索内容1)中实体类型为S的实体“西瓜”、以及该类型搜索内容,得到实体类型S对应的一个搜索内容模板。
在一些实施例中,步骤“基于实体类型的类型搜索内容、以及类型搜索内容中的实体,生成实体类型对应的搜索内容模板”可以包括:
确定类型搜索内容的目标词序列中实体的位置信息;在目标词序列中标记位置信息,以生成实体类型对应的搜索内容模板。
其中,实体的位置信息可以包括该实体在其所属的类型搜索内容的目标词序列中所处的位置,比如,目标词序列“如何、挑选、美味、西瓜”中搜索词语“西瓜”的位置信息可以为4。
标记该位置信息可以通过添加标识符、记录该位置信息的存储地址等方式进行,标记完成后,即可生成实体类型对应的一个搜索内容模板。此外,也可以将该位置信息内的实体删除,可以在一定程度上节省存储资源和提高后续搜索推荐词的生成效率。
105、确定搜索标签对应的目标实体。
其中,目标实体可以包括搜索标签对应的实体,比如,搜索标签可以为“小X”,目标实体可以为书籍“小X”。
确定搜索标签对应的目标实体的方式可以包括多种,比如,可以直接向服务器发送请求,并接收服务器返回的搜索标签对应的目标实体;又比如,可以通过对象的搜索内容,确定该搜索标签对应的目标实体,等等。
比如,可以从服务器获取搜索标签“小X”对应的目标实体书籍“小X”。
在一些实施例中,步骤“确定搜索标签对应的目标实体”可以包括:
根据预设搜索标签和预设实体之间的映射关系,确定搜索标签对应的实体集,实体集包括多个候选实体;计算实体集中每一候选实体的热度分数,热度分数表征候选实体的搜索热门程度;基于每一候选实体的热度分数,从所有候选实体中确定搜索标签对应的目标实体。
其中,映射关系可以包括若干预设搜索标签和预设实体,以及预设搜索标签与预设实体之间的对应关系,通过该映射关系,可以确定搜索标签对应的实体集,实体集内包括多个候选实体,比如,一预设搜索标签可以对应至少一个预设实体,则可以通过预设搜索标签和预设实体之间的映射关系,确定该搜索标签对应的多个目标预设实体,即多个候选实体,该多个候选实体组成一个实体集。
又比如,预设关系可以为一预设搜索标签可以对应一个预设实体集,该预设实体集内可以包括多个预设实体,则可通过该映射关系确定搜索标签对应的预设实体集,即实体集,预设实体集内的多个预设实体即多个候选实体。
其中,热度分数可以表征候选实体的搜索热门程度,计算候选实体的热度分数的方式可以包括多种,如,可以根据该搜索功能提供方内用户的主动搜索词的实时搜索热度以及用户的用户信息(如用户的性别、年龄等),计算每一候选实体的热度分数,此方式可以结合实时搜索热度和用户信息,更加准确的确定用户角度中每一候选实体的实时搜索热门程度。
得到每一候选实体的热度分数后,可以从所有候选实体中确定搜索标签对应的目标实体,目标实体的数量可以至少一个,比如,可以对热度分数进行排名,确定最高热度分数对应的候选实体为目标实体,等等。
比如,可以根据映射关系Y,确定搜索标签“小X”对应的实体集,实体集内包括3个候选实体,包括书籍“小X”、电视剧“小X”、2019电影“小X”、以及1997电影“小X”,接着,可以计算每一候选实体的热度分数,并根据每一候选实体的热度分数确定搜索标签“小X”对应的目标实体为书籍“小X”。
在一些实施例中,步骤“计算实体集中每一候选实体的热度分数”可以包括:
获取候选实体的对象访问热度,以及获取候选实体在预设知识图谱中的实体关联程度;融合对象访问热度和实体关联程度,得到候选实体的热度分数。
其中,对象访问热度可以包括候选实体在搜索领域的访问热门程度,具体地,可以以通过总结搜索领域内一段时间内的所有搜索内容的搜索次数,来量化搜索内容的对象访问热度,进而根据该段时间内所有搜索内容的对象访问热度确定特定搜索内容的访问热门程度,如,特定搜索内容可以为本方法中的候选实体。
其中,实体关联程度可以表征候选实体在其所属的预设知识图谱中的信息丰富程度,如,若一候选实体相关的属性信息、其包含的关系的数量等越多,则表明该候选实体的实体关联程度越高,即预设知识图谱中有关该候选实体的信息越丰富,即可通过候选实体相关的属性信息、其包含的关系的相关信息确定实体关联程度。
具体地,获取候选实体的对象访问热度和实体关联程度的方法有多种,比如,直接从计算机设备获取,又比如,可以获取相关数据,再根据相关数据进行计算等步骤,以得到对象访问热度或实体关联程度。融合对象访问热度和实体关联程度的过程可以通过如求和、求积等方式进行,可以根据实际需求灵活选择,在此不做限制。
比如,可以获取候选实体电视剧“小X”的对象访问热度m和实体关联程度n,然后基于系数a对二者进行融合,得到候选实体电视剧“小X”的热度分数amn。
在一些实施例中,步骤“获取候选实体的对象访问热度”可以包括:
获取候选实体的对象访问次数、以及所有候选实体的对象访问总次数;基于对象访问次数和对象访问总次数,计算候选实体的对象访问热度。
具体地,可以获取一段时间内搜索领域对每一候选实体的对象访问次数,以得到所有候选实体的对象访问总次数,接着,根据特定实体的对象访问次数和所有候选实体的对象访问总次数,计算特定候选实体的对象访问热度。
比如,可以确定候选实体电视剧“小X”的对象访问次数k,以及搜索标签“小X”的所有候选实体的对象访问总次数g,然后,计算得到候选实体电视剧“小X”的对象访问热度m=kk/g。
在一些实施例中,步骤“获取候选实体在预设知识图谱中的实体关联程度”可以包括:
获取候选实体所属的预设知识图谱的实体总数量;从预设知识图谱中,确定与候选实体关联的特征实体、以及每一特征实体的实体关联程度和关联实体数量;基于每一特征实体的实体关联程度和关联实体数量、以及实体总数量,计算候选实体的实体关联程度。
预设知识图谱可以为进行实体链接时使用的已有知识图谱,知识图谱中包含若干实体以及实体之间的关系,实体关联程度可以表征候选实体在预设知识图谱中的信息丰富程度,因此,可以先确定预设知识图谱中所有实体的数量,即实体总数量,然后根据与候选实体关联的特征实体的性质确定候选实体的实体关联程度,其中,特征实体可以为预设知识图谱中与候选实体存在关系的实体。
具体地,可以确定候选实体的每一特征实体的实体关联程度和关联实体数量,其中,关联实体数量可以与预设指示图谱中与特征实体存在关系的实体的数量,最后,可以联合预设知识图谱的实体总数量,特征实体的实体关联程度和关联实体数量,计算得到候选实体的实体关联程度,实际计算时可以根据需求进行求和、求积等,在此不再赘述。
比如,可以获取候选实体电视剧“小X”所属的预设知识图谱的实体总数量h;从预设知识图谱中,确定与候选实体关联的特征实体、以及每一特征实体的实体关联程度和关联实体数量;基于每一特征实体的实体关联程度和关联实体数量、以及实体总数量,计算候选实体电视剧“小X”的实体关联程度n。
106、通过目标实体,对目标实体的目标实体类型对应的搜索内容模板进行填充,以生成对象的搜索推荐词。
可以确定目标实体对应的搜索内容模板,并将目标实体填充到该搜索内容模板中,得到对象的至少一个搜索推荐词,填充的方式可以随着搜索内容模板的表现形式的差异而灵活处理,比如,当搜索内容模板为图像时,可以将目标实体对应的图像绘制在搜索内容模板上,又比如,当搜索内容模板为文本时,可以将目标实体填充到搜索内容模板的填充标记位置上,等等。
本申请可以对对象的搜索内容进行处理,得到不同实体类型对应的搜索内容模板,根据对象的对象标签确定目标实体,再通过目标实体和目标实体的目标实体类型对应的搜索内容模板,得到搜索推荐词,本方案中的搜索内容模板是基于对象的搜索内容得到,再结合对象的对象标签,可以得到更符合对象的搜索习惯,语法更加合理的搜索推荐词,即可有效提升推荐搜索词的质量。
为便于更好的实施本申请实施例提供的搜索推荐词生成方法,将通过以下实施例进行进一步说明,本实施例中,搜索推荐词生成方法可以集成在计算机设备上,如图3所示,图3是本申请实施例提供的搜索推荐词生成方法的流程示意图。该搜索推荐词生成方法可以包括:
201、计算机设备获取对象的搜索标签和多个搜索内容。
比如,用户毛毛的搜索标签可以为R,用户毛毛的多个历史搜索内容可以暂存在集合Q中,集合Q可以表示为Q={q_1,q_2,…,q_M},其中,M表示用户毛毛的历史搜索内容的数量,q_i表示用户毛毛的第i条历史搜索内容。
为了得到语法结果更加完整,可读性更强的搜索推荐词,需要计算历史搜索内容的完整性,并根据完整性对历史搜索内容进行过滤,以得到质量更好的搜索内容,具体地,可以通过完整性计算模型计算历史搜索内容q_i的完整性c_i,c_i的数值范围可以为0到1,接着,可以根据预设的完整性阈值α整对集合Q中的历史搜索内容进行过滤,删除其中完整性低于α的历史搜索内容,得到用户毛毛的多个搜索内容,并存储在集合Q_1中,集合Q_1可以表示为Q_1={q_1,q_2,…,q_N},其中,N表示用户毛毛的搜索内容的数量,q_i表示用户毛毛的第i条搜索内容。
202、计算机设备对每一搜索内容中的至少一个实体,以及实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及整合后实体所属的目标搜索内容。
比如,计算机设备可以通过预训练的实体链接模型,对每一搜索内容进行实体链接,得到每一搜索内容的至少一个实体,并将结果暂存在集合Q_2中,集合Q_2可以表示为其中,K表示实体的数量,ei表示第i个实体,qi表示第i个实体所属的搜索内容,ti表示第i个实体的实体类型。
然后,可以根据每一实体的实体类型对实体进行类型整合,将具有相同实体类型的实体及其所属的搜索内容整合在一起,得到每一实体类型对应的实体和搜索内容,整合结果可以表示为集合Q_3,Q_3={T1,T2,…,TC},其中,Ti表示实体类型i的实体及其搜索内容的集合,C表示实体类型的数量,Ti可以表示为其中,Ni表示实体类型i的实体(搜索内容)的数量,eij表示实体类型i的第j个整合后实体,qij表示实体类型i的第j个整合后实体所属的目标搜索内容。
203、计算机设备对每一实体类型的目标搜索内容进行分词处理,得到每一实体类型的每一目标搜索内容的词序列。
比如,可以对实体类型i的目标搜索内容进行分词处理,得到每一目标搜索内容的词序列,实体类型i的分词结果可以暂存在集合中,/> 其中,Ni表示实体类型i的实体(目标搜索内容)的数量,/>表示目标搜索内容qij的词序列,Mj表示Wij中搜索词语的数量(即词长度),wijk表示词序列Wij中的第k个搜索词语。
204、计算机设备对每一实体类型的每一整合后实体所属的目标搜索内容的词序列进行预处理,得到每一实体类型的每一目标搜索内容的目标词序列。
比如,计算机设备可以对目标搜索文本中的搜索词语进行文档频率统计,以搜索词语wijk为例,搜索词语wijk的文档频率计算公式可以为:
其中,Ni表示实体类型i的目标搜索内容的数量,|{i:wijk∈qij}|表示包含wijk的目标搜索内容的数量。
然后,可以通过实体类型i的每一目标搜索内容的搜索词语的文档频率,以及文档频率阈值β,将目标搜索内容的词序列中文档频率低于文档频率阈值β是搜索词语删除,以及,根据预设通用词表,将目标搜索内容的词序列中的停用词删除,通过去停用词和文档频率筛除对目标搜索内容的词序列进行预处理,得到实体类型i的每一目标搜索内容的目标词序列,预处理结果可以暂存在集合中,集合/>其中,/>表示目标搜索内容qij的目标词序列。
205、计算机设备基于预设词长度阈值和每一实体类型的每一目标搜索内容的目标词序列的词长度,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板。
比如,预设词长度阈值可以包括下限阈值γb和上限阈值γu,当目标词序列的词长度处于下限阈值γb和上限阈值γu之间时,可以将该通过筛除的目标词序列中实体类型i的实体ei的位置信息标记为t,即得到实体类型i的一个搜索内容模板。
对实体类型i的所有目标搜索内容的目标词序列执行上述操作,即可得到实体类型i的搜索内容模板,表示为其中,/>为实体类型i的第l个搜索内容模板,L为实体类型i的搜索内容模板的数量,/>t为标记的位置信息,/>为第l个搜索内容模板中搜索词语的数量。
206、计算机设备根据预设搜索标签和预设实体之间的映射关系,确定搜索标签对应的实体集,实体集包括多个候选实体。
比如,预设搜索标签和预设实体之间的映射关系可以为名称字典D,D={<ki,vi>|i=1,2…,|D|},ki表示预设搜索标签,vi={ei1,ei2,…,eiK}表示预设搜索标签对应的预设实体集合,其中包括K个候选实体。
当名称字典中存在与R相同的目标搜索标签ki时,即确定此目标搜索标签ki对应的vi为用户毛毛的搜索标签R的候选实体集合E,E={e1,e2,…,eM},其中,M为候选实体的数量。
207、计算机设备计算实体集中每一候选实体的热度分数,热度分数表征候选实体的搜索热门程度。
比如,可以计算候选实体集合E中每一候选实体的热度分数,候选实体ei的热度分数计算公式可以为:
si=μhi+(1-μ)pri
其中,μ为热度权重,hi为候选实体ei的用户访问热度,pri为实体ei的页面排名(Page_Rank)值。
其中,候选实体ei的用户访问热度的计算公式可以为:
cpi为搜索功能提供方中用户对候选实体ei的访问次数,∑jcpj表示搜索功能提供方中用户对所有候选实体的访问总次数。
其中,实体ei的页面排名(Page_Rank)值的计算公式可以为:
其中,q为权重,|E|为预设知识图谱中所有实体的数量,Lj为与候选实体关联的特征实体的关联实体数量,prj为该特征实体的页面排名值,j为候选实体的特征实体的数量。
208、计算机设备基于每一候选实体的热度分数,从所有候选实体中确定搜索标签对应的目标实体。
比如,得到候选实体集合E中每一候选实体的热度分数后,可以确定其中热度分数最高的候选实体为搜索标签R对应的目标实体。
209、计算机设备通过目标实体,对目标实体的目标实体类型对应的搜索内容模板进行填充,以生成对象的搜索推荐词。
比如,可以根据预设知识图谱,确定目标实体的目标实体类型,并根据得到的每一实体类型的搜索内容模板,确定目标实体类型对应的目标搜索内容模板,最后,将目标实体填充到目标搜索内容模板中的t处,即可得到一个搜索标签R的搜索推荐词。
根据用户毛毛的若干搜索标签得到若干搜索推荐词后,可以输入这些搜索推荐词,比如图4,可以在搜索页面70显示搜索推荐词显示区域701显示搜索推荐词。
在本申请的一些实施例中,参见图5,搜索推荐内容的生成过程可以包括,对用户搜索词(即候选搜索内容)进行完整性过滤,得到搜索内容,对搜索内容进行实体链接,得到搜索内容的至少一个实体及其实体类型,对得到的所有实体及其实体类型进行类型整合,得到每一实体类型的至少一个整合后实体及其所属的目标搜索内容,对目标搜索内容进行分词,得到目标搜索内容的词序列,在目标搜索内容所在的实体类型下对目标搜索内容的词序列中的搜索词语进行词频统计,再结合词频统计的结果,将其中的词频高于特定阈值的搜索词语拼接为语法恰当的文本,即得到该实体类型的实体类型模板(搜索内容模板),进而得到所有实体类型的实体类型模板。
在本申请的一些实施例中,参见图6,根据用户画像标签(即搜索标签),在名称字典中确定搜索标签的候选图谱实体(即候选实体),接着通过计算得到的候选实体的热度分数,对候选图谱实体进行排序,将其中热度分数最高的为候选图谱实体作为目标实体,然后,获取该目标实体所属的实体类型的搜索内容模板,将目标实体填充到搜索内容模板的标记位置信息处,即可得到推荐词(即搜索推荐词)。
本申请可以对对象的搜索内容进行处理,得到不同实体类型对应的搜索内容模板,根据对象的对象标签确定目标实体,再通过目标实体和目标实体的目标实体类型对应的搜索内容模板,得到搜索推荐词,本方案中的搜索内容模板是基于对象的搜索内容得到,再结合对象的对象标签,可以得到更符合对象的搜索习惯,语法更加合理的搜索推荐词,即可有效提升推荐搜索词的质量。
为便于更好的实施本申请实施例提供的搜索推荐词生成方法,本申请实施例还提供一种基于上述搜索推荐词生成方法的装置。其中名词的含义与上述搜索推荐词生成方法中相同,具体实现细节可以参考方法实施例中的说明。
如图7所示,图7本申请一实施例提供的搜索推荐词生成装置的结构示意图,其中该搜索推荐词生成装置可以包括获取模块301、整合模块302、分词模块303、筛除模块304、确定模块305和填充模块306,其中,
获取模块301,用于获取对象的搜索标签和多个搜索内容;
整合模块302,用于对每一搜索内容中的至少一个实体,以及实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及整合后实体所属的目标搜索内容;
分词模块303,用于对每一实体类型的目标搜索内容进行分词处理,得到每一目标搜索内容的词序列;
筛除模块304,用于基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板;
确定模块305,用于确定搜索标签对应的目标实体;
填充模块306,用于通过目标实体,对目标实体的目标实体类型对应的搜索内容模板进行填充,以生成对象的搜索推荐词。
在一些实施例中,参见图8,筛除模块304可以包括预处理子模块3041以及筛除子模块3042,其中,
预处理子模块,用于对实体类型的每一整合后实体所属的目标搜索内容的词序列进行预处理,得到每一目标搜索内容的目标词序列;
筛除子模块,用于基于预设词长度阈值和每一目标搜索内容的目标词序列的词长度,对实体类型的目标搜索内容进行筛除,以得到实体类型对应的搜索内容模板。
在一些实施例中,目标搜索内容的词序列包括多个搜索词语,预处理子模块可以包括确定单元、第一删除单元和第二删除单元,其中,
确定单元,用于确定实体类型的目标搜索内容的词序列中每一搜索词语的出现频率,出现频率为搜索词语在实体类型的所有目标搜索内容中出现的频率;
第一删除单元,用于当搜索词语的出现频率与预设频率阈值不匹配时,将搜索词语从词序列中删除,得到初始词序列;
第二删除单元,用于当初始词序列中存在与预设停用词相同的目标停用词时,将目标停用词从初始词序列中删除,得到目标搜索内容的目标词序列。
在一些实施例中,确定单元具体用于:
确定实体类型的所有目标搜索内容的总内容数量、以及包含搜索词语的特定目标搜索内容的特定内容数量;
根据总内容数量和特定内容数量,计算搜索词语在实体类型的出现频率。
在一些实施例中,筛除子模块可以包括确定单元和生成单元,其中,
确定单元,用于当目标搜索内容的目标词序列的词长度与预设词长度阈值相匹配时,确定目标搜索内容为实体类型的类型搜索内容;
生成单元,用于基于实体类型的类型搜索内容、以及类型搜索内容中的实体,生成实体类型对应的搜索内容模板。
在一些实施例中,生成单元具体用于:
确定类型搜索内容的目标词序列中实体的位置信息;
在目标词序列中标记位置信息,以生成实体类型对应的搜索内容模板。
在一些实施例中,确定模块包括第一确定子模块、计算子模块和第二确定子模块,其中,
第一确定子模块,用于根据预设搜索标签和预设实体之间的映射关系,确定搜索标签对应的实体集,实体集包括多个候选实体;
计算子模块,用于计算实体集中每一候选实体的热度分数,热度分数表征候选实体的搜索热门程度;
第二确定子模块,用于基于每一候选实体的热度分数,从所有候选实体中确定搜索标签对应的目标实体。
在一些实施例中,计算子模块可以包括第一获取单元、第二获取单元和融合单元,其中,
第一获取单元,用于获取候选实体的对象访问热度;
第二获取单元,用于获取候选实体在预设知识图谱中的实体关联程度;
融合单元,用于融合对象访问热度和实体关联程度,得到候选实体的热度分数。
在一些实施例中,第一获取单元具体用于:
获取候选实体的对象访问次数、以及所有候选实体的对象访问总次数;
基于对象访问次数和对象访问总次数,计算候选实体的对象访问热度。
在一些实施例中,第二获取单元具体用于:
获取候选实体所属的预设知识图谱的实体总数量;
从预设知识图谱中,确定与候选实体关联的特征实体、以及每一特征实体的实体关联程度和关联实体数量;
基于每一特征实体的实体关联程度和关联实体数量、以及实体总数量,计算候选实体的实体关联程度。
在一些实施例中,获取模块具体用于:
获取对象的搜索标签和多个候选搜索内容;
计算每一候选搜索内容的语句完整度,语句完整度表征候选搜索内容符合标准语言语法的程度;
基于预设完整度阈值和每一候选搜索内容的语句完整度,从所有候选搜索内容中获取搜索内容。
本申请中,获取模块301可以获取对象的搜索标签和多个搜索内容;整合模块302可以对每一搜索内容中的至少一个实体,以及实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及整合后实体所属的目标搜索内容;分词模块303可以对每一实体类型的目标搜索内容进行分词处理,得到每一目标搜索内容的词序列;筛除模块304可以基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板;确定模块305可以确定搜索标签对应的目标实体;填充模块306可以通过目标实体,对目标实体的目标实体类型对应的搜索内容模板进行填充,以生成对象的搜索推荐词。
本申请可以对对象的搜索内容进行处理,得到不同实体类型对应的搜索内容模板,根据对象的对象标签确定目标实体,再通过目标实体和目标实体的目标实体类型对应的搜索内容模板,得到搜索推荐词,本方案中的搜索内容模板是基于对象的搜索内容得到,再结合对象的对象标签,可以得到更符合对象的搜索习惯,语法更加合理的搜索推荐词,即可有效提升推荐搜索词的质量。
此外,本申请实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器,如图9所示,其示出了本申请实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图9中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
计算机设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取对象的搜索标签和多个搜索内容;对每一搜索内容中的至少一个实体,以及实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及整合后实体所属的目标搜索内容;对每一实体类型的目标搜索内容进行分词处理,得到每一目标搜索内容的词序列;基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板;确定搜索标签对应的目标实体;通过目标实体,对目标实体的目标实体类型对应的搜索内容模板进行填充,以生成对象的搜索推荐词。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中各种可选实现方式中提供的方法。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种搜索推荐词生成方法中的步骤。例如,该计算机程序可以执行如下步骤:
获取对象的搜索标签和多个搜索内容;对每一搜索内容中的至少一个实体,以及实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及整合后实体所属的目标搜索内容;对每一实体类型的目标搜索内容进行分词处理,得到每一目标搜索内容的词序列;基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板;确定搜索标签对应的目标实体;通过目标实体,对目标实体的目标实体类型对应的搜索内容模板进行填充,以生成对象的搜索推荐词。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种搜索推荐词生成方法中的步骤,因此,可以实现本申请实施例所提供的任一种搜索推荐词生成方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种搜索推荐词生成方法、装置、存储介质和计算机设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (14)
1.一种搜索推荐词生成方法,其特征在于,包括:
获取对象的搜索标签和多个搜索内容;
对每一搜索内容中的至少一个实体,以及所述实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及所述整合后实体所属的目标搜索内容;
对每一实体类型的目标搜索内容进行分词处理,得到每一目标搜索内容的词序列;
基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板;
确定所述搜索标签对应的目标实体;
通过所述目标实体,对所述目标实体的目标实体类型对应的搜索内容模板进行填充,以生成所述对象的搜索推荐词。
2.根据权利要求1所述的方法,其特征在于,所述基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板,包括:
对实体类型的每一整合后实体所属的目标搜索内容的词序列进行预处理,得到每一目标搜索内容的目标词序列;
基于预设词长度阈值和每一目标搜索内容的目标词序列的词长度,对所述实体类型的目标搜索内容进行筛除,以得到所述实体类型对应的搜索内容模板。
3.根据权利要求2所述的方法,其特征在于,目标搜索内容的词序列包括多个搜索词语,所述对实体类型的每一整合后实体所属的目标搜索内容的词序列进行预处理,得到每一目标搜索内容的目标词序列,包括:
确定实体类型的目标搜索内容的词序列中每一搜索词语的出现频率,所述出现频率为所述搜索词语在所述实体类型的所有目标搜索内容中出现的频率;
当搜索词语的出现频率与预设频率阈值不匹配时,将所述搜索词语从所述词序列中删除,得到初始词序列;
当所述初始词序列中存在与预设停用词相同的目标停用词时,将所述目标停用词从所述初始词序列中删除,得到所述目标搜索内容的目标词序列。
4.根据权利要求3所述的方法,其特征在于,所述确定实体类型的目标搜索内容的词序列中每一搜索词语的出现频率,包括:
确定实体类型的所有目标搜索内容的总内容数量、以及包含搜索词语的特定目标搜索内容的特定内容数量;
根据所述总内容数量和所述特定内容数量,计算所述搜索词语在所述实体类型的出现频率。
5.根据权利要求2所述的方法,其特征在于,所述基于预设词长度阈值和每一目标搜索内容的目标词序列的词长度,对所述实体类型的目标搜索内容进行筛除,以得到所述实体类型对应的搜索内容模板,包括:
当目标搜索内容的目标词序列的词长度与预设词长度阈值相匹配时,确定所述目标搜索内容为所述实体类型的类型搜索内容;
基于所述实体类型的类型搜索内容、以及所述类型搜索内容中的实体,生成所述实体类型对应的搜索内容模板。
6.根据权利要求5所述的方法,其特征在于,所述基于所述实体类型的类型搜索内容、以及所述类型搜索内容中的实体,生成所述实体类型对应的搜索内容模板,包括:
确定所述类型搜索内容的目标词序列中实体的位置信息;
在所述目标词序列中标记所述位置信息,以生成所述实体类型对应的搜索内容模板。
7.根据权利要求1所述的方法,所述确定所述搜索标签对应的目标实体,包括:
根据预设搜索标签和预设实体之间的映射关系,确定所述搜索标签对应的实体集,所述实体集包括多个候选实体;
计算所述实体集中每一候选实体的热度分数,所述热度分数表征候选实体的搜索热门程度;
基于每一候选实体的热度分数,从所有候选实体中确定所述搜索标签对应的目标实体。
8.根据权利要求7所述的方法,其特征在于,所述计算所述实体集中每一候选实体的热度分数,包括:
获取候选实体的对象访问热度,以及获取所述候选实体在预设知识图谱中的实体关联程度;
融合所述对象访问热度和所述实体关联程度,得到所述候选实体的热度分数。
9.根据权利要求8所述的方法,其特征在于,所述获取候选实体的对象访问热度,包括:
获取候选实体的对象访问次数、以及所有候选实体的对象访问总次数;
基于所述对象访问次数和所述对象访问总次数,计算所述候选实体的对象访问热度。
10.根据权利要求8所述的方法,其特征在于,所述获取所述候选实体在预设知识图谱中的实体关联程度,包括:
获取所述候选实体所属的预设知识图谱的实体总数量;
从所述预设知识图谱中,确定与所述候选实体关联的特征实体、以及每一特征实体的实体关联程度和关联实体数量;
基于每一特征实体的实体关联程度和关联实体数量、以及所述实体总数量,计算所述候选实体的实体关联程度。
11.根据权利要求1所述的方法,其特征在于,所述获取对象的搜索标签和多个搜索内容,包括:
获取对象的搜索标签和多个候选搜索内容;
计算每一候选搜索内容的语句完整度,所述语句完整度表征候选搜索内容符合标准语言语法的程度;
基于预设完整度阈值和每一候选搜索内容的语句完整度,从所有候选搜索内容中获取搜索内容。
12.一种搜索推荐词生成装置,其特征在于,包括:
获取模块,用于获取对象的搜索标签和多个搜索内容;
整合模块,用于对每一搜索内容中的至少一个实体,以及所述实体的实体类型进行类型整合,以得到每一实体类型的整合后实体、以及所述整合后实体所属的目标搜索内容;
分词模块,用于对每一实体类型的目标搜索内容进行分词处理,得到每一目标搜索内容的词序列;
筛除模块,用于基于每一实体类型的整合后实体及其所属的目标搜索内容、以及每一目标搜索内容的词序列,对每一实体类型的目标搜索内容进行筛除,以得到每一实体类型对应的搜索内容模板;
确定模块,用于确定所述搜索标签对应的目标实体;
填充模块,用于通过所述目标实体,对所述目标实体的目标实体类型对应的搜索内容模板进行填充,以生成所述对象的搜索推荐词。
13.一种存储介质,其特征在于,所述存储介质存储有多条计算机程序,所述计算机程序适于处理器进行加载,以执行如权利要求1至11任一项方法中的步骤。
14.一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1至11任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011080213.1A CN112231554B (zh) | 2020-10-10 | 2020-10-10 | 一种搜索推荐词生成方法、装置、存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011080213.1A CN112231554B (zh) | 2020-10-10 | 2020-10-10 | 一种搜索推荐词生成方法、装置、存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112231554A CN112231554A (zh) | 2021-01-15 |
CN112231554B true CN112231554B (zh) | 2023-10-31 |
Family
ID=74113211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011080213.1A Active CN112231554B (zh) | 2020-10-10 | 2020-10-10 | 一种搜索推荐词生成方法、装置、存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112231554B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114141384A (zh) * | 2022-01-30 | 2022-03-04 | 北京欧应信息技术有限公司 | 用于检索医学数据的方法、设备和介质 |
CN114756751A (zh) * | 2022-04-18 | 2022-07-15 | 北京字节跳动网络技术有限公司 | 推荐词确定方法、装置、电子设备和存储介质 |
CN115982429B (zh) * | 2023-03-21 | 2023-08-01 | 中交第四航务工程勘察设计院有限公司 | 一种基于流程控制的知识管理方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136220A (zh) * | 2011-11-24 | 2013-06-05 | 北京百度网讯科技有限公司 | 建立词项需求分类模型的方法、词项需求分类方法及装置 |
CN104881447A (zh) * | 2015-05-14 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN105095187A (zh) * | 2015-08-07 | 2015-11-25 | 广州神马移动信息科技有限公司 | 一种搜索意图识别方法及装置 |
CN106649761A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的搜索结果展现方法和装置 |
CN110287466A (zh) * | 2019-06-24 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种实体模板生成方法和装置 |
WO2020067870A1 (en) * | 2018-09-28 | 2020-04-02 | Mimos Berhad | Method and system for providing a content list based on a search query |
CN111368049A (zh) * | 2020-02-26 | 2020-07-03 | 京东方科技集团股份有限公司 | 信息获取方法、装置、电子设备及计算机可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9495444B2 (en) * | 2014-02-07 | 2016-11-15 | Quixey, Inc. | Rules-based generation of search results |
US20160041986A1 (en) * | 2014-08-08 | 2016-02-11 | Cuong Duc Nguyen | Smart Search Engine |
US10423649B2 (en) * | 2017-04-06 | 2019-09-24 | International Business Machines Corporation | Natural question generation from query data using natural language processing system |
-
2020
- 2020-10-10 CN CN202011080213.1A patent/CN112231554B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136220A (zh) * | 2011-11-24 | 2013-06-05 | 北京百度网讯科技有限公司 | 建立词项需求分类模型的方法、词项需求分类方法及装置 |
CN104881447A (zh) * | 2015-05-14 | 2015-09-02 | 百度在线网络技术(北京)有限公司 | 搜索方法及装置 |
CN105095187A (zh) * | 2015-08-07 | 2015-11-25 | 广州神马移动信息科技有限公司 | 一种搜索意图识别方法及装置 |
CN106649761A (zh) * | 2016-12-27 | 2017-05-10 | 北京百度网讯科技有限公司 | 基于深度问答的搜索结果展现方法和装置 |
WO2020067870A1 (en) * | 2018-09-28 | 2020-04-02 | Mimos Berhad | Method and system for providing a content list based on a search query |
CN110287466A (zh) * | 2019-06-24 | 2019-09-27 | 腾讯科技(深圳)有限公司 | 一种实体模板生成方法和装置 |
CN111368049A (zh) * | 2020-02-26 | 2020-07-03 | 京东方科技集团股份有限公司 | 信息获取方法、装置、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112231554A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN112231554B (zh) | 一种搜索推荐词生成方法、装置、存储介质和计算机设备 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN111026861B (zh) | 文本摘要的生成方法、训练方法、装置、设备及介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN111767385A (zh) | 一种智能问答方法及装置 | |
CN112100332A (zh) | 词嵌入表示学习方法及装置、文本召回方法及装置 | |
CN111563158B (zh) | 文本排序方法、排序装置、服务器和计算机可读存储介质 | |
CN112131430A (zh) | 视频聚类方法、装置、存储介质和电子设备 | |
CN110737774A (zh) | 图书知识图谱的构建、图书推荐方法、装置、设备及介质 | |
CN111552773A (zh) | 一种阅读理解任务中是否类问题关键句寻找方法及系统 | |
CN116862166A (zh) | 一种岗位匹配方法、装置、设备及计算机存储介质 | |
CN111291564B (zh) | 一种用于词向量获取的模型训练方法、装置和存储介质 | |
CN117194743A (zh) | 渐进式学习资源推荐方法、装置、存储介质及计算机设备 | |
CN111223014B (zh) | 一种从大量细分教学内容在线生成细分场景教学课程的方法和系统 | |
US20230153335A1 (en) | Searchable data structure for electronic documents | |
CN115640403A (zh) | 基于知识图谱的知识管控方法及装置 | |
CN115510326A (zh) | 基于文本特征和情感倾向的网络论坛用户兴趣推荐算法 | |
CN111767726B (zh) | 数据处理方法及装置 | |
CN115130453A (zh) | 互动信息生成方法和装置 | |
CN116226320A (zh) | 一种预测下文信息的方法、装置、电子设备及存储介质 | |
CN113821669A (zh) | 搜索方法、装置、电子设备和存储介质 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN113407776A (zh) | 标签推荐方法、装置、标签推荐模型的训练方法和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40037488 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |