CN112667779B - 一种信息查询方法、装置、电子设备及存储介质 - Google Patents

一种信息查询方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112667779B
CN112667779B CN202011625112.8A CN202011625112A CN112667779B CN 112667779 B CN112667779 B CN 112667779B CN 202011625112 A CN202011625112 A CN 202011625112A CN 112667779 B CN112667779 B CN 112667779B
Authority
CN
China
Prior art keywords
text
category
target text
word
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011625112.8A
Other languages
English (en)
Other versions
CN112667779A (zh
Inventor
蔡英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202011625112.8A priority Critical patent/CN112667779B/zh
Publication of CN112667779A publication Critical patent/CN112667779A/zh
Application granted granted Critical
Publication of CN112667779B publication Critical patent/CN112667779B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种信息查询方法、装置、电子设备及存储介质,所述方法包括:获取目标文本;将目标文本输入上下文特征提取模型,获得目标文本包括的每个字符的上下文特征;基于目标文本包括的每个字符的上下文特征及分类模型,确定所述目标文本对应的类别;基于目标文本对应的类别及预设的类别与权重的对应关系,确定目标文本对应的权重;根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果。对待查询文本及描述文本均进行上下文特征的提取,根据目标文本对应的类别及权重,确定待查询文本对应的查询结果时,可以充分考虑各类别的词语在待查询文本和描述文本中的重要程度,得到更加准确的查询结果。

Description

一种信息查询方法、装置、电子设备及存储介质
技术领域
本发明涉及信息处理技术领域,特别是涉及一种信息查询方法、装置、电子设备及存储介质。
背景技术
在内容信息增长迅速的互联网时代,如何快速且准确的从海量数据中为用户提供其所查询的查询结果成为搜索引擎的核心问题。内容相关性作为衡量查询结果好坏的重要标准,一直是搜索引擎优化的重要部分。
目前的信息查询方式中,首先将用户提供的查询文本进行分词处理,得到词语,然后根据每个词语的类别确定其对应的权重,进而根据该权重从预先获取的大量待匹配结果的描述信息中查找与这些词语匹配的描述信息,进而将匹配到的描述信息对应的待匹配结果确定为查询结果。
在上述信息查询方式中,待匹配结果的描述信息是预先划分好的词语,根据查询文本对应的权重匹配描述信息时,优先匹配权重高的词语,但是该权重高的词语在描述信息中并不一定是主要的信息,这样就会导致查询结果不准确。
发明内容
本发明实施例的目的在于提供一种信息查询方法、装置、电子设备及存储介质,以提高用户查询结果的准确性。具体技术方案如下:
第一方面,本发明实施例提供了一种信息查询方法,所述方法包括:
获取目标文本,其中,所述目标文本包括待查询文本及多个待匹配结果的描述文本;
将所述目标文本输入上下文特征提取模型,获得所述目标文本包括的每个字符的上下文特征,其中,所述上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型;
基于所述目标文本包括的每个字符的上下文特征及分类模型,确定所述目标文本对应的类别,其中,所述分类模型为预先训练的用于确定文本中字符的类别的模型;
基于所述目标文本对应的类别及预设的类别与权重的对应关系,确定所述目标文本对应的权重;
根据所述目标文本对应的类别及权重,从所述多个待匹配结果中确定所述待查询文本对应的查询结果。
可选的,所述基于所述目标文本包括的每个字符的上下文特征及分类模型,确定所述目标文本对应的类别的步骤,包括:
将所述目标文本包括的每个字符及其上下文特征输入分类模型,确定所述目标文本包括的每个字符的类别;
基于所述目标文本包括的每个字符的类别及预设分类规则,确定所述目标文本包括的每个词语的类别。
可选的,所述基于所述目标文本包括的每个字符的类别及预设分类规则,确定所述目标文本包括的每个词语的类别的步骤,包括:
将所述目标文本包括的每个词语的第一个字符的类别,确定为该词语的类别,或,
根据所述目标文本包括的每个词语所包括的各字符的类别以及预设评分规则,确定所述每个词语的类别。
可选的,所述词语为预设的事件和/或短语对应的词语。
可选的,所述类别包括核心词、次核心词以及冗余词;
所述根据所述目标文本对应的类别及权重,从所述多个待匹配结果中确定所述待查询文本对应的查询结果的步骤,包括:
将所述描述文本对应的类别为核心词的词语与所述待查询文本对应的类别为核心词的词语相匹配的描述文本对应的待匹配结果,确定为备选结果;
根据所述备选结果对应的描述文本所包括的词语对应的权重向量,与所述待查询文本所包括的词语对应的权重向量,从所述备选结果中确定所述待查询文本对应的查询结果。
可选的,在所述将所述目标文本输入上下文特征提取模型,获得所述目标文本包括的每个字符的上下文特征的步骤之前,所述方法还包括:
对所述目标文本包括的每个字符进行标准化处理,得到标准格式的字符。
可选的,在所述基于所述目标文本对应的类别及预设的类别与权重的对应关系,确定所述目标文本对应的权重的步骤之前,所述方法还包括:
基于预设的后处理规则,对所述目标文本对应的类别进行校正,得到矫正后的目标文本对应的类别。
可选的,所述上下文特征提取模型及所述分类模型的训练方式,包括:
获取文本样本,其中,所述文本样本包括待查询文本样本及多个待匹配结果的描述文本样本;
通过远程监督方式标记每个文本样本所包括的词语的类别,作为标记类别;
将所述每个文本样本输入预设的初始上下文特征提取模型,获得所述每个文本样本包括的每个字符的上下文特征;
基于所述每个文本样本包括的每个字符的上下文特征及预设的初始分类模型,确定所述每个文本样本所包括的词语的类别,作为预测类别;
根据所述每个文本样本对应的预测类别与标记类别的差异,调整所述初始上下文特征提取模型及所述初始分类模型的参数,直到所述初始上下文特征提取模型及所述初始分类模型收敛,停止训练,得到所述上下文特征提取模型及所述分类模型。
第二方面,本发明实施例提供了一种信息查询装置,所述装置包括:
目标文本获取模块,用于获取目标文本,其中,所述目标文本包括待查询文本及多个待匹配结果的描述文本;
上下文特征提取模块,用于将所述目标文本输入上下文特征提取模型,获得所述目标文本包括的每个字符的上下文特征,其中,所述上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型;
类别确定模块,用于基于所述目标文本包括的每个字符的上下文特征及分类模型,确定所述目标文本对应的类别,其中,所述分类模型为预先训练的用于确定文本中字符的类别的模型;
权重确定模块,用于基于所述目标文本对应的类别及预设的类别与权重的对应关系,确定所述目标文本对应的权重;
查询结果确定模块,用于根据所述目标文本对应的类别及权重,从所述多个待匹配结果中确定所述待查询文本对应的查询结果。
可选的,所述类别确定模块包括:
第一类别确定单元,用于将所述目标文本包括的每个字符及其上下文特征输入分类模型,确定所述目标文本包括的每个字符的类别;
第二类别确定单元,用于基于所述目标文本包括的每个字符的类别及预设分类规则,确定所述目标文本包括的每个词语的类别。
可选的,所述第二类别确定单元包括:
类别确定子单元,用于将所述目标文本包括的每个词语的第一个字符的类别,确定为该词语的类别,或,用于根据所述目标文本包括的每个词语所包括的各字符的类别以及预设评分规则,确定所述每个词语的类别。
可选的,所述词语为预设的事件和/或短语对应的词语。
可选的,所述类别包括核心词、次核心词以及冗余词;
所述查询结果确定模块包括:
备选结果确定单元,用于将所述描述文本对应的类别为核心词的词语与所述待查询文本对应的类别为核心词的词语相匹配的描述文本对应的待匹配结果,确定为备选结果;
查询结果确定单元,用于根据所述备选结果对应的描述文本所包括的词语对应的权重向量,与所述待查询文本所包括的词语对应的权重向量,从所述备选结果中确定所述待查询文本对应的查询结果。
可选的,所述装置还包括:
标准化处理模块,用于在所述将所述目标文本输入上下文特征提取模型,获得所述目标文本包括的每个字符的上下文特征之前,对所述目标文本包括的每个字符进行标准化处理,得到标准格式的字符。
可选的,所述装置还包括:
类别校正模块,用于在所述基于所述目标文本对应的类别及预设的类别与权重的对应关系,确定所述目标文本对应的权重之前,基于预设的后处理规则,对所述目标文本对应的类别进行校正,得到矫正后的目标文本对应的类别。
可选的,所述装置还包括模型训练模块,用于训练得到所述上下文特征提取模型及所述分类模型;所述模型训练模块包括:
文本样本获取单元,用于获取文本样本,其中,所述文本样本包括待查询文本样本及多个待匹配结果的描述文本样本;
类别标记单元,用于通过远程监督方式标记每个文本样本所包括的词语的类别,作为标记类别;
上下文特征提取单元,用于将所述每个文本样本输入预设的初始上下文特征提取模型,获得所述每个文本样本包括的每个字符的上下文特征;
类别预测单元,用于基于所述每个文本样本包括的每个字符的上下文特征及预设的初始分类模型,确定所述每个文本样本所包括的词语的类别,作为预测类别;
参数调整单元,用于根据所述每个文本样本对应的预测类别与标记类别的差异,调整所述初始上下文特征提取模型及所述初始分类模型的参数,直到所述初始上下文特征提取模型及所述初始分类模型收敛,停止训练,得到所述上下文特征提取模型及所述分类模型。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面任一所述的方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面任一所述的方法步骤。
本发明实施例提供的方案中,电子设备可以获取目标文本,其中,目标文本包括待查询文本及多个待匹配结果的描述文本,将目标文本输入上下文特征提取模型,获得目标文本包括的每个字符的上下文特征,其中,上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型,基于目标文本包括的每个字符的上下文特征及分类模型,确定目标文本对应的类别,其中,分类模型为预先训练的用于确定文本中字符的类别的模型,基于目标文本对应的类别及预设的类别与权重的对应关系,确定目标文本对应的权重,根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果。
由于电子设备对待查询文本及多个待匹配结果的描述文本均进行上下文特征的提取,进而根据上下文特征和文本中字符的类别,确定待查询文本及多个待匹配结果的描述文本对应的权重,待查询文本对应的权重可以体现其包括的各类别的词语的重要程度,描述文本对应的权重可以体现其包括的各类别的词语的重要程度,这样,根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果时,可以充分考虑各类别的词语在待查询文本和描述文本中的重要程度,得到更加准确的查询结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例所提供的一种信息查询方法的流程图;
图2为图1所示实施例中步骤S103的一种具体流程图;
图3为基于图2所示实施例的分类模型确定字符类别方式的一种示意图;
图4为图1所示实施例中步骤S105的一种具体流程图;
图5为基于图1所示实施例的标准化处理方式的一种示意图;
图6为基于图1所示实施例的上下文特征提取模型及分类模型的训练方式的一种流程图;
图7为本发明实施例所提供的一种信息查询装置的结构示意图;
图8为图7所示实施例中类别确定模块730的一种具体结构示意图;
图9为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
为了提高用户查询结果的准确性,本发明实施例提供了一种信息查询方法、装置、电子设备、计算机可读存储介质及计算机程序产品。下面对本发明实施例提供的一种信息查询方法进行介绍。
本发明实施例提供的一种信息查询方法可以应用于任意需要查询信息的电子设备,例如,可以为服务器、处理器、电脑等,在此不做具体限定。为了描述清楚,以下称为电子设备。
如图1所示,一种信息查询方法,所述方法包括:
S101,获取目标文本;
其中,所述目标文本包括待查询文本及多个待匹配结果的描述文本。
S102,将所述目标文本输入上下文特征提取模型,获得所述目标文本包括的每个字符的上下文特征;
其中,所述上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型。
S103,基于所述目标文本包括的每个字符的上下文特征及分类模型,确定所述目标文本对应的类别;
其中,所述分类模型为预先训练的用于确定文本中字符的类别的模型。
S104,基于所述目标文本对应的类别及预设的类别与权重的对应关系,确定所述目标文本对应的权重;
S105,根据所述目标文本对应的类别及权重,从所述多个待匹配结果中确定所述待查询文本对应的查询结果。
可见,本发明实施例提供的方案中,电子设备可以获取目标文本,其中,目标文本包括待查询文本及多个待匹配结果的描述文本,将目标文本输入上下文特征提取模型,获得目标文本包括的每个字符的上下文特征,其中,上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型,基于目标文本包括的每个字符的上下文特征及分类模型,确定目标文本对应的类别,其中,分类模型为预先训练的用于确定文本中字符的类别的模型,基于目标文本对应的类别及预设的类别与权重的对应关系,确定目标文本对应的权重,根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果。由于电子设备对待查询文本及多个待匹配结果的描述文本均进行上下文特征的提取,进而根据上下文特征和文本中字符的类别,确定待查询文本及多个待匹配结果的描述文本对应的权重,待查询文本对应的权重可以体现其包括的各类别的词语的重要程度,描述文本对应的权重可以体现其包括的各类别的词语的重要程度,这样,根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果时,可以充分考虑各类别的词语在待查询文本和描述文本中的重要程度,得到更加准确的查询结果。
当用户需要查询信息时,可以通过输入文本或者语音等方式提供所要查询的信息,当用户通过语音方式提供所要查询的信息时,电子设备可以将用户发出的语音转换为文本,作为待查询文本。
例如,用户想要查询电视剧XXX时,可以在电子设备显示的界面中的搜索框等位置输入“电视剧XXX”,电子设备便可以将“电视剧XXX”确定为待查询文本。
电子设备还可以获取多个待匹配结果的描述文本,其中,多个待匹配结果的描述文本为预先获取的各个待匹配结果的文本格式的描述信息。例如,可以为各电视剧的描述文本等。
接下来,电子设备便可以将目标文本输入上下文特征提取模型,获得目标文本包括的每个字符的上下文特征,也就是执行上述步骤S102。其中,目标文本包括上述待查询文本及描述文本。上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型,具体可以为albert模型等能够提取文本中字符的上下文特征的模型。
获得目标文本包括的每个字符的上下文特征后,电子设备可以执行上述步骤S103,即基于目标文本包括的每个字符的上下文特征及分类模型,确定目标文本对应的类别。由于上下文特征可以标识字符与其前后的字符在文本语义之间的联系,所以电子设备可以将每个字符及其上下文特征输入分类模型,其中,分类模型为预先训练的用于确定文本中字符的类别的模型,例如,可以为mlp模型等,其可以根据字符与其前后的字符在文本语义之间的联系确定该字符的类别。该类别用于标识字符的重要程度。
进而,电子设备便可以基于目标文本对应的类别及预设的类别与权重的对应关系,确定目标文本对应的权重。由于上述类别用于标识字符的重要程度,所以可以预先设置类别与权重的对应关系,类别所标识的重要程度越高,其对应的权重可以越高。
在上述步骤S105中,电子设备可以根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果。由于待查询文本对应的类别及权重标识了各个字符对于信息查询的重要程度,待匹配结果的描述文本对应的类别及权重标识了各个字符对于描述待匹配结果的内容的重要程度,所以电子设备可以目标文本对应的类别及权重,从多个待匹配结果中确定最为符合待查询文本的查询结果,查询结果的准确性得到提高。
同时,由于目标文本对应的权重是基于字符的上下文特征以及类别确定的,更多的从文本分析角度提取上下文特征,能够充分考虑上下文信息,可以解决长尾问题。传统的词权重问题多是针对用户查询的,没有统一的用户查询/doc词权重模型。另外,采用本发明实施例提供的方案,可以根据用户提供的待查询文本和待匹配结果的描述文本(例如,视频内容文本)在内容理解上的共同之处,构建统一的上下文特征提取模型和分类模型,充分利用待查询文本和待匹配结果的描述文本之间丰富的关联信息,提高查询结果的准确性。
作为本发明实施例的一种实施方式,如图2所示,上述基于所述目标文本包括的每个字符的上下文特征及分类模型,确定所述目标文本对应的类别的步骤,可以包括:
S201,将所述目标文本包括的每个字符及其上下文特征输入分类模型,确定所述目标文本包括的每个字符的类别;
电子设备获得目标文本包括的每个字符的上下文特征后,可以将目标文本包括的每个字符及其上下文特征输入分类模型,分类模型可以根据每个字符的上下文特征所标识的其与前后字符之间的语义联系,确定每个字符的类别。
例如,如图3所示,描述文本A包括字符E1、E2…En,其中,n为描述文本A包括的字符的数量。电子设备获得描述文本A包括字符E1、E2…En分别对应的上下文特征Tok1、Tok2…TokN后,可以将字符E1、E2…En及其上下文特征Tok1、Tok2…TokN输入分类模型,分类模型可以根据字符E1、E2…En及其上下文特征Tok1、Tok2…TokN所标识的该字符其与前后字符之间的语义联系,确定每个字符的类别并输出,即为T1、T2…TN。其中,[CLS]表示一个输入样本的开始,也就是描述文本A的开始,E[CLS]表示输入样本中[CLS]对应的字符,C表示分类模型输出的[CLS]对应的类别,具体可以为一个向量。
S202,基于所述目标文本包括的每个字符的类别及预设分类规则,确定所述目标文本包括的每个词语的类别。
确定了目标文本包括的每个字符的类别后,电子设备可以基于目标文本包括的每个字符的类别及预设分类规则,确定目标文本包括的每个词语的类别。电子设备可以基于预设分词规则对目标文本进行分词处理,得到目标文本包括的词语。
进而,便可以根据每个词语所包括的字符的类别,以及预设分类规则,确定目标文本包括的每个词语的类别。其中,预设分类规则可以根据信息查询业务的应用场景等因素设置,例如,可以将每个词语包括的最后一个字符的类别确定为该词语的类别。
可见,在本实施例中,电子设备可以将目标文本包括的每个字符及其上下文特征输入分类模型,确定目标文本包括的每个字符的类别,基于目标文本包括的每个字符的类别及预设分类规则,确定目标文本包括的每个词语的类别。这样,电子设备可以根据每个字符的上下文特征所标识的其与前后字符之间的语义联系,准确确定每个字符的类别,进而准确确定目标文本包括的每个词语的类别,进一步提高查询结果的准确性。
作为本发明实施例的一种实施方式,上述基于所述目标文本包括的每个字符的类别及预设分类规则,确定所述目标文本包括的每个词语的类别的步骤,可以包括:
将所述目标文本包括的每个词语的第一个字符的类别,确定为该词语的类别,或,根据所述目标文本包括的每个词语所包括的各字符的类别以及预设评分规则,确定所述每个词语的类别。
电子设备至少可以采用以下两种实施方式确定目标文本包括的每个词语的类别:
第一种实施方式中,电子设备可以将目标文本包括的每个词语的第一个字符的类别,确定为该词语的类别。例如,目标文本包括词语1、词语2及词语3,词语1、词语2及词语3分别包括3个字符、2个字符及4个字符,第一个字符的类别分别为类别a、类别b及类别a。那么电子设备可以确定词语1、词语2及词语3的类别分别为类别a、类别b及类别a。
第二种实施方式中,电子设备可以目标文本包括的每个词语所包括的各字符的类别以及预设评分规则,确定每个词语的类别。预设评分规则可以为:词语中包括字符的类别出现次数最多的作为该词语的类别等。
例如,目标文本包括词语1、词语2及词语3,词语1包括3个字符,该3个字符的类别分别为类别a、类别b及类别a。由于类别a出现2次,类别b出现1次,所以电子设备可以确定词语1的类别为类别a。
可见,在本实施例中,电子设备可以将目标文本包括的每个词语的第一个字符的类别,确定为该词语的类别,或,根据目标文本包括的每个词语所包括的各字符的类别以及预设评分规则,确定每个词语的类别,无轮采用哪一种方式,均可以根据每个词语包括的字符的类别准确确定每个词语的类别。
作为本发明实施例的一种实施方式,上述词语可以为预设的事件和/或短语对应的词语。也就是说,如果多个词语是一个事件或短语对应的词语,可以将多个词语作为一个词语,这样,可以保证不会将一个事件或者短语所包括的词语割裂开。
例如,待查询文本包括词语A、公开及B,其中,“A公开B”是网络中的一个热门事件,那么便可以将“A公开B”作为一个词语,进而确定其类别。并不是将其划分为没有关联的词语“A”、“公开”及“B”。
可见,在本实施例中,上述词语可以为预设的事件和/或短语对应的词语,这样,电子设备可以将预设的事件和/或短语所包括的词语作为一个词语,进而确定其类别,不会割裂这些词语之间的联系,进一步提高后续确定查询结果的准确性。
作为本发明实施例的一种实施方式,上述类别可以包括核心词、次核心词以及冗余词。其中,核心词即为重要程度最高的词语,其是对用户查询意图和查询结果的召回影响最大的词语,是用户查询的核心目标;次核心词即为重要程度次高的词语,是对核心词进行补充限定范围的词语,会对用户查询的核心含义产生一定影响;冗余词即为在待查询文本中无意义的词,对查询结果没有影响。
在这种情况下,如图4所示,上述根据所述目标文本对应的类别及权重,从所述多个待匹配结果中确定所述待查询文本对应的查询结果的步骤,可以包括:
S401,将所述描述文本对应的类别为核心词的词语与所述待查询文本对应的类别为核心词的词语相匹配的描述文本对应的待匹配结果,确定为备选结果;
由于核心词是重要程度最高的词语,其是对用户查询意图和查询结果的召回影响最大的词语,是用户查询的核心目标,所以首先电子设备可以从待匹配结果对应的描述文本中,查找对应的类别为核心词的词语与待查询文本对应的类别为核心词的词语相匹配的描述文本,将其对应的待匹配结果确定为备选结果。
例如,待查询文本对应的类别为核心词的词语为“歌曲M”,那么电子设备可以从描述文本中,查找对应的类别为核心词的词语也是“歌曲M”的描述文本,进而将该描述文本对应的待匹配结果确定为备选结果。
S402,根据所述备选结果对应的描述文本所包括的词语对应的权重向量,与所述待查询文本所包括的词语对应的权重向量,从所述备选结果中确定所述待查询文本对应的查询结果。
备选结果一般为多个,为了确定最为符合用户查询意图的查询结果,电子设备可以根据备选结果对应的描述文本所包括的词语对应的权重向量,与待查询文本所包括的词语对应的权重向量,从备选结果中确定待查询文本对应的查询结果。
具体来说,电子设备可以根据备选结果对应的描述文本所包括的词语对应的权重向量,与待查询文本所包括的词语对应的权重向量之间距离,确定待查询文本对应的查询结果。距离越近说明描述文本与待查询文本的相似度的越高,匹配度越高,更加符合用户查询意图。
其中,描述文本所包括的词语对应的权重向量即为描述文本所包括的词语对应的权重所组成的向量,同样的,待查询文本所包括的词语对应的权重向量即为待查询文本所包括的词语对应的权重所组成的向量。
例如,描述文本7所包括的4个词语的类别分别为核心词、核心词、次核心词及冗余词,预设的类别与权重的对应关系如下表所示:
核心词 1.301
次核心词 1.001
冗余词 0.700
那么基于上表,电子设备可以确定描述文本7所对应的权重向量为(1.301,1.301,1.001,0.700)。
在一种实施方式中,电子设备可以从备选结果中确定最为符合用户查询以图的备选结果,作为查询结果。在另一种实施方式中,电子设备可以根据备选结果对应的描述文本所包括的词语对应的权重向量,与待查询文本所包括的词语对应的权重向量之间的距离,对备选结果进行排序,为用户提供查询结果列表,在该列表中,可以将备选结果按照匹配程度显示,以供用户选择,这都是合理的。
可见,在本实施例中,电子设备可以将描述文本对应的类别为核心词的词语与待查询文本对应的类别为核心词的词语相匹配的描述文本对应的待匹配结果,确定为备选结果,进而根据备选结果对应的描述文本所包括的词语对应的权重向量,与待查询文本所包括的词语对应的权重向量,从备选结果中确定待查询文本对应的查询结果,这样,可以准确确定符合用户查询意图的查询结果。
作为本发明实施例的一种实施方式,在上述将所述目标文本输入上下文特征提取模型,获得所述目标文本包括的每个字符的上下文特征的步骤之前,上述方法还可以包括:
对所述目标文本包括的每个字符进行标准化处理,得到标准格式的字符。
为了便于上下文提取模型对目标文本进行处理,电子设备可以对目标文本包括的每个字符进行标准化处理,得到标准格式的字符,具体标准化处理的方式可以采用任意模型输入数据的标准化处理方式,再次不做具体限定。
例如,如图5所示,目标文本为“my dog is cute,he likes playing”,电子设备获取该目标文本后,可以对其进行标准化处理,得到标准格式的字符。一般上下文提取模型输入的编码向量是3个嵌入特征的单位和,这三个嵌入特征分别是:WordPiece嵌入(TokenEmbedding)、位置嵌入(Position Embedding)、分割嵌入(Segment Embedding)。WordPiece是指将单词划分成一组有限的公共子词单元,能在单词的有效性和字符的灵活性之间取得一个折中的平衡。例如,目标文本中的playing被拆分成了play和ing。位置嵌入是指将单词的位置信息编码成特征向量,位置嵌入是向上下文提取模型中引入单词位置关系的至关重要的一环。分割嵌入用于区分两个文本是否为上下文关系,例如,区分B是否是A的下文(对话场景,问答场景等)。根据这3个嵌入特征便可以确定目标文本对应的标准格式的字符,即图5中Input对应的字符[CLS]、my、dog…[SEP]。
可见,在本实施例中,在将目标文本输入上下文特征提取模型,获得目标文本包括的每个字符的上下文特征之前,电子设备可以对目标文本包括的每个字符进行标准化处理,得到标准格式的字符,这样,可以方便特征提取模型对目标文本进行处理,得到准确的上下文特征。
作为本发明实施例的一种实施方式,在上述基于所述目标文本对应的类别及预设的类别与权重的对应关系,确定所述目标文本对应的权重的步骤之前,上述方法还可以包括:
基于预设的后处理规则,对所述目标文本对应的类别进行校正,得到矫正后的目标文本对应的类别。
由于分类模型确定的目标文本对应的类别可能存在误差,为了保证类别确定结果的准确性,电子设备可以基于预设的后处理规则,对目标文本对应的类别进行校正,进而得到矫正后的目标文本对应的类别。
其中,预设的后处理规则可以根据查询业务的应用场景等因素进行设置,在此不做具体限定。在一种实施方式中,对于视频查询业务来说,预设的后处理规则可以为:单个字符的类别为冗余词;剧名为核心词;目标文本中有人名无剧名,则人名为核心词;目标文本中有人名又有剧名,则人名为次核心词。
可见,在本实施例中,在基于目标文本对应的类别及预设的类别与权重的对应关系,确定目标文本对应的权重之前,电子设备可以基于预设的后处理规则,对目标文本对应的类别进行校正,得到矫正后的目标文本对应的类别,这样可以消除分类模型的误差的影响,进一步保证后续得到的查询结果的准确性。
作为本发明实施例的一种实施方式,如图6所示,上述上下文特征提取模型及所述分类模型的训练方式,可以包括:
S601,获取文本样本;
为了使训练得到的上下文特征提取模型及分类模型能够适用于用户提供的待查询文本,也能适用于待匹配结果的描述文本,所以文本样本可以包括待查询文本样本及多个待匹配结果的描述文本样本。
S602,通过远程监督方式标记每个文本样本所包括的词语的类别,作为标记类别;
为了提高标记效率,可以通过远程监督方式标记每个文本样本所包括的词语的类别,具体来说,可以人工标记一部分文本样本,然后由远程监督标记模型对人工标记的文本样本进行学习,进而达到无需人工进行全部标记的目的。可以基于对文本样本的分词结果,利用意图识别结果、实体识别结果、词性以及人工标记的文本样本等信息,训练优化远程监督标记模型。
其中,词语的类别可以包括核心词、次核心词及冗余词,核心词、次核心词及冗余词与用户查询以图的相关程度递减。例如,电影名、综艺名、电视剧名、动漫名、音乐名、明星名等的类别可以为核心词;集、季、期等信息、语言版本、时间版本、大结局、花絮、地区版本、同IP下的版本需求等可以为次核心词;“延禧攻略电视剧”中的“电视剧”为冗余词。
又例如,文本样本“网红炒饭小哥精准回手掏”的标记结果可以为:“网红”,冗余词;“炒饭”,核心词;“小哥”,核心词;“精准”,冗余词;“回手”,次核心词;“掏”次核心词。
S603,将所述每个文本样本输入预设的初始上下文特征提取模型,获得所述每个文本样本包括的每个字符的上下文特征;
接下来,可以将每个文本样本输入预设的初始上下文特征提取模型,该初始上下文特征提取模型会基于当前的参数对每个文本样本进行上下文特征的提取,进而输出每个文本样本包括的每个字符的上下文特征。
S604,基于所述每个文本样本包括的每个字符的上下文特征及预设的初始分类模型,确定所述每个文本样本所包括的词语的类别,作为预测类别;
得到每个文本样本包括的每个字符的上下文特征后,电子设备可以将每个文本样本包括的每个字符及其上下文特征输入预设的初始分类模型,该初始分类模型会基于当前的参数根据每个字符的上下文特征确定每个字符的类别,进而输出每个文本样本包括的每个字符的类别。
进而,可以根据每个字符的类别确定每个文本样本所包括的词语的类别。根据每个字符的类别确定每个文本样本所包括的词语的类别的具体方式与上述根据每个字符的类别确定每个目标文本所包括的词语的类别的方式相同,在此不再赘述。
S605,根据所述每个文本样本对应的预测类别与标记类别的差异,调整所述初始上下文特征提取模型及所述初始分类模型的参数,直到所述初始上下文特征提取模型及所述初始分类模型收敛,停止训练,得到所述上下文特征提取模型及所述分类模型。
由于当前的初始上下文特征提取模型还不能准确地提取每个字符的上下文特征,当前的初始分类模型也还不能准确的确定每个字符的类别,所以初始分类模型输出的类别与标记的类别是存在一定差异的,可以根据每个文本样本对应的预测类别与标记类别的差异,不断调整初始上下文特征提取模型及初始分类模型的参数。其中,可以采用梯度下降算法、随机梯度下降算法等调整初始上下文特征提取模型及初始分类模型的参数,在此不做具体限定。
在不断调整初始上下文特征提取模型及初始分类模型的参数的过程中,初始上下文特征提取模型及初始分类模型可以分别学习文本样本与上下文特征之间的对应关系,以及字符的上下文特征与字符的类别之间的对应关系。
当迭代次数达到一定次数,或者初始上下文特征提取模型及初始分类模型的损失函数收敛时,此时的初始上下文特征提取模型已经可以准确提取每个字符的上下文特征,当前的初始分类模型也已经可以准确的确定每个字符的类别,那么此时便可以停止训练,也就可以得到上下文特征提取模型及分类模型。
可见,在本实施例中,电子设备可以通过上述训练方式得到上下文特征提取模型及分类模型,可以准确提取每个目标文本包括的每个字符的上下文特征,以及可以准确确定每个目标文本包括的每个字符的类别,保证后续确定的查询结果的准确性。
相应于上述信息查询方法,本发明实施例还提供了一种信息查询装置。下面对本发明实施例所提供的一种信息查询装置进行介绍。
如图7所示,一种信息查询装置,其特征在于,所述装置包括:
目标文本获取模块710,用于获取目标文本;
其中,所述目标文本包括待查询文本及多个待匹配结果的描述文本。
上下文特征提取模块720,用于将所述目标文本输入上下文特征提取模型,获得所述目标文本包括的每个字符的上下文特征;
其中,所述上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型。
类别确定模块730,用于基于所述目标文本包括的每个字符的上下文特征及分类模型,确定所述目标文本对应的类别;
其中,所述分类模型为预先训练的用于确定文本中字符的类别的模型。
权重确定模块740,用于基于所述目标文本对应的类别及预设的类别与权重的对应关系,确定所述目标文本对应的权重;
查询结果确定模块750,用于根据所述目标文本对应的类别及权重,从所述多个待匹配结果中确定所述待查询文本对应的查询结果。
可见,本发明实施例提供的方案中,电子设备可以获取目标文本,其中,目标文本包括待查询文本及多个待匹配结果的描述文本,将目标文本输入上下文特征提取模型,获得目标文本包括的每个字符的上下文特征,其中,上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型,基于目标文本包括的每个字符的上下文特征及分类模型,确定目标文本对应的类别,其中,分类模型为预先训练的用于确定文本中字符的类别的模型,基于目标文本对应的类别及预设的类别与权重的对应关系,确定目标文本对应的权重,根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果。由于电子设备对待查询文本及多个待匹配结果的描述文本均进行上下文特征的提取,进而根据上下文特征和文本中字符的类别,确定待查询文本及多个待匹配结果的描述文本对应的权重,待查询文本对应的权重可以体现其包括的各类别的词语的重要程度,描述文本对应的权重可以体现其包括的各类别的词语的重要程度,这样,根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果时,可以充分考虑各类别的词语在待查询文本和描述文本中的重要程度,得到更加准确的查询结果。
作为本发明实施例的一种实施方式,如图8所示,上述类别确定模块730可以包括:
第一类别确定单元731,用于将所述目标文本包括的每个字符及其上下文特征输入分类模型,确定所述目标文本包括的每个字符的类别;
第二类别确定单元732,用于基于所述目标文本包括的每个字符的类别及预设分类规则,确定所述目标文本包括的每个词语的类别。
作为本发明实施例的一种实施方式,上述第二类别确定单元732可以包括:
类别确定子单元,用于将所述目标文本包括的每个词语的第一个字符的类别,确定为该词语的类别,或,用于根据所述目标文本包括的每个词语所包括的各字符的类别以及预设评分规则,确定所述每个词语的类别。
作为本发明实施例的一种实施方式,上述词语可以为预设的事件和/或短语对应的词语。
作为本发明实施例的一种实施方式,上述类别可以包括核心词、次核心词以及冗余词;
上述查询结果确定模块750可以包括:
备选结果确定单元,用于将所述描述文本对应的类别为核心词的词语与所述待查询文本对应的类别为核心词的词语相匹配的描述文本对应的待匹配结果,确定为备选结果;
查询结果确定单元,用于根据所述备选结果对应的描述文本所包括的词语对应的权重向量,与所述待查询文本所包括的词语对应的权重向量,从所述备选结果中确定所述待查询文本对应的查询结果。
作为本发明实施例的一种实施方式,上述装置还可以包括:
标准化处理模块,用于在所述将所述目标文本输入上下文特征提取模型,获得所述目标文本包括的每个字符的上下文特征之前,对所述目标文本包括的每个字符进行标准化处理,得到标准格式的字符。
作为本发明实施例的一种实施方式,上述装置还可以包括:
类别校正模块,用于在所述基于所述目标文本对应的类别及预设的类别与权重的对应关系,确定所述目标文本对应的权重之前,基于预设的后处理规则,对所述目标文本对应的类别进行校正,得到矫正后的目标文本对应的类别。
作为本发明实施例的一种实施方式,上述装置还可以包括模型训练模块,用于训练得到所述上下文特征提取模型及所述分类模型;所述模型训练模块可以包括:
文本样本获取单元,用于获取文本样本;
其中,所述文本样本包括待查询文本样本及多个待匹配结果的描述文本样本。
类别标记单元,用于通过远程监督方式标记每个文本样本所包括的词语的类别,作为标记类别;
上下文特征提取单元,用于将所述每个文本样本输入预设的初始上下文特征提取模型,获得所述每个文本样本包括的每个字符的上下文特征;
类别预测单元,用于基于所述每个文本样本包括的每个字符的上下文特征及预设的初始分类模型,确定所述每个文本样本所包括的词语的类别,作为预测类别;
参数调整单元,用于根据所述每个文本样本对应的预测类别与标记类别的差异,调整所述初始上下文特征提取模型及所述初始分类模型的参数,直到所述初始上下文特征提取模型及所述初始分类模型收敛,停止训练,得到所述上下文特征提取模型及所述分类模型。
本发明实施例还提供了一种电子设备,如图9所示,包括处理器901、通信接口902、存储器903和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信,
存储器903,用于存放计算机程序;
处理器901,用于执行存储器903上所存放的程序时,实现上述任一实施例所述的信息查询方法步骤。
可见,本发明实施例提供的方案中,电子设备可以获取目标文本,其中,目标文本包括待查询文本及多个待匹配结果的描述文本,将目标文本输入上下文特征提取模型,获得目标文本包括的每个字符的上下文特征,其中,上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型,基于目标文本包括的每个字符的上下文特征及分类模型,确定目标文本对应的类别,其中,分类模型为预先训练的用于确定文本中字符的类别的模型,基于目标文本对应的类别及预设的类别与权重的对应关系,确定目标文本对应的权重,根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果。由于电子设备对待查询文本及多个待匹配结果的描述文本均进行上下文特征的提取,进而根据上下文特征和文本中字符的类别,确定待查询文本及多个待匹配结果的描述文本对应的权重,待查询文本对应的权重可以体现其包括的各类别的词语的重要程度,描述文本对应的权重可以体现其包括的各类别的词语的重要程度,这样,根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果时,可以充分考虑各类别的词语在待查询文本和描述文本中的重要程度,得到更加准确的查询结果。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一实施例所述的信息查询方法步骤。
可见,本发明实施例提供的方案中,计算机可读存储介质中存储的指令在计算机上运行时可以获取目标文本,其中,目标文本包括待查询文本及多个待匹配结果的描述文本,将目标文本输入上下文特征提取模型,获得目标文本包括的每个字符的上下文特征,其中,上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型,基于目标文本包括的每个字符的上下文特征及分类模型,确定目标文本对应的类别,其中,分类模型为预先训练的用于确定文本中字符的类别的模型,基于目标文本对应的类别及预设的类别与权重的对应关系,确定目标文本对应的权重,根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果。由于电子设备对待查询文本及多个待匹配结果的描述文本均进行上下文特征的提取,进而根据上下文特征和文本中字符的类别,确定待查询文本及多个待匹配结果的描述文本对应的权重,待查询文本对应的权重可以体现其包括的各类别的词语的重要程度,描述文本对应的权重可以体现其包括的各类别的词语的重要程度,这样,根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果时,可以充分考虑各类别的词语在待查询文本和描述文本中的重要程度,得到更加准确的查询结果。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一实施例所述的信息查询方法步骤。
可见,本发明实施例提供的方案中,计算机程序产品在计算机上运行时可以获取目标文本,其中,目标文本包括待查询文本及多个待匹配结果的描述文本,将目标文本输入上下文特征提取模型,获得目标文本包括的每个字符的上下文特征,其中,上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型,基于目标文本包括的每个字符的上下文特征及分类模型,确定目标文本对应的类别,其中,分类模型为预先训练的用于确定文本中字符的类别的模型,基于目标文本对应的类别及预设的类别与权重的对应关系,确定目标文本对应的权重,根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果。由于电子设备对待查询文本及多个待匹配结果的描述文本均进行上下文特征的提取,进而根据上下文特征和文本中字符的类别,确定待查询文本及多个待匹配结果的描述文本对应的权重,待查询文本对应的权重可以体现其包括的各类别的词语的重要程度,描述文本对应的权重可以体现其包括的各类别的词语的重要程度,这样,根据目标文本对应的类别及权重,从多个待匹配结果中确定待查询文本对应的查询结果时,可以充分考虑各类别的词语在待查询文本和描述文本中的重要程度,得到更加准确的查询结果。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备、计算机可读存储介质及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (9)

1.一种信息查询方法,其特征在于,所述方法包括:
获取目标文本,其中,所述目标文本包括待查询文本及多个待匹配结果的描述文本;
将所述目标文本输入上下文特征提取模型,获得所述目标文本包括的每个字符的上下文特征,其中,所述上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型;
将所述目标文本包括的每个字符及其上下文特征输入分类模型,确定所述目标文本包括的每个字符的类别;基于所述目标文本包括的每个字符的类别及预设分类规则,确定所述目标文本包括的每个词语的类别,作为所述目标文本对应的类别,其中,所述分类模型为预先训练的用于确定文本中字符的类别的模型,所述类别包括核心词、次核心词以及冗余词;
基于所述目标文本对应的类别及预设的类别与权重的对应关系,确定所述目标文本对应的权重;
将所述描述文本对应的类别为核心词的词语与所述待查询文本对应的类别为核心词的词语相匹配的描述文本对应的待匹配结果,确定为备选结果;
根据所述备选结果对应的描述文本所包括的词语对应的权重向量,与所述待查询文本所包括的词语对应的权重向量,从所述备选结果中确定所述待查询文本对应的查询结果。
2.如权利要求1所述的方法,其特征在于,所述基于所述目标文本包括的每个字符的类别及预设分类规则,确定所述目标文本包括的每个词语的类别的步骤,包括:
将所述目标文本包括的每个词语的第一个字符的类别,确定为该词语的类别,或,
根据所述目标文本包括的每个词语所包括的各字符的类别以及预设评分规则,确定所述每个词语的类别。
3.如权利要求2所述的方法,其特征在于,所述词语为预设的事件和/或短语对应的词语。
4.如权利要求1-3任一项所述的方法,其特征在于,在所述将所述目标文本输入上下文特征提取模型,获得所述目标文本包括的每个字符的上下文特征的步骤之前,所述方法还包括:
对所述目标文本包括的每个字符进行标准化处理,得到标准格式的字符。
5.如权利要求1-3任一项所述的方法,其特征在于,在所述基于所述目标文本对应的类别及预设的类别与权重的对应关系,确定所述目标文本对应的权重的步骤之前,所述方法还包括:
基于预设的后处理规则,对所述目标文本对应的类别进行校正,得到矫正后的目标文本对应的类别。
6.如权利要求1-3任一项所述的方法,其特征在于,所述上下文特征提取模型及所述分类模型的训练方式,包括:
获取文本样本,其中,所述文本样本包括待查询文本样本及多个待匹配结果的描述文本样本;
通过远程监督方式标记每个文本样本所包括的词语的类别,作为标记类别;
将所述每个文本样本输入预设的初始上下文特征提取模型,获得所述每个文本样本包括的每个字符的上下文特征;
基于所述每个文本样本包括的每个字符的上下文特征及预设的初始分类模型,确定所述每个文本样本所包括的词语的类别,作为预测类别;
根据所述每个文本样本对应的预测类别与标记类别的差异,调整所述初始上下文特征提取模型及所述初始分类模型的参数,直到所述初始上下文特征提取模型及所述初始分类模型收敛,停止训练,得到所述上下文特征提取模型及所述分类模型。
7.一种信息查询装置,其特征在于,所述装置包括:
目标文本获取模块,用于获取目标文本,其中,所述目标文本包括待查询文本及多个待匹配结果的描述文本;
上下文特征提取模块,用于将所述目标文本输入上下文特征提取模型,获得所述目标文本包括的每个字符的上下文特征,其中,所述上下文特征提取模型为预先训练的用于提取文本中字符的上下文特征的模型;
类别确定模块,用于将所述目标文本包括的每个字符及其上下文特征输入分类模型,确定所述目标文本包括的每个字符的类别;基于所述目标文本包括的每个字符的类别及预设分类规则,确定所述目标文本包括的每个词语的类别,作为所述目标文本对应的类别,其中,所述分类模型为预先训练的用于确定文本中字符的类别的模型,所述类别包括核心词、次核心词以及冗余词;
权重确定模块,用于基于所述目标文本对应的类别及预设的类别与权重的对应关系,确定所述目标文本对应的权重;
查询结果确定模块,用于将所述描述文本对应的类别为核心词的词语与所述待查询文本对应的类别为核心词的词语相匹配的描述文本对应的待匹配结果,确定为备选结果;根据所述备选结果对应的描述文本所包括的词语对应的权重向量,与所述待查询文本所包括的词语对应的权重向量,从所述备选结果中确定所述待查询文本对应的查询结果。
8.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN202011625112.8A 2020-12-30 2020-12-30 一种信息查询方法、装置、电子设备及存储介质 Active CN112667779B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011625112.8A CN112667779B (zh) 2020-12-30 2020-12-30 一种信息查询方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011625112.8A CN112667779B (zh) 2020-12-30 2020-12-30 一种信息查询方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112667779A CN112667779A (zh) 2021-04-16
CN112667779B true CN112667779B (zh) 2023-09-05

Family

ID=75412378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011625112.8A Active CN112667779B (zh) 2020-12-30 2020-12-30 一种信息查询方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112667779B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970551A (zh) * 2022-07-27 2022-08-30 阿里巴巴达摩院(杭州)科技有限公司 文本处理方法、装置和电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957828A (zh) * 2009-07-20 2011-01-26 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
US8145636B1 (en) * 2009-03-13 2012-03-27 Google Inc. Classifying text into hierarchical categories
JP2013101416A (ja) * 2010-02-26 2013-05-23 Language Craft Kenkyusho:Kk 検索装置、検索方法、および、検索装置用のプログラム
US9229974B1 (en) * 2012-06-01 2016-01-05 Google Inc. Classifying queries
CN109800346A (zh) * 2019-01-11 2019-05-24 金蝶软件(中国)有限公司 文本匹配方法、装置、计算机设备和存储介质
CN109902154A (zh) * 2018-11-30 2019-06-18 华为技术有限公司 信息处理方法、装置、服务设备及计算机可读存储介质
CN110019676A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种在查询信息中识别核心词的方法、装置和设备
CN110134949A (zh) * 2019-04-26 2019-08-16 网宿科技股份有限公司 一种基于教师监督的文本标注方法和设备
CN110377744A (zh) * 2019-07-26 2019-10-25 北京香侬慧语科技有限责任公司 一种舆情分类的方法、装置、存储介质及电子设备
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN111539207A (zh) * 2020-04-29 2020-08-14 北京大米未来科技有限公司 文本识别方法、文本识别装置、存储介质和电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7836010B2 (en) * 2003-07-30 2010-11-16 Northwestern University Method and system for assessing relevant properties of work contexts for use by information services

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145636B1 (en) * 2009-03-13 2012-03-27 Google Inc. Classifying text into hierarchical categories
CN101957828A (zh) * 2009-07-20 2011-01-26 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置
JP2013101416A (ja) * 2010-02-26 2013-05-23 Language Craft Kenkyusho:Kk 検索装置、検索方法、および、検索装置用のプログラム
US9229974B1 (en) * 2012-06-01 2016-01-05 Google Inc. Classifying queries
CN110019676A (zh) * 2017-12-01 2019-07-16 北京搜狗科技发展有限公司 一种在查询信息中识别核心词的方法、装置和设备
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN109902154A (zh) * 2018-11-30 2019-06-18 华为技术有限公司 信息处理方法、装置、服务设备及计算机可读存储介质
CN109800346A (zh) * 2019-01-11 2019-05-24 金蝶软件(中国)有限公司 文本匹配方法、装置、计算机设备和存储介质
CN110134949A (zh) * 2019-04-26 2019-08-16 网宿科技股份有限公司 一种基于教师监督的文本标注方法和设备
CN110377744A (zh) * 2019-07-26 2019-10-25 北京香侬慧语科技有限责任公司 一种舆情分类的方法、装置、存储介质及电子设备
CN111539207A (zh) * 2020-04-29 2020-08-14 北京大米未来科技有限公司 文本识别方法、文本识别装置、存储介质和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于层次特征提取的文本分类研究;宋岩,刘汉永,宁向南,孟宪哲;《计算机应用与软件》;第37卷(第2期);全文 *

Also Published As

Publication number Publication date
CN112667779A (zh) 2021-04-16

Similar Documents

Publication Publication Date Title
US9646606B2 (en) Speech recognition using domain knowledge
CN103635963B (zh) 语言模型的跨语种初始化
US10755177B1 (en) Voice user interface knowledge acquisition system
US9589563B2 (en) Speech recognition of partial proper names by natural language processing
CN108304372A (zh) 实体提取方法和装置、计算机设备和存储介质
CN111967264B (zh) 一种命名实体识别方法
CN111460149B (zh) 文本分类方法、相关设备及可读存储介质
CN104199965A (zh) 一种语义信息检索方法
CN113220839B (zh) 一种意图识别方法、电子设备及计算机可读存储介质
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN112667779B (zh) 一种信息查询方法、装置、电子设备及存储介质
CN116150306A (zh) 问答机器人的训练方法、问答方法及装置
CN112749544B (zh) 段落分割模型的训练方法及系统
Hori et al. Deriving disambiguous queries in a spoken interactive ODQA system
WO2024045926A1 (zh) 多媒体推荐方法、推荐装置、车机系统和存储介质
CN109783648B (zh) 一种利用asr识别结果改进asr语言模型的方法
CN111639160A (zh) 领域识别的方法、交互的方法、电子设备及存储介质
CN101937450B (zh) 在由粒子表示的信息检索数据库中进行条目检索的方法
CN111858860A (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN114242047A (zh) 一种语音处理方法、装置、电子设备及存储介质
CN116127981A (zh) 语义向量表示方法、装置、计算机设备和存储介质
CN113553844A (zh) 一种基于前缀树特征与卷积神经网络的领域识别方法
CN110852084B (zh) 文本生成方法、装置及设备
CN114757267B (zh) 识别噪声query的方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant