CN113094473A - 关键词的权重计算方法、装置、计算机设备及存储介质 - Google Patents

关键词的权重计算方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113094473A
CN113094473A CN202110479324.8A CN202110479324A CN113094473A CN 113094473 A CN113094473 A CN 113094473A CN 202110479324 A CN202110479324 A CN 202110479324A CN 113094473 A CN113094473 A CN 113094473A
Authority
CN
China
Prior art keywords
keyword
word
vector
query content
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110479324.8A
Other languages
English (en)
Inventor
张聪
刘璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202110479324.8A priority Critical patent/CN113094473A/zh
Publication of CN113094473A publication Critical patent/CN113094473A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种关键词的权重计算方法、装置、计算机设备及存储介质。方法包括:获取用户输入的查询内容;然后对查询内容进行分词处理,得到查询内容对应的关键词;并将查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到查询内容中每个字的字向量;根据关键词中每个字分别对应的字向量确定关键词对应的关键词向量;将关键词向量输入训练后的前馈神经网络模型,得到关键词对应的权重。本发明实施例中,获取到的关键词向量与查询内容中的上下文相关,为动态关键词向量,然后再根据前馈神经网络对该动态关键词向量的权重进行预测,得到关键词的动态权重,当该动态权重应用在搜索引擎中时,可以提高搜索引擎的召回率。

Description

关键词的权重计算方法、装置、计算机设备及存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种关键词的权重计算方法、装置、计算机设备及存储介质。
背景技术
随着互联网的发展,互联网中的存储数据量非常大,因此为了使用户能够快速准确的找到所需要的数据内容,提供互联网搜索服务的厂商就需要对搜索引擎的搜索质量进行优化。其中,关键词权重是搜索引擎给予搜索内容的一个的评估值,这个权重可以反映出关键词的重要程度,权重越高,说明该关键词越得到重视。
在用户使用搜索引擎的过程中,会在搜索框中提交査询内容,这些查询内容通常称之为query,搜索引擎需要根据query在海量数据中获取有用信息,由于query中具有不同的关键词,其中,每个关键词对于获取查询结果而言其重要程度各不相同,因此若要根据query准确获取到查询结果就需要参考query中各个关键词的重要性,也就是需要利用query中关键词的权重进行结果的查询。
现有技术中,一般是使用基于统计学的词频-逆文本频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)或者BM25等静态权重算法对关键词进行权重的计算,在这些静态权重算法中,每个关键词都有预设的对应权重,由于同一个关键词在不同的语境中,其权重可能是不一样的,如果都使用固定的权重,将会影响搜索引擎的召回效果。
发明内容
本发明实施例提供了一种关键词的权重计算方法、装置、计算机设备及存储介质,可以提高搜索引擎的召回率。
第一方面,本发明实施例提供了一种关键词的权重计算方法,其包括:
获取用户输入的查询内容;
对所述查询内容进行分词处理,得到所述查询内容对应的关键词;
将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量;
根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量;
将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重。
第二方面,本发明实施例还提供了一种关键词的权重计算装置,其包括用于执行上述方法的单元。
第三方面,本发明实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时可实现上述方法。
本发明实施例提供了一种关键词的权重计算方法、装置、计算机设备及存储介质。其中,所述方法包括:获取用户输入的查询内容;然后对所述查询内容进行分词处理,得到所述查询内容对应的关键词;并将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量;再根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量;最后将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重。本发明实施例中,获取到的关键词向量与查询内容中的上下文相关,为动态关键词向量,然后再将动态关键词向量接前馈神经网络对关键词的权重进行预测,得到关键词的动态权重,与传统的静态权重相比,本方案中的动态权重与查询内容中的上下文相关联,当该动态权重应用在搜索引擎中时,可以提高搜索引擎的召回率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的关键词的权重计算方法的应用场景示意图;
图2为本发明实施例提供的关键词的权重计算方法的流程示意图;
图3为本发明实施例提供的关键词的权重计算方法的一个子流程示意图;
图4为本发明实施例提供的关键词的权重计算方法的另一个子流程示意图;
图5为本发明实施例提供的BERT网络模型的一个结构示意图;
图6为本发明实施例提供的BERT网络模型的一个训练框架示意图;
图7为本发明实施例提供的关键词的权重计算方法的另一个子流程示意图;
图8为本发明实施例提供的前馈神经网络模型的一个结构示意图;
图9为本发明实施例提供的关键词的权重计算方法的另一个子流程示意图;
图10为本发明实施例提供的关键词的权重计算方法的另一个流程示意图;
图11为本发明实施例提供的关键词的权重计算装置的示意性框图;
图12为本发明实施例提供的关键词的权重计算装置的另一个示意性框图;
图13为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本发明实施例提供一种关键词的权重计算方法、装置、计算机设备及存储介质。
本实施例提供的一种关键词的权重计算方法的执行主体可以是与该方法对应的关键词的权重计算装置,或者集成了该关键词的权重计算装置的计算机设备,具体地,该权重计算装置可以为搜索引擎,或者为搜索引擎的搜索入口一部件,也可以为可以与搜索引擎进行数据交互的装置,该计算机设备可以采用硬件或者软件的方式实现,该计算机设备可以包括服务器或终端,该终端可以是智能手机、平板电脑、掌上电脑、或者笔记本电脑等。
请参阅图1,图1为本发明实施例提供的关键词的权重计算方法的一个应用场景示意图。该方法可以应用于如图1所示的计算机设备中,当用户需要通过互联网中的搜索引擎进行信息查询的时候,首先会在搜索引擎的搜索框中输入需要进行查询的查询内容,例如,如图1所示,输入的查询内容为“好玩的5V5策略竞技游戏”,此时计算机设备获取到用户输入的查询内容;然后对该查询内容进行分词处理,得到该查询内容对应的关键词(“好玩”、“的”、“5V5”、“策略”、“竞技”以及“游戏”);并将该查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到该查询内容中每个字的字向量;再根据该关键词中每个字分别对应的该字向量确定该关键词对应的关键词向量;最后将该关键词向量输入训练后的前馈神经网络模型,得到该关键词对应的权重(“好玩”权重为0.08、“的”权重为0.01、“5V5”权重为0.41、“策略”权重为0.20、“竞技”权重为0.20以及“游戏”权重为0.10)。
以下分别进行详细说明。
在本发明实施例中,将基于关键词的权重计算装置(下面简称:权重计算装置)的角度进行描述。
请参阅图2,图2为本实施例提供的关键词的权重计算方法的流程示意图,如图所示,该方法包括以下步骤:
S110、获取用户输入的查询内容。
在一些实施例中,用户在搜索引擎的搜索框中输入需要进行查询的查询内容,然后触发搜索引擎对查询内容进行内容查询,此时搜索引擎将获取到该查询内容,当权重计算装置不包括搜索引擎时,此时搜索引擎需要将该查询内容发送至权重计算装置,使得权重计算装置获取到该查询内容。
当权重计算装置设置在搜索引擎中时,当用户输入查询内容,并触发查询功能的时候,权重计算装置直接获取该查询内容。
具体地,在一些实施例中,如图3步骤S110包括以下步骤:
S111、获取用户输入的原始查询内容。
本实施例中,用户输入的原始查询内容可能存在编码不统一、全角半角符号杂乱以及查询内容存在乱码等问题。
S112、对该原始查询内容进行预处理,得到该查询内容。
为了方便对后续对查询内容进行处理,本实施例在获取到原始查询内容之后,都会对原始查询内容进行预处理,其中,该预处理包括编码统一处理、转换处理和清洗处理。
例如,用户在搜索引擎查询框中输入的内容为原始查询内容,当用户触发搜索时,搜索引擎获取到的是原始查询内容,由于原始查询内容是用户输入的内容,其内容存在编码不统一、全角半角符号杂乱以及内容存在乱码等问题,为了方便搜索引擎后续对查询内容进行更好的识别以及查询处理,所以搜索在收到原始查询内容之后,将对该查询内容进行预处理,具体地,可以对原始查询内容进行编码统一处理、转换处理和清洗处理等,其中,该编码统一处理包括UTF-8编码统一处理,该转换处理包括全角半角符号转换处理,该清洗处理包括去除乱码处理以及去除重复数据处理等。
需要说明的是,对原始查询内容的预处理除了包括编码统一处理、转换处理和清洗处理之外,还可以包括其他的数据预处理方法,例如噪声去除处理、维度变换处理等,具体此处不再一一列举。
S120、对该查询内容进行分词处理,得到该查询内容对应的关键词。
在一些实施例中,权重计算装置中设置有分词工具,当权重计算装置获取到查询内容之后,将通过分词工具对该查询内容进行分词处理,其中,该分词工具包括结巴(Jieba)分词工具、斯坦福自然语言处理(Stanford Natural Language Processing,Stanford NLP)分词工具或汉语词法分析系统(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)分词工具等,分词工具的具体类型具体此处不做限定。
其中,查询内容对应的关键词为该查询内容对应的分词,例如查询内容为“好玩的5V5策略竞技游戏”对应的关键词包括“好玩”、“的”、“5V5”、“策略”、“竞技”以及“游戏”。
需要说明的是,如果查询内容为中文,则本实施例以词库中常用的字组合作为查询内容对应的关键词,例如“键盘”,如果查询内容为英文,则将一个单词作为一个字,此时关键词可以为单词的常见组合,例如“hot dog”,此外,本实施例中的搜索引擎还可以为其他类型的语言进行分词处理,分词规则的具体规则视语言的类型而定,本实施例对分词规则不做限定。
S130、将该查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到该查询内容中每个字的字向量。
本实施例中,当确定了获取查询内容之后,将会把该查询内容输入预先设置的训练后的BERT(Bidirectional Encoder Representations from Transformers)网络模型进行双向语言表征处理,然后通过该训练后的BERT网络模型输出查询内容中每个字的字向量,其中,由于本实施例中的字向量是通过BERT网络模型进行双向语言表征处理得到的,即每个字的字向量都是根据其在查询内容中的上下文信息得到的,所以本实施例中得到的字向量是一个动态的字向量,每个字在不同的语境中其向量的值也会有所不同。
具体地,在一些实施例中,如图4所示,S130包括以下步骤:
S131、基于该训练后的BERT网络模型,分别确定该查询内容中每个字的原始字向量、文本向量以及位置向量。
如图5所示,本实施例中的BERT网络模型的结构包括输入层、BERT层以及输出层,将查询内容输入BERT网络模型之后,BERT网络模型的输入层得到查询内容中每个字的原始字向量、文本向量以及位置向量,然后将原始字向量、文本向量以及位置向量输入BERT层对每个字进行向量计算,最后通过输出层输出每个字的向量。
其中,上述的原始字向量为一维向量,该一维向量通过查询字向量表得到,该字向量表中存储有每个字及对应的向量;上述文本向量的取值在模型训练过程中自动学习,用于刻画文本的全局语义信息,并与单字/词的语义信息相融合;由于出现在文本不同位置的字所携带的语义信息存在差异(比如:“我爱你”和“你爱我”),因此,BERT网络模型对不同位置的字分别附加一个不同的向量以作区分。
S132、根据该原始字向量、该文本向量以及该位置向量确定该查询内容中每个字的字向量。
其中,具体地,在本实施例中,当通过BERT网络模型的输入层得到查询内容中每个字分别对应的原始字向量、文本向量以及位置向量之后,将会对该原始字向量、文本向量以及位置向量进行叠加,然后将叠加后的向量作为BERT层的输入,使得BERT层在进行字向量的计算时可以融合原始向量、文本向量以及位置向量,得到一个结合全局语义信息的动态字向量。
在一些实施例中,在步骤S130之前,需要对上述训练后的BERT网络模型进行训练,方法具体包括:获取垂直领域的训练样本,然后基于随机屏蔽的方法,根据该训练样本对预设的BERT网络模型进行训练,得到该训练后的BERT网络模型。
本实施例中,为了提高本实施例中训练后的BERT网络模型的训练速度以及特定领域的识别精度,本实施例可以为不用领域的搜索引擎训练不同的BERT网络模型,所以本实施例需要以垂直领域的数据作为不同领域的BERT网络模型的训练样本,例如,法律领域对应的搜索引擎,其训练样本可以使用法律领域中的常用词,则使用法律领域的垂直领域数据作为该搜索引擎中BERT网络模型的训练样本。
需要说明的是,本申请还可以训练通用的BERT网络模型,此时BERT网络模型的训练样本不需要使用垂直领域的训练样本,使用通用的训练样本即可。
其中,本实施例中使用了双向Transformer模型作为BERT网络模型中算法的主要框架,双向Transformer模型能更彻底的捕捉语句中的双向关系;在训练预设的BERT网络模型时,使用随机屏蔽的方法,随机遮住输入的查询内容的某些部分,然后预测被遮住的部分,这一步骤称为MLM(Mask Language Model),在这种情况下对应遮蔽的部分最终隐藏向量会输入到输出层的softmax函数中,并对预测遮蔽部分的字进行预测,从而达到BERT网络模型双向关系的训练,得到可以进行双向语言表征处理的BERT网络模型。
本实施例中,如图6所示,图6为本实施例提供的BERT网络模型的一训练框架示意图,针对不同的业务,对BERT网络模型进行预训练时,只需要在原始的BERT模型框架(Pre-training)之后添加一个额外的输出层(fine-tune),以对原始的BERT模型框架进行微调,将该微调后的模型框架作为BERT网络模型的训练模型,就可以适应不同的下游任务,其中,这过程中并不需要对原始的BERT网络模型进行任务特定的结构修改。例如,本实施例需要输出每个字的字向量,则此时就通过添加一个fine-tune,使得BERT网络模型最终输出的是查询内容中每个字的字向量。
下面对本实施例中使用的BERT网络模型进行简单的介绍:
BERT网络模型是一个预训练的语言表征模型。它强调不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的MLM进行预训练,以致能生成深度的双向语言表征。
以往的预训练模型的结构会受到单向语言模型(从左到右或者从右到左)的限制,因而也限制了模型的表征能力,使其只能获取单方向的上下文信息。而BERT网络模型利用MLM进行预训练并且采用深层的双向Transformer组件(单向的Transformer一般被称为Transformer decoder,其每一个token(符号,在本实施例为“字”)只会attend到目前往左的token。而双向的Transformer则被称为Transformer encoder,其每一个token会attend到所有的token)来构建整个模型,因此最终生成能融合左右上下文信息的深层双向语言表征。
在一些实施例中,对查询内容进行分词处理,得到该查询内容对应的关键词之后,由于有些关键词是通用词(例如“的”),这些词可以不参与查询,为了提高权重的计算速度,还可以对关键词进行筛选,把没有意义的关键词剔除掉,留下用于搜索的关键词,此时,步骤S130具体可以为:剔除查询内容中没有意义的关键词,得到目标查询内容,然后将目标查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到目标查询内容中每个字的字向量。
需要说明的是,本实施例对步骤S120与步骤S130的执行顺序不做限定,即步骤S120与步骤S130可以同时执行,步骤S120还可以在步骤S130之后执行。
S140、根据该关键词中每个字所分别对应的该字向量确定该关键词对应的关键词向量。
本实施例中,分别确定了每个关键词中每个字的字向量之后,将会分别将每个关键词中每个字分别对应的字向量进行整合处理,得到每个关键词的关键词向量。
具体地,在一些实施例中,如图7所示,S140包括以下步骤:
S141、确定该关键词中每个字分别对应的该字向量。
由于在步骤S120中已经将查询内容分解为了多个关键词,在步骤S130中又得到了查询内容中每个字的字向量,每个关键词由一个或多个字组成,此时,只需要提取关键词中每个字对应的字向量,就可以得到该关键词对应的字向量。
S142、对该关键词中每个字分别对应的该字向量进行叠加平均处理,得到该关键词对应的关键词向量。
本实施例中,由于已经获取到了查询内容中的关键词中每个字的字向量,所以本实施例可以首先确定每个关键词中的字,然后确定每个关键词中的字所分别对应的字向量,最后针对每个关键词,对关键词中的字分别对应的字向量进行叠加平均处理,即针对每个关键词,将关键词中每个字的字向量进行叠加,然后再取平均,得到该关键词的关键词向量,例如,如果关键词是两个字,那么该关键词的向量则是叠加后向量的一半,如果是三个字,那么该该关键词的向量则是叠加后向量的三分之一。
S150、将该关键词向量输入训练后的前馈神经网络模型,得到该关键词对应的权重。
本实施例中,得到关键词向量之后,将得到的关键词向量分别输入预设的训练后的前馈神经网络模型,得到查询内容中每个关键词分别对应的权重。
本实施例中的前馈神经网络模型为多层感知机(Multilayer Perceptron,MLP),是典型的深度学习模型,其中,为了防止过拟合以及加快MLP的训练速度,如图8所示,8为本发明实施例提供的前馈神经网络模型的一个结构示意图,本实施例中的MLP可以选定为两层(隐藏层及输出层)的前馈神经网络模型,MLP根据四维的关键词向量(图8中的x1…xn)得到二维的关键词权重(图8中的o1…on)。在另一些实施例中,MLP还可以选定为多层(例如三层)的前馈神经网络模型,具体层数此处不做限定。
具体地,在一些实施例中,如图9所示,S150包括以下步骤:
S151、将该关键词向量输入该训练后的前馈神经网络模型中进行二分类,得到二分类结果。
其中,该二分类结果包括该关键词重要性分数以及不重要性分数。
S152、将该二分类结果中的重要性分数确定为该关键词对应的权重。
即,本实施例中,将获取的每个关键词向量分别输入训练后的前馈神经网络模型中进行二分类,本方案将关键词权重任务等价为关键词重要性分类任务[重要,不重要],因此本实施例中前馈神经网络模型的最末端输出的二维向量,就是当前词汇在[重要,不重要]类别上的概率分布,然后本实施例将每个关键词中重要的分布概率(即重要性分数)确定为关键词对应的权重,例如,在二分类结果中,重要性分数为0.41,不重要性分数为0.59,此时将0.41确定为该关键词对应的权重。
图10是本发明另一实施例提供的一种关键词的权重计算方法的流程示意图。如图10所示,本实施例的关键词的权重计算方法包括步骤S210-S270。其中步骤S210-S250与上述实施例中的步骤S110-S150类似,在此不再赘述。下面详细说明本实施例中所增加的步骤S260-S270。
S260、确定该查询内容对应的查询结果。
具体地,当权重计算装置包括搜索引擎时,权重计算装置根据用户输入的查询内容进行对应搜索,得到多条查询结果。
其中,在一些实施例中,接收到查询内容之后,即可根据该查询内容进行查询结果的查询,此外,也可以在确定该查询内容中关键词的权重之后再进行该查询结果的查询。
S270、根据该关键词对应的权重对该查询结果进行排序,得到排序后的查询结果。
本实施例中,搜索引擎根据查询内容中的关键词确定对应的查询结果之后,还需要根据关键词对应的权重对查询结果进行排序,具体地,权重越大的关键词所对应的查询结果排序越靠前,使得查询用户更好地获取到需要的信息。
在一些实施例中,本实施例中的搜索引擎中还设置有权重阈值(例如该阈值为0.01),在得到关键词对应的权重之后,根据该权重阈值对关键词进行过滤处理,即过滤掉权重小于阈值的关键词,只对权重大于阈值的关键词进行搜索查询,提高搜索速度。
其中,本实施例中的搜索引擎可以为Elastic Search搜索引擎,可以为其他自研的搜索引擎,搜索引擎的类型此处不做限定。
综上所述,本实施例中权重计算装置获取用户输入的查询内容;然后对该查询内容进行分词处理,得到该查询内容对应的关键词;并将该查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到该查询内容中每个字的字向量;再根据该关键词中每个字分别对应的该字向量确定该关键词对应的关键词向量;最后将该关键词向量输入训练后的前馈神经网络模型,得到该关键词对应的权重。本发明实施例中,获取到的关键词向量与查询内容中的上下文相关,为动态关键词向量,然后再将动态关键词向量接前馈神经网络对关键词的权重进行预测,得到关键词的动态权重,与传统的静态权重相比,本方案中的动态权重与查询内容中的上下文相关联,当该动态权重应用在搜索引擎中时,可以提高搜索引擎的召回率。
此外,与传统的静态权重相比,本方案的动态向量更具灵活和通用性,并且本实施例中权重计算装置可以设置在搜索引擎的搜索入口中,该装置为轻量化结构,适用于搜索引擎的搜索入口分析,进而提高搜索引擎的搜索质量。
图11是本发明实施例提供的一种关键词的权重计算装置的示意性框图。如图11所示,对应于以上关键词的权重计算方法,本发明还提供一种关键词的权重计算装置。该关键词的权重计算装置包括用于执行上述关键词的权重计算方法的单元,该装置可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地,请参阅图11,该关键词的权重计算装置包括查询内容获取单元1101、分词单元1102、字向量确定单元1103、词向量确定单元1104以及权重确定单元1105。
查询内容获取单元1101,用于获取用户输入的查询内容;
分词单元1102,用于对所述查询内容进行分词处理,得到所述查询内容对应的关键词;
字向量确定单元1103,用于将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量;
词向量确定单元1104,用于根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量;
权重确定单元1105,用于将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重。
在一些实施例中,所述词向量确定单元1104具体用于:
确定所述关键词中每个字分别对应的所述字向量;
对所述关键词中每个字分别对应的所述字向量进行叠加平均处理,得到所述关键词对应的关键词向量。
在一些实施例中,所述权重确定单元1105具体用于:
将所述关键词向量输入所述训练后的前馈神经网络模型中进行二分类,得到二分类结果,所述二分类结果包括所述关键词重要性分数以及不重要性分数;
将所述重要性分数确定为所述关键词对应的权重。
在一些实施例中,所述字向量确定单元1103具体用于:
基于所述训练后的BERT网络模型,分别确定所述查询内容中每个字的原始字向量、文本向量以及位置向量;
根据所述原始字向量、所述文本向量以及所述位置向量确定所述查询内容中每个字的字向量。
在一些实施例中,所述查询内容获取单元1101具体用于:
获取用户输入的原始查询内容;
对所述原始查询内容进行预处理,得到所述查询内容,所述预处理包括编码统一处理、转换处理和清洗处理。
图12是本发明另一实施例提供的一种关键词的权重计算装置的示意性框图。如图12所示,本实施例的关键词的权重计算装置是上述实施例的基础上增加了样本获取单元1106、训练单元1107、查询结果确定单元1108以及排序单元1109,其中:
样本获取单元1106,用于获取垂直领域的训练样本;
训练单元1107,用于基于随机屏蔽的方法,根据所述训练样本对预设的BERT网络模型进行训练,得到所述训练后的BERT网络模型。
查询结果确定单元1108,用于确定所述查询内容对应的查询结果;
排序单元1109,用于根据所述关键词对应的权重对所述查询结果进行排序,得到排序后的查询结果。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述关键词的权重计算装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
上述关键词的权重计算装置可以实现为一种计算机程序的形式,该计算机程序可以在如图13所示的计算机设备上运行。
请参阅图13,图13是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备1300可以是终端,也可以是服务器,其中,终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。服务器可以是独立的服务器,也可以是多个服务器组成的服务器集群。
参阅图13,该计算机设备1300包括通过系统总线1301连接的处理器1302、存储器和网络接口1305,其中,存储器可以包括非易失性存储介质1303和内存储器1304。
该非易失性存储介质1303可存储操作系统13031和计算机程序13032。该计算机程序13032包括程序指令,该程序指令被执行时,可使得处理器1302执行一种关键词的权重计算方法。
该处理器1302用于提供计算和控制能力,以支撑整个计算机设备1300的运行。
该内存储器1304为非易失性存储介质1303中的计算机程序13032的运行提供环境,该计算机程序13032被处理器1302执行时,可使得处理器1302执行一种关键词的权重计算方法。
该网络接口1305用于与其它设备进行网络通信。本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备1300的限定,具体的计算机设备1300可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器1302用于运行存储在存储器中的计算机程序13032,以实现如下步骤:
获取用户输入的查询内容;
对所述查询内容进行分词处理,得到所述查询内容对应的关键词;
将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量;
根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量;
将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重。
在一实施例中,处理器1302在实现所述根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量步骤时,具体实现如下步骤:
确定所述关键词中每个字分别对应的所述字向量;
对所述关键词中每个字分别对应的所述字向量进行叠加平均处理,得到所述关键词对应的关键词向量。
在一实施例中,处理器1302在实现所述将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重步骤时,具体实现如下步骤:
将所述关键词向量输入所述训练后的前馈神经网络模型中进行二分类,得到二分类结果,所述二分类结果包括所述关键词重要性分数以及不重要性分数;
将所述重要性分数确定为所述关键词对应的权重。
在一实施例中,处理器1302在实现所述将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量步骤时,具体实现如下步骤:
基于所述训练后的BERT网络模型,分别确定所述查询内容中每个字的原始字向量、文本向量以及位置向量;
根据所述原始字向量、所述文本向量以及所述位置向量确定所述查询内容中每个字的字向量。
在一实施例中,处理器1302在实现所述将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量步骤之前,还实现如下步骤:
获取垂直领域的训练样本;
基于随机屏蔽的方法,根据所述训练样本对预设的BERT网络模型进行训练,得到所述训练后的BERT网络模型。
在一实施例中,处理器1302在实现所述获取用户输入的查询内容步骤时,具体实现如下步骤:
获取用户输入的原始查询内容;
对所述原始查询内容进行预处理,得到所述查询内容,所述预处理包括编码统一处理、转换处理和清洗处理。
在一实施例中,处理器1302在实现所述将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重步骤之后,还实现如下步骤:
确定所述查询内容对应的查询结果;
根据所述关键词对应的权重对所述查询结果进行排序,得到排序后的查询结果。
应当理解,在本申请实施例中,处理器1302可以是中央处理单元(CentralProcessing Unit,CPU),该处理器1302还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令,计算机程序可存储于一存储介质中,该存储介质为计算机可读存储介质。该程序指令被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序,其中计算机程序包括程序指令。该程序指令被处理器执行时使处理器执行如下步骤:
获取用户输入的查询内容;
对所述查询内容进行分词处理,得到所述查询内容对应的关键词;
将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量;
根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量;
将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重。
在一实施例中,所述处理器在执行所述程序指令而实现所述根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量步骤时,具体实现如下步骤:
确定所述关键词中每个字分别对应的所述字向量;
对所述关键词中每个字分别对应的所述字向量进行叠加平均处理,得到所述关键词对应的关键词向量。
在一实施例中,所述处理器在执行所述程序指令而实现所述将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重步骤时,具体实现如下步骤:
将所述关键词向量输入所述训练后的前馈神经网络模型中进行二分类,得到二分类结果,所述二分类结果包括所述关键词重要性分数以及不重要性分数;
将所述重要性分数确定为所述关键词对应的权重。
在一实施例中,所述处理器在执行所述程序指令而实现所述将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量步骤时,具体实现如下步骤:
基于所述训练后的BERT网络模型,分别确定所述查询内容中每个字的原始字向量、文本向量以及位置向量;
根据所述原始字向量、所述文本向量以及所述位置向量确定所述查询内容中每个字的字向量。
在一实施例中,所述处理器在执行所述程序指令而实现所述将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量步骤之前,还实现如下步骤:
获取垂直领域的训练样本;
基于随机屏蔽的方法,根据所述训练样本对预设的BERT网络模型进行训练,得到所述训练后的BERT网络模型。
在一实施例中,所述处理器在执行所述程序指令而实现所述获取用户输入的查询内容步骤时,具体实现如下步骤:
获取用户输入的原始查询内容;
对所述原始查询内容进行预处理,得到所述查询内容,所述预处理包括编码统一处理、转换处理和清洗处理。
在一实施例中,所述处理器在执行所述程序指令而实现所述将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重步骤之后,还实现如下步骤:
确定所述查询内容对应的查询结果;
根据所述关键词对应的权重对所述查询结果进行排序,得到排序后的查询结果。
所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种关键词的权重计算方法,其特征在于,包括:
获取用户输入的查询内容;
对所述查询内容进行分词处理,得到所述查询内容对应的关键词;
将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量;
根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量;
将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量,包括:
确定所述关键词中每个字分别对应的所述字向量;
对所述关键词中每个字分别对应的所述字向量进行叠加平均处理,得到所述关键词对应的关键词向量。
3.根据权利要求1所述的方法,其特征在于,所述将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重,包括:
将所述关键词向量输入所述训练后的前馈神经网络模型中进行二分类,得到二分类结果,所述二分类结果包括所述关键词重要性分数以及不重要性分数;
将所述重要性分数确定为所述关键词对应的权重。
4.根据权利要求1所述的方法,其特征在于,所述将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量,包括:
基于所述训练后的BERT网络模型,分别确定所述查询内容中每个字的原始字向量、文本向量以及位置向量;
根据所述原始字向量、所述文本向量以及所述位置向量确定所述查询内容中每个字的字向量。
5.根据权利要求1所述的方法,其特征在于,所述将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量之前,所述方法还包括:
获取垂直领域的训练样本;
基于随机屏蔽的方法,根据所述训练样本对预设的BERT网络模型进行训练,得到所述训练后的BERT网络模型。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述获取用户输入的查询内容,包括:
获取用户输入的原始查询内容;
对所述原始查询内容进行预处理,得到所述查询内容,所述预处理包括编码统一处理、转换处理和清洗处理。
7.根据权利要求1至5中任一项所述的方法,其特征在于,所述将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重之后,所述方法还包括:
确定所述查询内容对应的查询结果;
根据所述关键词对应的权重对所述查询结果进行排序,得到排序后的查询结果。
8.一种关键词的权重计算装置,其特征在于,包括:
查询内容获取单元,用于获取用户输入的查询内容;
分词单元,用于对所述查询内容进行分词处理,得到所述查询内容对应的关键词;
字向量确定单元,用于将所述查询内容输入训练后的BERT网络模型进行双向语言表征处理,得到所述查询内容中每个字的字向量;
词向量确定单元,用于根据所述关键词中每个字分别对应的所述字向量确定所述关键词对应的关键词向量;
权重确定单元,用于将所述关键词向量输入训练后的前馈神经网络模型,得到所述关键词对应的权重。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时可实现如权利要求1-7中任一项所述的方法。
CN202110479324.8A 2021-04-30 2021-04-30 关键词的权重计算方法、装置、计算机设备及存储介质 Pending CN113094473A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110479324.8A CN113094473A (zh) 2021-04-30 2021-04-30 关键词的权重计算方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110479324.8A CN113094473A (zh) 2021-04-30 2021-04-30 关键词的权重计算方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN113094473A true CN113094473A (zh) 2021-07-09

Family

ID=76680939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110479324.8A Pending CN113094473A (zh) 2021-04-30 2021-04-30 关键词的权重计算方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113094473A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807807A (zh) * 2021-08-16 2021-12-17 深圳市云采网络科技有限公司 一种元器件参数识别方法、装置、电子设备及可读介质
CN117077210A (zh) * 2023-10-17 2023-11-17 北京德奕歆科技有限公司 一种财务数据查询方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274394A (zh) * 2020-01-16 2020-06-12 重庆邮电大学 一种实体关系的抽取方法、装置、设备及存储介质
CN111460303A (zh) * 2020-03-31 2020-07-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111914067A (zh) * 2020-08-19 2020-11-10 苏州思必驰信息科技有限公司 中文文本匹配方法及系统
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
WO2021012570A1 (zh) * 2019-07-22 2021-01-28 深圳壹账通智能科技有限公司 数据录入方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021012570A1 (zh) * 2019-07-22 2021-01-28 深圳壹账通智能科技有限公司 数据录入方法、装置、设备及存储介质
CN111274394A (zh) * 2020-01-16 2020-06-12 重庆邮电大学 一种实体关系的抽取方法、装置、设备及存储介质
CN111460303A (zh) * 2020-03-31 2020-07-28 拉扎斯网络科技(上海)有限公司 数据处理方法、装置、电子设备及计算机可读存储介质
CN111930942A (zh) * 2020-08-07 2020-11-13 腾讯云计算(长沙)有限责任公司 文本分类方法、语言模型训练方法、装置及设备
CN111914067A (zh) * 2020-08-19 2020-11-10 苏州思必驰信息科技有限公司 中文文本匹配方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807807A (zh) * 2021-08-16 2021-12-17 深圳市云采网络科技有限公司 一种元器件参数识别方法、装置、电子设备及可读介质
CN117077210A (zh) * 2023-10-17 2023-11-17 北京德奕歆科技有限公司 一种财务数据查询方法及系统
CN117077210B (zh) * 2023-10-17 2024-01-23 北京德奕歆科技有限公司 一种财务数据查询方法及系统

Similar Documents

Publication Publication Date Title
Shi et al. Functional and contextual attention-based LSTM for service recommendation in mashup creation
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107798140B (zh) 一种对话系统构建方法、语义受控应答方法及装置
CN109902156B (zh) 实体检索方法、存储介质和电子设备
CN114238577B (zh) 融合多头注意力机制的多任务学习情感分类方法
CN111898369A (zh) 文章标题生成方法、模型的训练方法、装置和电子设备
CN113094473A (zh) 关键词的权重计算方法、装置、计算机设备及存储介质
CN110633464A (zh) 一种语义识别方法、装置、介质及电子设备
CN111368051A (zh) 一种对话生成方法、装置及计算机设备
CN114818729A (zh) 一种训练语义识别模型、查找语句的方法、装置及介质
May et al. Topic identification and discovery on text and speech
Hamzah et al. The detection of sexual harassment and chat predators using artificial neural network
Liu et al. Olenet at semeval-2019 task 9: Bert based multi-perspective models for suggestion mining
Hapsari et al. Naive bayes classifier and word2vec for sentiment analysis on bahasa indonesia cosmetic product reviews
CN115357720B (zh) 基于bert的多任务新闻分类方法及装置
CN116680401A (zh) 文档处理方法、文档处理装置、设备及存储介质
CN113011689A (zh) 软件开发工作量的评估方法、装置及计算设备
Ling Coronavirus public sentiment analysis with BERT deep learning
CN109189893A (zh) 一种自动检索的方法和装置
Swati et al. Ic-bait: An inferential commonsense-driven model for predicting political polarity in news headlines
CN114595370A (zh) 模型训练、排序方法、装置、电子设备及存储介质
CN113392640A (zh) 一种标题确定方法、装置、设备及存储介质
Bark et al. A deep learning approach for identifying sarcasm in text
Teo Tr at semeval-2020 task 4: Exploring the limits of language-model-based common sense validation
Joigneau Utterances classifier for chatbots’ intents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination