CN113590755A - 词权重的生成方法、装置、电子设备及存储介质 - Google Patents
词权重的生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113590755A CN113590755A CN202110881442.1A CN202110881442A CN113590755A CN 113590755 A CN113590755 A CN 113590755A CN 202110881442 A CN202110881442 A CN 202110881442A CN 113590755 A CN113590755 A CN 113590755A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- target
- search
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 230000011218 segmentation Effects 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 83
- 239000013598 vector Substances 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 abstract description 10
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种词权重的生成方法、装置、电子设备及存储介质,该方法通过对查询语句进行分词处理,以得到分词后的目标语句本文;按照一个或者多个预设片段划分方式,对目标语句文本进行切分,得到多个文本片段;根据多个文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个目标文本片段中每个词对应的中间词权重;根据目标文本片段中每个词对应的中间词权重确定目标语句文本中每个词对应的目标词权重。这样,由于无需进行人工标注,因此能够避免出现人工成本较高的问题,由于无需进行多次迭代计算,因此能够有效减少生成词权重过程中需要的计算量,有利于提升词权重的生成效率,并且能够有效保证生成的词权重的准确率。
Description
技术领域
本公开涉及自然语言处理领域,尤其涉及词权重的生成方法、装置、电子设备及存储介质。
背景技术
词权重是NLP(Neuro-Linguistic Programming,神经语言程序学)中的一项重要的解析任务,词权重的大小用于表征词在文章或者query中的重要程度,有利于反映文章和query所要表达的语义主题。通过词权重过滤出来的关键词,能够帮助浏览的用户迅速了解文章所要表达的内容,并且根据分析出来的关键词给文章或者query建立倒排索引,还能够提高文章或者query检索的准确率。此外,词权重作为语义解析的内容,对NLP其他的任务,例如文本分类,文本聚类和文本摘要提取等,也有显著提升效果的作用。
然而,目前的词权重生成方法,通常包括有监督和无监督两类,其中,有监督类的词权重生成方法需要通过大量的带有标签的关键词作为训练数据训练模型,而该关键词的标注通常比较困难,经常需要领域专家去标注文本的关键词,需要耗费的人工标注成本较高;无监督类的词权重生成方法,通常存在生成词权重的效率较低,得到词权重的准确率较差的问题。
发明内容
为克服相关技术中存在的问题,本公开提供一种词权重的生成方法、装置、电子设备及存储介质。
根据本公开实施例的第一方面,提供一种词权重的生成方法,包括:
获取用户输入的查询语句,并对所述查询语句进行分词处理,以得到分词后的目标语句本文;
按照一个或者多个预设片段划分方式,对所述目标语句文本进行切分,得到多个文本片段;
根据多个所述文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个所述目标文本片段中每个词对应的中间词权重,其中,所述至少一个目标文本片段为所述预设语料库中用于以最少的文本片段数量组成所述目标语句文本的文本片段;
根据所述目标文本片段中每个词对应的中间词权重确定所述目标语句文本中每个词对应的目标词权重。
可选地,所述预设语料库包括多个搜索文本片段以及每个所述搜索文本片段中每个搜索词的中间词权重,所述根据多个所述文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个所述目标文本片段中每个词对应的中间词权重,包括:
从预设语料库中的多个搜索文本片段中获取与多个所述文本片段匹配的至少一个待定文本片段;
从至少一个所述待定文本片段中,确定用于以最少的文本片段数量组成所述目标语句文本的目标文本片段;
从所述预设语料库中获取所述目标文本片段中每个搜索词对应的中间词权重,以得到所述目标文本片段中每个词对应的中间词权重。
可选地,所述根据所述目标文本片段中每个词对应的中间词权重确定所述目标语句文本中每个词对应的目标词权重,包括:
对所述目标文本片段中每个词对应的中间词权重进行归一化处理,以得到所述目标语句文本中每个词对应的目标词权重。
可选地,所述预设语料库通过以下方式生成:
从用户搜索记录数据库中获取预设历史时间段内每组搜索文本对的出现的目标次数,所述搜索文本对包括搜索词和目标搜索语句文本;
将所述目标次数大于或者等于预设次数阈值的搜索文本对作为待存文本对,以得到多个所述待存文本对;
根据所述搜索词确定多个所述待存文本对中不同的两个所述目标搜索语句文本之间的目标相关度;
根据所述目标相关度确定每个所述目标搜索语句文本中每个搜索词的词权重;
根据每个所述目标搜索语句文本中每个搜索词的词权重确定预设长度的搜索文本片段中每个搜索词的所述中间词权重;
将所述搜索文本片段以及所述搜索文本片段中每个搜索词的中间词权重存储在预设数据库中,以生成所述预设语料库。
可选地,所述根据所述搜索词确定多个所述待存文本对中不同的两个所述目标搜索语句文本之间的目标相关度,包括:
获取所述待存文本对中每个所述目标搜索语句文本中每个搜索词的出现频次;
根据所述目标搜索语句文本中每个搜索词的出现频次确定该搜索词与所述目标搜索语句文本之间的第一相关度,以及所述目标搜索语句文本与每个搜索词的第二相关度;
根据所述第一相关度和所述第二相关度确定不同的目标搜索语句文本之间的相关度。
可选地,所述根据所述目标搜索语句文本中每个搜索词的出现频次确定该搜索词与所述目标搜索语句文本之间的第一相关度,以及所述目标搜索语句文本与每个搜索词的第二相关度,包括:
以每个所述目标搜索语句文本中不同搜索词的出现频次为列向量,生成第一矩阵;
按行对所述第一矩阵中的元素进行归一化处理以得到第一相关度矩阵;
根据所述第一相关矩阵确定所述第一相关度;
以每个搜索词出现在不同目标搜索语句文本中的频次为列向量,生成第二矩阵;
按行对所述第二矩阵中的元素进行归一化处理,以得到第二相关度矩阵;
根据所述第二相关矩阵确定所述第二相关度。
可选地,所述根据所述第一相关度和所述第二相关度确定不同的目标搜索语句文本之间的相关度,包括:
获取所述第二相关矩阵与所述第一相关矩阵的乘积,以得到第三相关矩阵,所述第三相关矩阵中元素aij表示第i个目标搜索语句文本与第j个目标搜索语句文本之间的相关度,其中i,j均为正整数;
通过所述第三相关矩阵获取不同的目标搜索语句文本之间的相关度。
可选地,所述根据每个所述目标搜索语句文本中每个搜索词的词权重确定预设长度的搜索文本片段中每个搜索词的所述中间词权重,包括:
从多个所述待存文本对对应的多个目标搜索语句文本中获取所述搜索文本片段对应的相似文本,以及所述搜索文本片段中每个搜索词在所述相似文本中的词权重,所述相似文本中包括所述搜索文本片段中的一个或者多个搜索词;
获取每个相似文本的目标数量;
根据所述目标数量和所述搜索文本片段中每个搜索词在所述相似文本中的词权重确定所述搜索文本片段中每个搜索词的所述中间词权重。
根据本公开实施例的第二方面,提供一种词权重的生成装置,包括:
第一获取模块,被配置为获取用户输入的查询语句,并对所述查询语句进行分词处理,以得到分词后的目标语句本文;
切分模块,被配置为按照一个或者多个预设片段划分方式,对所述目标语句文本进行切分,得到多个文本片段;
第二获取模块,被配置为根据多个所述文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个所述目标文本片段中每个词对应的中间词权重,其中,所述至少一个目标文本片段为所述预设语料库中用于以最少的文本片段数量组成所述目标语句文本的文本片段;
确定模块,被配置为根据所述目标文本片段中每个词对应的中间词权重确定所述目标语句文本中每个词对应的目标词权重。
可选地,所述预设语料库包括多个搜索文本片段以及每个所述搜索文本片段中每个搜索词的中间词权重,所述第二获取模块,被配置为:
从预设语料库中的多个搜索文本片段中获取与多个所述文本片段匹配的至少一个待定文本片段;
从至少一个所述待定文本片段中,确定用于以最少的文本片段数量组成所述目标语句文本的目标文本片段;
从所述预设语料库中获取所述目标文本片段中每个搜索词对应的中间词权重,以得到所述目标文本片段中每个词对应的中间词权重。
可选地,所述确定模块,被配置为:
对所述目标文本片段中每个词对应的中间词权重进行归一化处理,以得到所述目标语句文本中每个词对应的目标词权重。
可选地,所述装置还包括预设语料库生成模块,所述预设语料库生成模块,被配置为:
从用户搜索记录数据库中获取预设历史时间段内每组搜索文本对的出现的目标次数,所述搜索文本对包括搜索词和目标搜索语句文本;
将所述目标次数大于或者等于预设次数阈值的搜索文本对作为待存文本对,以得到多个所述待存文本对;
根据所述搜索词确定多个所述待存文本对中不同的两个所述目标搜索语句文本之间的目标相关度;
根据所述目标相关度确定每个所述目标搜索语句文本中每个搜索词的词权重;
根据每个所述目标搜索语句文本中每个搜索词的词权重确定预设长度的搜索文本片段中每个搜索词的所述中间词权重;
将所述搜索文本片段以及所述搜索文本片段中每个搜索词的中间词权重存储在预设数据库中,以生成所述预设语料库。
可选地,所述根据所述搜索词确定多个所述待存文本对中不同的两个所述目标搜索语句文本之间的目标相关度,包括:
获取所述待存文本对中每个所述目标搜索语句文本中每个搜索词的出现频次;
根据所述目标搜索语句文本中每个搜索词的出现频次确定该搜索词与所述目标搜索语句文本之间的第一相关度,以及所述目标搜索语句文本与每个搜索词的第二相关度;
根据所述第一相关度和所述第二相关度确定不同的目标搜索语句文本之间的相关度。
可选地,所述预设语料库生成模块,被配置为:
以每个所述目标搜索语句文本中不同搜索词的出现频次为列向量,生成第一矩阵;
按行对所述第一矩阵中的元素进行归一化处理以得到第一相关度矩阵;
根据所述第一相关矩阵确定所述第一相关度;
以每个搜索词出现在不同目标搜索语句文本中的频次为列向量,生成第二矩阵;
按行对所述第二矩阵中的元素进行归一化处理,以得到第二相关度矩阵;
根据所述第二相关矩阵确定所述第二相关度。
可选地,所述预设语料库生成模块405,被配置为:
获取所述第二相关矩阵与所述第一相关矩阵的乘积,以得到第三相关矩阵,所述第三相关矩阵中元素aij表示第i个目标搜索语句文本与第j个目标搜索语句文本之间的相关度,其中i,j均为正整数;
通过所述第三相关矩阵获取不同的目标搜索语句文本之间的相关度。
可选地,所述预设语料库生成模块405,被配置为:
从多个所述待存文本对对应的多个目标搜索语句文本中获取所述搜索文本片段对应的相似文本,以及所述搜索文本片段中每个搜索词在所述相似文本中的词权重,所述相似文本中包括所述搜索文本片段中的一个或者多个搜索词;
获取每个相似文本的目标数量;
根据所述目标数量和所述搜索文本片段中每个搜索词在所述相似文本中的词权重确定所述搜索文本片段中每个搜索词的所述中间词权重。
根据本公开实施例的第三方面,提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现以上第一方面所述方法的步骤。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现以上第一方面所述方法的步骤。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过按照一个或者多个预设片段划分方式,对所述目标语句文本进行切分,得到多个文本片段;根据多个所述文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个所述目标文本片段中每个词对应的中间词权重,根据所述目标文本片段中每个词对应的中间词权重确定所述目标语句文本中每个词对应的目标词权重。这样,由于无需训练模型,因此能够避免因为需要进行数据标注而导致的人工成本较高的问题,能够有效减少生成词权重过程中需要的计算量,从而有利于提升词权重的生成效率,并且能够有效保证生成的词权重的准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开一示例性实施例示出的一种词权重的生成方法的流程图;
图2是根据图1所示实施例示出的一种预设语料库的生成方法的流程图;
图3是根据图2所示实施例示出的另一种预设语料库的生成方法的流程图;
图4是本公开一示例性实施例示出的一种词权重的生成装置的框图;
图5是根据一示例性实施例示出的一种词权重的生成装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在详细介绍本公开的具体实施方式之前,首先对本公开的应用场景进行以下说明,通常词权重的大小用于表征词在文章或者query中的重要程度,本公开可以应用于需要获取词权重的任一场景,例如,在根据词权重对用户输入的查询query进行主题识别之前获取query中每个词的词权重的过程,获取文章或者query的关键词时,通常需要先获取词权重,然后根据词权重确定关键词的过程中。相关技术中的词权重的生成方法,通常分为有监督和无监督两类。针对有监督类的词权重生成方法,通常的处理思想是:把文本中的每个词看成是一个需要进行二分类处理的对象,通过提取文本中每个词的特征,例如词性,词频,词的位置等信息,用机器学习的算法(例如GBDT(Gradient Boosting Decision Tree,梯度提升决策树),线性回归或者深度学习等)来训练模型,通过训练出来的模型,预估每个词属于关键词的概率,并将该概率值作为该词的词权重。通常该有监督的词权重生成方法对关键词的标注比较困难,经常需要领域专家去标注文本的关键词,需要耗费的人工标注成本较高。此外无监督类的词权重生成方法,主要分为基于统计的方法和基于词图模型的方法,其中,基于统计的方法代表的有Tf-Idf(词袋模型),该词袋模型主要侧重于词的全局统计信息,在长文本的效果较好,但在短文本中,由于缺乏文本主题信息,因此呈现出的效果较差,得到的词权重的准确度较低。基于词图模型的方法代表的有TextRank和ExpandRank,该ExpandRank是TextRank的扩展,主要是针对短文本所包含的共现词不足的情况,提供更多的相似短文本来建立词图。其中,在建立词图时,会将每个文本转成一个向量,向量中每一个维度对应一个词,每一个维度的值对应这个词的Tf-Idf的值,通过计算文本向量之间的余弦值,按照余弦值的大小从大到小排列,从而根据该排列顺序确定当前文本的候选相似文本,然后出现在同一个文本的词之间两两建边,形成一个图,该图是一个无向图。再根据该无向图通过迭代方式来计算每个词的词权重,迭代次数多,耗时长,因此不适合实时求词权重的场景。也就是说,相关技术中确定词权重的方法,通常存在需要花费的人工成本较高,得到的词权重的准确率较低以及生成词权重的效率较低等问题。
为了解决以上技术问题,本公开提供了一种词权重的生成方法、装置、电子设备及存储介质,该方法通过获取用户输入的查询语句,并对该查询语句进行分词处理,以得到分词后的目标语句本文;按照一个或者多个预设片段划分方式,对该目标语句文本进行切分,得到多个文本片段;根据多个该文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个该目标文本片段中每个词对应的中间词权重,根据该目标文本片段中每个词对应的中间词权重确定该目标语句文本中每个词对应的目标词权重。这样,由于无需进行人工标注,因此能够避免出现人工成本较高的问题,由于无需进行多次迭代计算,因此能够有效减少生成词权重过程中需要的计算量,从而有利于提升词权重的生成效率,并且能够有效保证生成的词权重的准确率。
图1是本公开一示例性实施例示出的一种词权重的生成方法的流程图;参见图1,该方法可以包括:
步骤101,获取用户输入的查询语句,并对该查询语句进行分词处理,以得到分词后的目标语句本文。
本步骤中,该查询语句可以是一条query数据对应的语句文本,对该查询语句进行分词处理时,可以采用现有技术中的分词处理方法对该查询语句进行分词处理,现有技术中的分词处理方法较多,本公开对此不作限定。
需要说明的是,在对该查询语句进行分词处理之后,可以对分词处理之后的分词语句文本进行过滤处理,例如可以过滤掉“的”、“在”等停用词,以及“啊”,“呢”“吗”等语气词,从而得到该目标语句文本。
步骤102,按照一个或者多个预设片段划分方式,对该目标语句文本进行切分,得到多个文本片段。
其中,该预设片段划分方式可以是基于n-gram的片段划分方法,例如预设片段划分方式可以是3-gram、2-gram、1-gram的片段划分方式中的任一个,也可以是按照预设划分片段数量对目标语句文本进行片段划分的方式,例如,分别将该目标语句文本划分为3个文本片段,2个文本片段等。
需要说明的是,该n-gram指目标语句文本中连续的n个词片段。例如在目标语句文本为A/B/C/D的情况下,以D结尾的3-gram为B/C/D,以D结尾的2-gram为C/D,以D结尾的1-gram为D。在该预设片段划分方式为基于n-gram的片段划分方法的情况下,可以将该目标语句文本划分为片段长度小于或者等于n的多个文本片段。例如,在划分后的目标语句文本为A/B/C/D的情况下,若该预设片段划分方式为按照3-gram的片段划分方式进行片段划分,则需要从该目标语句文本中获取以每个词结尾的3-gram,2-gram和1-gram的文本片段,从而得到以A结尾的1-gram为^/A,这里^表征开始标志,以A结尾的2-gram不存在,以C结尾的3-gram不存在,以B结尾的1-gram为B,以B结尾的2-gram为A/B,以B结尾的3-gram为^/A/B,以C结尾的1-gram为C,以C结尾的2-gram为B/C,以C结尾的3-gram为A/B/C,以D结尾的1-gram为D,以D结尾的2-gram为C/D,以D结尾的3-gram为B/C/D,即得到的多个文本片段包括:A,^/A,B,A/B,^/A/B,C,B/C,A/B/C,D,C/D,以及B/C/D。
步骤103,根据多个该文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个该目标文本片段中每个词对应的中间词权重。
其中,该至少一个目标文本片段为该预设语料库中用于以最少的文本片段数量组成该目标语句文本的文本片段,该预设语料库包括多个搜索文本片段以及每个该搜索文本片段中每个搜索词的中间词权重,该搜索文本片段由至少一个搜索词组成。
本步骤中,一种可能的实施方式为:从预设语料库中的多个搜索文本片段中获取与多个该文本片段匹配的至少一个待定文本片段;从至少一个该待定文本片段中,确定用于以最少的文本片段数量组成该目标语句文本的目标文本片段;从该预设语料库中获取该目标文本片段中每个搜索词对应的中间词权重,以得到该目标文本片段中每个词对应的中间词权重。
示例地,仍以步骤102所示示例为例进行说明,若在该预设语料库中查询得到了与该文本片段“:A,^/A,B,A/B,^/A/B,C,B/C,A/B/C,D,C/D,以及B/C/D”匹配的多个搜索文本片段为“^/A,B/C/D,B,C/D”,即可以将该“^/A,B/C/D,B,C/D”均作为该待定文本片段,由于该待定文本片段^/A与该待定文本片段B/C/D形成该目标语句文本“A/B/C/D”对应的文本片段数量为2,而待定文本片段^/A,待定文本片段B与待定文本片段C/D形成该目标语句文本“A/B/C/D”对应的文本片段数量为3,因此将该待定文本片段^/A与该待定文本片段B/C/D作为该目标文本片段,从该预设语料库中获取^/A与B/C/D中每个搜索词(即^/A中A的中间词权重,B/C/D中,B的中间词权重,C的中间词权重和D的中间词权重)对应的中间词权重,从而得到该目标文本片段中每个词的中间词权重。
步骤104,根据该目标文本片段中每个词对应的中间词权重确定该目标语句文本中每个词对应的目标词权重。
本步骤中,可以对该目标文本片段中每个词对应的中间词权重进行归一化处理,以得到该目标语句文本中每个词对应的目标词权重。
示例地,若^/A中A的中间词权重为a,B/C/D中B的中间词权重为b,B/C/D中C的中间词权重c,B/C/D中D的中间词权重d,对该A的中间词权重,B的中间词权重,C的中间词权重,D的中间词权重进行归一化后,得到该A的中间词权重a/(a+b+c+d),B的中间词权重b/(a+b+c+d),C的中间词权重c/(a+b+c+d),D的中间词权重d/(a+b+c+d)。
以上技术方案,通过按照一个或者多个预设片段划分方式,对该目标语句文本进行切分,得到多个文本片段;根据多个该文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个该目标文本片段中每个词对应的中间词权重,根据该目标文本片段中每个词对应的中间词权重确定该目标语句文本中每个词对应的目标词权重。由于无需训练模型,因此能够避免因为需要进行数据标注而导致的人工成本较高的问题,能够有效减少生成词权重过程中需要的计算量,从而有利于提升词权重的生成效率,并且能够有效保证生成的词权重的准确率。
图2是根据图1所示实施例示出的一种预设语料库的生成方法的流程图;参见图2,图1中所示的预设语料库可以通过以下步骤生成:
步骤201,从用户搜索记录数据库中获取预设历史时间段内每组搜索文本对的出现的目标次数。
其中,该搜索文本对包括搜索词和目标搜索语句文本。
需要说明的是,该用户搜索记录数据库可以是记录用户搜索操作的用户反馈日志。该预设历史时间段可以是当前时间之前的1月内,5天内,1个小时内,或者几秒内,该搜索词可以是用户输入搜索引擎的搜索关键词keyword,该目标搜索语句文本可以是搜索到的网页链接的标题文本,该目标次数为该用户搜索记录数据库中该预设时间段内通过该搜索关键词搜索到该标题本文对应的网页链接的次数。
示例地,用户输入搜索关键词“神经网络”后,在页面中出现了网址链接“神经网络算法”(展现在网页上的为标题文本),网址链接“神经网络算法介绍”,网址链接“机器学习神经网络视频”等,若用户A点击了一次该“神经网络算法”,则由该搜索关键词“神经网络”与该目标搜索语句文本“神经网络算法”形成的搜索文本对出现了一次,若还有用户B,用户C同样通过该搜索关键词“神经网络”选择了该“神经网络算法”,且用户B在该历史时间段内点击了5次,该用户C在该历史时间段内点击了2次,则该目标次数为8次。
步骤202,将该目标次数大于或者等于预设次数阈值的搜索文本对作为待存文本对,以得到多个该待存文本对。
示例地,若该预设次数阈值为N,则只有在该搜索文本对的目标次数大于或者等于N的情况下,才能将该搜索文本对作为该待存文本对。
步骤203,根据该搜索词确定多个该待存文本对中不同的两个该目标搜索语句文本之间的目标相关度。
示例地,以得到3个待存文本对为例,分别为keyword 1和query1,keyword 2和query2,以及keyword 3和query3,其中keyword1,keyword2,keyword,3均为搜索词,该query1,query2和query3为目标搜索语句文本,query1中包括3个keyword 1,6个keyword2,0个keyword 3,该query2中包括0个keyword 1,5个keyword 2,3个keyword 3,该query3中包括5个keyword 1,5个keyword 2,7个keyword 3,通过表格表示,则可以表示为以下表1所示:
query1 | query2 | query3 | |
keyword 1 | 3 | 0 | 5 |
keyword 2 | 6 | 5 | 5 |
keyword 3 | 0 | 3 | 7 |
表1
在该表1中,keyword 1与query 1的相关度为3/(3+5),query 1与keyword 1的相关度为3/(3+6),keyword 2与query 1的相关度为6/(6+5+5),query 1与keyword 2的相关度为6/(3+6),keyword 3与query 1的相关度为0,query 1与keyword3的相关度为5/(5+5+7),同理可以计算出每个keyword分别与query 2和query 3的相关度,并可以计算出每个query分别与keyword 1,keyword 2和keyword3的相关度,在得到以上keyword分别与query1、query 2和query 3的相关度,以及每个query分别与keyword 1,keyword 2和keyword3的相关度后,可以通过keyword作传递求出query1与query3之间的目标相关度,query2与query3,以及query1与query3的目标相关度,这里以query1与query3之间的相关度为例进行说明,
该query1与query3的目标相关度=(query 1与keyword 1的相关度×keyword 1与query 3的相关度)+(query1与keyword 2的相关度×keyword 2与query3的相关度)+(query1与keyword 3的相关度×keyword 3与query3的相关度)=(3/9)×(5/8)+×(5/16)+0×(7/10)=0.417。同理,可以得到query1与query2的目标相关度=(query 1与keyword1的相关度×keyword 1与query 2的相关度)+(query1与keyword 2的相关度×keyword 2与query2的相关度)+(query1与keyword 3的相关度×keyword 3与query2的相关度)=(3/9)×0+(6/9)×(5/16)+0×(3/10)=0.208,query2与query3的目标相关度=(query 2与keyword 1的相关度×keyword 1与query 3的相关度)+(query2与keyword 2的相关度×keyword 2与query3的相关度)+(query2与keyword 3的相关度×keyword 3与query3的相关度)=0×(3/9)+(5/8)×(5/16)+(3/8)×(7/10)=0.360。
步骤204,根据该目标相关度确定每个该目标搜索语句文本中每个搜索词的词权重。
示例地,仍以步骤203所示示例为例进行说明,在分别得到该query1与query3,query2与query3,以及query1与query3的目标相关度之后,可以利用该目标相关度确定每个query中每个搜索词的词权值,若用A表示keyword 1,B表示keyword 2,C表示keyword3,用该query1用A/B表示,query2用B/C表示,query3用A/B/C表示,query1与query3的目标相关度为0.417,query 3中只有A和B在query 1中出现,query1与query2的目标相关度为0.208,其中A出现在了除query1之外的query3中,因此,A的词权重为0.417,由于B出现在了除query1之外query2和query3中,因此B的词权重为0.417+0.208,同理,由于query2与query3的目标相关度为0.360,在计算query2中B和C各自的词权重时,由于B出现在了除query2之外query1和query3中,C出现在了除query2之外query3中,因此,在query2中B的词权重为0.208+0.360,在query2中C的词权重为0.360,同理,也可以得到query3中A,B和C各自的词权重,此处不再赘述。
步骤205,根据每个该目标搜索语句文本中每个搜索词的词权重确定预设长度的搜索文本片段中每个搜索词的该中间词权重。
本步骤中,可以从多个该待存文本对对应的多个目标搜索语句文本中获取该搜索文本片段对应的相似文本,以及该搜索文本片段中每个搜索词在该相似文本中的词权重,该相似文本中包括该搜索文本片段中的一个或者多个搜索词;获取每个相似文本的目标数量;根据该目标数量和该搜索文本片段中每个搜索词在该相似文本中的词权重确定该搜索文本片段中每个搜索词的该中间词权重。
其中,该预设长度的搜索文本片段可以是3-gram的搜索文本片段,2-gram的搜索文本片段,以及1-gram的搜索文本片段。
示例地,若某Query为A/B/C/D/E,则以D结尾的3-gram为B/C/D,以D结尾的2-gram为C/D,以D结尾的1-gram为D。若该预设长度的搜索文本片段为3-gram,则该搜索文本片段可以是以D结尾的3-gram为B/C/D,以C结尾的3-gram为A/B/C,以E结尾的3-gram为C/D/E,这里以B/C/D中各个搜索词的词权重为例,由于该B/C/D可能来自多个不同的query,假设是来自query4,query5,query6,(即该query4,query5,query6为该B/C/D对应的相似文本),在求B的中间词权重时,可以采用如下公式算:(tw1*freq1+tw2*freq2+tw3*freq3)/(freq1+freq2+freq3),以上公式中tw1,tw2,tw3表示B分别在query 4,query 5和query 6中的词权重,freq1,freq2和freq3分别表示query 4,query 5和query 6在用户搜索记录数据库里面出现的频次(即该目标数量),同理可以求得C和D在该搜索文本片段B/C/D中的中间词权重,同理,采用上述方法可以计算出每个搜索文本片段中每个搜索词对应的中间词权重,本公开在此不再赘述。
步骤206,将该搜索文本片段以及该搜索文本片段中每个搜索词的中间词权重存储在预设数据库中,以生成该预设语料库。
以上技术方案,能够通过以该搜索词为传递确定多个该待存文本对中不同的两个该目标搜索语句文本之间的目标相关度,并根据该目标关联度每个该目标搜索语句文本中每个搜索词的词权重,从而根据每个该目标搜索语句文本中每个搜索词的词权重确定预设长度的搜索文本片段中每个搜索词的该中间词权重,能够有效提升该中间词权重的准确率,并且,由于无需进行人工标注,因此能够避免出现人工成本较高的问题,由于无需进行多次迭代计算,因此能够有效减少生成词权重过程中需要的计算量,从而有利于提升词权重的生成效率。
图3是根据图2所示实施例示出的另一种预设语料库的生成方法的流程图;参见图3,以上图2中所示的步骤203所述的根据该搜索词确定多个该待存文本对中不同的两个该目标搜索语句文本之间的目标相关度,可以包括以下步骤:
步骤2031,获取该待存文本对中每个该目标搜索语句文本中每个搜索词的出现频次。
示例地,仍以上述表1为例进行说明,该表1中keyword 1在该query1中的出现频次为3,keyword 2在该query1中的出现频次为6,keyword3在该query1中的出现频次为0,keyword 1在该query2中的出现频次为0,keyword 2在该query2中的出现频次为5,keyword3在该query2中的出现频次为3,keyword 1在该query3中的出现频次为5,keyword 2在该query3中的出现频次为5,keyword 3在该query3中的出现频次为7。
步骤2032,根据该目标搜索语句文本中每个搜索词的出现频次确定该搜索词与该目标搜索语句文本之间的第一相关度,以及该目标搜索语句文本与每个搜索词的第二相关度。
本步骤中,一种可能的实施方式可以包括:以每个该目标搜索语句文本中不同搜索词的出现频次为列向量,生成第一矩阵;按行对该第一矩阵中的元素进行归一化处理以得到第一相关度矩阵;根据该第一相关矩阵确定该第一相关度;以每个搜索词出现在不同目标搜索语句文本中的频次为列向量,生成第二矩阵;按行对该第二矩阵中的元素进行归一化处理,以得到第二相关度矩阵;根据该第二相关矩阵确定该第二相关度。
示例地,仍以表1所示为例,以每个该目标搜索语句文本(query1,query2和query3)中不同搜索词(keyword 1,keyword 2,keyword 3)的出现频次为列向量,即以query1中分别出现keyword 1,keyword 2,keyword 3的次数为第一矩阵的第一列向量,以query2中分别出现keyword 1,keyword2,keyword 3的次数为第一矩阵的第二列向量,以query3中分别出现keyword 1,keyword 2,keyword 3的次数为第一矩阵的第三列向量,从而得到该第一矩阵为按行对该第一矩阵中的元素进行归一化处理可以是对每行的元素除以当前行中各元素之和,从而得到该第一相关度矩阵其中,该搜索词keyword 1与该目标搜索语句文本query1之间的第一相关度为该keyword 1与该目标搜索语句文本query2之间的第一相关度为0,keyword 1与该目标搜索语句文本query3之间的第一相关度为同理,可以得到keyword2分别与该目标搜索语句文本query1,query2,query3之间的第一相关度为以得到keyword3分别与该目标搜索语句文本query1,query2,query3之间的第一相关度为0,
另外,以每个搜索词(keyword 1,keyword 2,keyword 3)出现在不同目标搜索语句文本(query1,query2和query3)中的频次为列向量,即以搜索词keyword 1出现在query1,query2和query3中的频次为第二矩阵中的第一个列向量,以搜索词keyword 2出现在query1,query2和query3中的频次为第二矩阵中的第二个列向量,搜索词keyword 3出现在query1,query2和query3中的频次为第二矩阵中的第三个列向量,从而形成该第二矩阵为需要说明的是即该第二矩阵为该第一矩阵的转置,按行对该第二矩阵中的元素进行归一化处理可以是对每行的元素除以当前行中各元素之和,从而得到该第二相关度矩阵根据该第二相关度矩阵可以得到query1分别与该搜索词keyword 1,keyword 2,keyword 3之间的第二相关度为0,query2分别与该搜索词keyword 1,keyword 2,keyword 3之间的第二相关度为0,以得到keyword3分别与该目标搜索语句文本query1,query2,query3之间的第二相关度为
步骤2033,根据该第一相关度和该第二相关度确定不同的目标搜索语句文本之间的相关度。
本步骤中,可以获取该第二相关矩阵与该第一相关矩阵的乘积,以得到第三相关矩阵,该第三相关矩阵中元素aij表示第i个目标搜索语句文本与第j个目标搜索语句文本之间的相关度,其中i,j均为正整数;通过该第三相关矩阵获取不同的目标搜索语句文本之间的相关度。
示例地,若获取到该第二相关矩阵与该第一相关矩阵的乘积为则该a11表征第1个目标搜索语句文本与第1个目标搜索语句文本之间的相关度,该a12表征第1个目标搜索语句文本与第2个目标搜索语句文本之间的相关度,即aij表示第i个目标搜索语句文本与第j个目标搜索语句文本之间的相关度,其中i,j均为小于或者等于3的正整数。
以上技术方案,能够根据该第一相关度和该第二相关度有效的确定不同的目标搜索语句文本之间的相关度,能够为生成预设预料库中的中间词权重提供可靠的数据依据,有利于提升该中间词权重的准确率。
图4是本公开一示例性实施例示出的一种词权重的生成装置的框图;如图4所示,该词权重的生成装置可以包括:
第一获取模块401,被配置为获取用户输入的查询语句,并对该查询语句进行分词处理,以得到分词后的目标语句本文;
切分模块402,被配置为按照一个或者多个预设片段划分方式,对该目标语句文本进行切分,得到多个文本片段;
第二获取模块403,被配置为根据多个该文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个该目标文本片段中每个词对应的中间词权重,其中,该至少一个目标文本片段为该预设语料库中用于以最少的文本片段数量组成该目标语句文本的文本片段;
确定模块404,被配置为根据该目标文本片段中每个词对应的中间词权重确定该目标语句文本中每个词对应的目标词权重。
以上技术方案,通过切分模块402按照一个或者多个预设片段划分方式,对该目标语句文本进行切分,得到多个文本片段;通过第二获取模块403根据多个该文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个该目标文本片段中每个词对应的中间词权重,通过确定模块404根据该目标文本片段中每个词对应的中间词权重确定该目标语句文本中每个词对应的目标词权重。这样,由于无需训练模型,因此能够避免因为需要进行数据标注而导致的人工成本较高的问题,能够有效减少生成词权重过程中需要的计算量,从而有利于提升词权重的生成效率,并且能够有效保证生成的词权重的准确率。
可选地,该第二获取模块403,被配置为:
从预设语料库中获取与多个该文本片段匹配的至少一个待定文本片段;
从至少一个该待定文本片段中,确定用于以最少的文本片段数量组成该目标语句文本的目标文本片段;
从该预设语料库中获取该目标文本片段中每个词对应的中间词权重。
可选地,该确定模块404,被配置为:
对该目标文本片段中每个词对应的中间词权重进行归一化处理,以得到该目标语句文本中每个词对应的目标词权重。
可选地,该装置还包括预设语料库生成模块405,该预设语料库生成模块405,被配置为:
从用户搜索记录数据库中获取预设历史时间段内每组搜索文本对的出现的目标次数,该搜索文本对包括搜索词和目标搜索语句文本;
将该目标次数大于或者等于预设次数阈值的搜索文本对作为待存文本对,以得到多个该待存文本对;
根据该搜索词确定多个该待存文本对中不同的两个该目标搜索语句文本之间的目标相关度;
根据该目标相关度确定每个该目标搜索语句文本中每个搜索词的词权重;
根据每个该目标搜索语句文本中每个搜索词的词权重确定预设长度的搜索文本片段中每个搜索词的该中间词权重;
将该搜索文本片段以及该搜索文本片段中每个搜索词的中间词权重存储在预设数据库中,以生成该预设语料库。
可选地,该根据该搜索词确定多个该待存文本对中不同的两个该目标搜索语句文本之间的目标相关度,包括:
获取该待存文本对中每个该目标搜索语句文本中每个搜索词的出现频次;
根据该目标搜索语句文本中每个搜索词的出现频次确定该搜索词与该目标搜索语句文本之间的第一相关度,以及该目标搜索语句文本与每个搜索词的第二相关度;
根据该第一相关度和该第二相关度确定不同的目标搜索语句文本之间的相关度。
可选地,该预设语料库生成模块405,被配置为:
以每个该目标搜索语句文本中不同搜索词的出现频次为列向量,生成第一矩阵;
按行对该第一矩阵中的元素进行归一化处理以得到第一相关度矩阵;
根据该第一相关矩阵确定该第一相关度;
以每个搜索词出现在不同目标搜索语句文本中的频次为列向量,生成第二矩阵;
按行对该第二矩阵中的元素进行归一化处理,以得到第二相关度矩阵;
根据该第二相关矩阵确定该第二相关度。
可选地,该预设语料库生成模块405,被配置为:
获取该第二相关矩阵与该第一相关矩阵的乘积,以得到第三相关矩阵,该第三相关矩阵中元素aij表示第i个目标搜索语句文本与第j个目标搜索语句文本之间的相关度,其中i,j均为正整数;
通过该第三相关矩阵获取不同的目标搜索语句文本之间的相关度。
可选地,该预设语料库生成模块405,被配置为:
从多个该待存文本对对应的多个目标搜索语句文本中获取该搜索文本片段对应的相似文本,以及该搜索文本片段中每个搜索词在该相似文本中的词权重,该相似文本中包括该搜索文本片段中的一个或者多个搜索词;
获取每个相似文本的目标数量;
根据该目标数量和该搜索文本片段中每个搜索词在该相似文本中的词权重确定该搜索文本片段中每个搜索词的该中间词权重。
以上技术方案,能够通过以该搜索词为传递确定多个该待存文本对中不同的两个该目标搜索语句文本之间的目标相关度,并根据该目标关联度每个该目标搜索语句文本中每个搜索词的词权重,从而根据每个该目标搜索语句文本中每个搜索词的词权重确定预设长度的搜索文本片段中每个搜索词的该中间词权重,能够有效提升该中间词权重的准确率,并且,由于无需进行人工标注,因此能够避免出现人工成本较高的问题,由于无需进行多次迭代计算,因此能够有效减少生成词权重过程中需要的计算量,从而有利于提升词权重的生成效率。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的词权重的生成方法的步骤。
图5是根据一示例性实施例示出的一种词权重的生成装置的框图。例如,装置500可以被提供为一服务器。参照图5,装置500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述词权重的生成方法。
装置500还可以包括一个电源组件526被配置为执行装置500的电源管理,一个有线或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (11)
1.一种词权重的生成方法,其特征在于,包括:
获取用户输入的查询语句,并对所述查询语句进行分词处理,以得到分词后的目标语句本文;
按照一个或者多个预设片段划分方式,对所述目标语句文本进行切分,得到多个文本片段;
根据多个所述文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个所述目标文本片段中每个词对应的中间词权重,其中,所述至少一个目标文本片段为所述预设语料库中用于以最少的文本片段数量组成所述目标语句文本的文本片段;
根据所述目标文本片段中每个词对应的中间词权重确定所述目标语句文本中每个词对应的目标词权重。
2.根据权利要求1所述的方法,其特征在于,所述预设语料库包括多个搜索文本片段以及每个所述搜索文本片段中每个搜索词的中间词权重,所述根据多个所述文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个所述目标文本片段中每个词对应的中间词权重,包括:
从预设语料库中的多个搜索文本片段中获取与多个所述文本片段匹配的至少一个待定文本片段;
从至少一个所述待定文本片段中,确定用于以最少的文本片段数量组成所述目标语句文本的目标文本片段;
从所述预设语料库中获取所述目标文本片段中每个搜索词对应的中间词权重,以得到所述目标文本片段中每个词对应的中间词权重。
3.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本片段中每个词对应的中间词权重确定所述目标语句文本中每个词对应的目标词权重,包括:
对所述目标文本片段中每个词对应的中间词权重进行归一化处理,以得到所述目标语句文本中每个词对应的目标词权重。
4.根据权利要求1所述的方法,其特征在于,所述预设语料库通过以下方式生成:
从用户搜索记录数据库中获取预设历史时间段内每组搜索文本对的出现的目标次数,所述搜索文本对包括搜索词和目标搜索语句文本;
将所述目标次数大于或者等于预设次数阈值的搜索文本对作为待存文本对,以得到多个所述待存文本对;
根据所述搜索词确定多个所述待存文本对中不同的两个所述目标搜索语句文本之间的目标相关度;
根据所述目标相关度确定每个所述目标搜索语句文本中每个搜索词的词权重;
根据每个所述目标搜索语句文本中每个搜索词的词权重确定预设长度的搜索文本片段中每个搜索词的所述中间词权重;
将所述搜索文本片段以及所述搜索文本片段中每个搜索词的中间词权重存储在预设数据库中,以生成所述预设语料库。
5.根据权利要求4所述的方法,其特征在于,所述根据所述搜索词确定多个所述待存文本对中不同的两个所述目标搜索语句文本之间的目标相关度,包括:
获取所述待存文本对中每个所述目标搜索语句文本中每个搜索词的出现频次;
根据所述目标搜索语句文本中每个搜索词的出现频次确定该搜索词与所述目标搜索语句文本之间的第一相关度,以及所述目标搜索语句文本与每个搜索词的第二相关度;
根据所述第一相关度和所述第二相关度确定不同的目标搜索语句文本之间的相关度。
6.根据权利要求5所述的方法,其特征在于,所述根据所述目标搜索语句文本中每个搜索词的出现频次确定该搜索词与所述目标搜索语句文本之间的第一相关度,以及所述目标搜索语句文本与每个搜索词的第二相关度,包括:
以每个所述目标搜索语句文本中不同搜索词的出现频次为列向量,生成第一矩阵;
按行对所述第一矩阵中的元素进行归一化处理以得到第一相关度矩阵;
根据所述第一相关矩阵确定所述第一相关度;
以每个搜索词出现在不同目标搜索语句文本中的频次为列向量,生成第二矩阵;
按行对所述第二矩阵中的元素进行归一化处理,以得到第二相关度矩阵;
根据所述第二相关矩阵确定所述第二相关度。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一相关度和所述第二相关度确定不同的目标搜索语句文本之间的相关度,包括:
获取所述第二相关矩阵与所述第一相关矩阵的乘积,以得到第三相关矩阵,所述第三相关矩阵中元素aij表示第i个目标搜索语句文本与第j个目标搜索语句文本之间的相关度,其中i,j均为正整数;
通过所述第三相关矩阵获取不同的目标搜索语句文本之间的相关度。
8.根据权利要求4所述的方法,其特征在于,所述根据每个所述目标搜索语句文本中每个搜索词的词权重确定预设长度的搜索文本片段中每个搜索词的所述中间词权重,包括:
从多个所述待存文本对对应的多个目标搜索语句文本中获取所述搜索文本片段对应的相似文本,以及所述搜索文本片段中每个搜索词在所述相似文本中的词权重,所述相似文本中包括所述搜索文本片段中的一个或者多个搜索词;
获取每个相似文本的目标数量;
根据所述目标数量和所述搜索文本片段中每个搜索词在所述相似文本中的词权重确定所述搜索文本片段中每个搜索词的所述中间词权重。
9.一种词权重的生成装置,其特征在于,包括:
第一获取模块,被配置为获取用户输入的查询语句,并对所述查询语句进行分词处理,以得到分词后的目标语句本文;
切分模块,被配置为按照一个或者多个预设片段划分方式,对所述目标语句文本进行切分,得到多个文本片段;
第二获取模块,被配置为根据多个所述文本片段,从预设语料库中获取至少一个目标文本片段,以及至少一个所述目标文本片段中每个词对应的中间词权重,其中,所述至少一个目标文本片段为所述预设语料库中用于以最少的文本片段数量组成所述目标语句文本的文本片段;
确定模块,被配置为根据所述目标文本片段中每个词对应的中间词权重确定所述目标语句文本中每个词对应的目标词权重。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110881442.1A CN113590755A (zh) | 2021-08-02 | 2021-08-02 | 词权重的生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110881442.1A CN113590755A (zh) | 2021-08-02 | 2021-08-02 | 词权重的生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113590755A true CN113590755A (zh) | 2021-11-02 |
Family
ID=78253815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110881442.1A Pending CN113590755A (zh) | 2021-08-02 | 2021-08-02 | 词权重的生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113590755A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221875A (zh) * | 2022-07-28 | 2022-10-21 | 平安科技(深圳)有限公司 | 词权重生成方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289436A (zh) * | 2010-06-18 | 2011-12-21 | 阿里巴巴集团控股有限公司 | 确定搜索词权重值方法及装置、搜索结果生成方法及装置 |
CN105653553A (zh) * | 2014-11-14 | 2016-06-08 | 腾讯科技(深圳)有限公司 | 词权重生成方法和装置 |
CN106598949A (zh) * | 2016-12-22 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种词语对文本贡献度的确定方法及装置 |
CN109815396A (zh) * | 2019-01-16 | 2019-05-28 | 北京搜狗科技发展有限公司 | 搜索词权重确定方法及装置 |
WO2020108608A1 (zh) * | 2018-11-29 | 2020-06-04 | 腾讯科技(深圳)有限公司 | 搜索结果处理方法、装置、终端、电子设备及存储介质 |
CN111274353A (zh) * | 2020-01-14 | 2020-06-12 | 百度在线网络技术(北京)有限公司 | 文本切词方法、装置、设备和介质 |
CN112988980A (zh) * | 2021-05-12 | 2021-06-18 | 太平金融科技服务(上海)有限公司 | 目标产品查询方法、装置、计算机设备和存储介质 |
-
2021
- 2021-08-02 CN CN202110881442.1A patent/CN113590755A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289436A (zh) * | 2010-06-18 | 2011-12-21 | 阿里巴巴集团控股有限公司 | 确定搜索词权重值方法及装置、搜索结果生成方法及装置 |
CN105653553A (zh) * | 2014-11-14 | 2016-06-08 | 腾讯科技(深圳)有限公司 | 词权重生成方法和装置 |
CN106598949A (zh) * | 2016-12-22 | 2017-04-26 | 北京金山办公软件股份有限公司 | 一种词语对文本贡献度的确定方法及装置 |
WO2020108608A1 (zh) * | 2018-11-29 | 2020-06-04 | 腾讯科技(深圳)有限公司 | 搜索结果处理方法、装置、终端、电子设备及存储介质 |
CN109815396A (zh) * | 2019-01-16 | 2019-05-28 | 北京搜狗科技发展有限公司 | 搜索词权重确定方法及装置 |
CN111274353A (zh) * | 2020-01-14 | 2020-06-12 | 百度在线网络技术(北京)有限公司 | 文本切词方法、装置、设备和介质 |
CN112988980A (zh) * | 2021-05-12 | 2021-06-18 | 太平金融科技服务(上海)有限公司 | 目标产品查询方法、装置、计算机设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
李志强;潘苏含;戴娟;胡佳佳;: "一种改进的TextRank关键词提取算法", 计算机技术与发展, vol. 30, no. 03, pages 77 - 81 * |
熊文新;: "与自然语言查询表述相关的词语分析", 图书情报工作, no. 17, pages 115 - 121 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221875A (zh) * | 2022-07-28 | 2022-10-21 | 平安科技(深圳)有限公司 | 词权重生成方法、装置、电子设备及存储介质 |
CN115221875B (zh) * | 2022-07-28 | 2023-06-20 | 平安科技(深圳)有限公司 | 词权重生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
CN111538908B (zh) | 搜索排序方法、装置、计算机设备和存储介质 | |
CN107122413B (zh) | 一种基于图模型的关键词提取方法及装置 | |
Tomar et al. | Neural paraphrase identification of questions with noisy pretraining | |
CN109815487B (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
Song et al. | Real-time automatic tag recommendation | |
CN106874441B (zh) | 智能问答方法和装置 | |
CN109344399B (zh) | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 | |
CN109408743B (zh) | 文本链接嵌入方法 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
CN114329225B (zh) | 基于搜索语句的搜索方法、装置、设备及存储介质 | |
CN111581545A (zh) | 一种召回文档的排序方法及相关设备 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN112100470B (zh) | 基于论文数据分析的专家推荐方法、装置、设备及存储介质 | |
CN110866102A (zh) | 检索处理方法 | |
CN111325033B (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN117473053A (zh) | 基于大语言模型的自然语言问答方法、装置、介质及设备 | |
Tian et al. | Product feature taxonomy learning based on user reviews | |
CN110728135A (zh) | 文本主题标引方法、装置、电子设备及计算机存储介质 | |
Azzam et al. | A question routing technique using deep neural network for communities of question answering | |
CN113590755A (zh) | 词权重的生成方法、装置、电子设备及存储介质 | |
CN111563361A (zh) | 文本标签的提取方法及装置、存储介质 | |
CN113537206A (zh) | 推送数据检测方法、装置、计算机设备和存储介质 | |
CN113705217B (zh) | 一种面向电力领域知识学习的文献推荐方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |