CN110020029B

CN110020029B - 一种文档与查询词的相关性获取方法和装置

Info

Publication number: CN110020029B
Application number: CN201710920342.9A
Authority: CN
Inventors: 马庆丽
Original assignee: Beijing Gridsum Technology Co Ltd
Current assignee: Beijing Gridsum Technology Co Ltd
Priority date: 2017-09-30
Filing date: 2017-09-30
Publication date: 2021-09-07
Anticipated expiration: 2037-09-30
Also published as: CN110020029A

Abstract

本申请实施例公开了一种文档与查询词的相关性获取方法和装置。该方法和装置能够根据多个特征来计算文档与查询词的相关性，故，该方法可以综合多个不同维度的特征对文档与查询词的相关性进行衡量。其采用的特征权重是通过熵值法计算得到的，而熵值法计算权重无需较多的训练数据，对计算权重过程中的训练数据的要求不高。另外，通过熵值法计算得到的权重存储在模型文件中，当使用这些权重时，可以很方便地访问模型文件，并从模型文件中快速查找到与查询词相对应的多个特征的特征权重，因此，该方法调用权重比较方便。此外，该方法和装置可以适用于各种长度的查询词，对于短查询词也适用。此外，本申请实施例还公开了一种存储介质和服务器。

Description

一种文档与查询词的相关性获取方法和装置

技术领域

本申请涉及信息处理技术领域，尤其涉及一种文档与查询词的相关性获取方法和装置。

背景技术

文档与查询词的相关性，也称垂直领域的相关性，是指给定的查询词(query)与文档(document)的相关性强弱。以汽车行业的相关性为例说明，汽车领域的相关性是指给定的视角车型(相当于查询词)与文档的相关性强弱。通俗地讲，如果一篇文档重点介绍一款车的性能参数，则该文档与该视角车型就是强相关性，如果只是提及指定的视角车型，则为弱相关性。

另外，相关性是一个相对概念，例如文档A比文档B对于查询词更相关，文档B比文档C对于查询词更相关。因此，有必要对文档与查询词的相关性强弱进行衡量。为了衡量文档与查询词的相关性强弱，需要获取文档与查询词的相关性。

目前，已经出现了一些相关性获取方法。现有的一种相关性获取方法是基于单一特征评测文档与查询词的相关性，该单一特征例如可以为查询词在文档中出现的次数(也称词频)，因而，这种获取方法仅能考虑文档与查询词的一个维度的特征，而不能综合其它维度的特征，例如文档类型，文档长短等等。

此外，目前也出现了能够综合多个维度特征的相关性获取方法，例如learning torank方法，该获取方法可以综合多个不同维度的特征进行相关性衡量，但是获取过程中的特征权重调用比较困难，并且对训练特征权重的训练数据的要求较高，另外，该learningto rank方法适用于长查询词的相关性获取，而对短查询词的相关性获取效果较差。

发明内容

有鉴于此，本申请实施例提供了一种文档与查询词的相关性获取方法和装置，以解决上述综合多个维度特征的相关性获取方法存在的问题。

为了解决上述技术问题，本申请采用了如下技术方案：

一种文档与查询词的相关性获取方法，包括：

获取记载有某一行业数据的文档；

响应于用户输入的查询词，从所述文档中提取多个特征，所述多个特征包括与所述查询词相关的特征和/或文档特征；

对提取出的多个特征分别进行归一化处理，得到多个归一化特征；

从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重；其中，所述模型文件中包括至少一个行业视角词及其分别对应的多个特征的特征权重，所述模型文件中还包括通用词的多个特征的特征权重；所述模型文件中的特征权重通过熵值法计算得到；

将各个归一化特征与其对应的特征权重进行加权求和，得到的加权求和结果用于表征所述文档与查询词的相关性。

可选地，所述从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重，具体包括：

从所述模型文件中查找是否含有与所述查询词相匹配的行业视角词；

若从模型文件中查找到与查询词相匹配的行业视角词，从所述模型文件中获取与所述查询词相匹配的行业视角词的多个特征的特征权重；

将所述与所述查询词相匹配的行业视角词的多个特征的特征权重作为与所述查询词相对应的多个归一化特征的特征权重；

若从模型文件中未查找到与查询词相匹配的行业视角词，从所述模型文件中获取通用词的多个特征的特征权重；

将所述通用词的多个特征的特征权重作为与所述查询词相对应的多个归一化特征的特征权重。

可选地，所述模型文件与信源对应，且模型文件与信源为一一对应关系；

所述从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重之前，还包括：

根据所述文档中携带的信源标识确定文档的信源；

所述从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重，具体包括：

从与所述信源相对应的预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重。

可选地，所述方法还包括：训练模型文件中行业视角词的多个特征的特征权重。

可选地，所述训练模型文件中行业视角词的多个特征的特征权重，具体包括：

从记载有某一行业数据的文档库中获取训练数据；

从所述训练数据中提取行业视角词的多个特征，该行业视角词的多个特征包括行业视角词特征和/或文档特征；

对提取出的行业视角词的多个特征分别进行归一化处理，得到行业视角词的多个特征多个归一化特征；

利用熵值法分别计算行业视角词的每个归一化特征对应的特征权重，得到的结果作为模型文件中行业视角词的特征权重。

可选地，在得到加权求和结果后，还包括：

根据预先设定的相关性等级规范以及加权求和结果确定文档与查询词的相关性等级。

一种文档与查询词的相关性获取装置，包括：

第一获取单元，用于获取记载有某一行业数据的文档；

提取单元，用于响应于用户输入的查询词，从所述文档中提取多个特征，所述多个特征包括与所述查询词相关的特征和/或文档特征；

归一化单元，用于对提取出的多个特征分别进行归一化处理，得到多个归一化特征；

第二获取单元，用于从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重；其中，所述模型文件中包括至少一个行业视角词及其分别对应的多个特征的特征权重，所述模型文件中还包括通用词的多个特征的特征权重；所述模型文件中的特征权重通过熵值法计算得到；

计算单元，用于将各个归一化特征与其对应的特征权重进行加权求和，得到的加权求和结果用于表征所述文档与查询词的相关性。

可选地，所述第二获取单元具体包括：

查找子单元，用于从所述模型文件中查找是否含有与所述查询词相匹配的行业视角词；

第一获取子单元，用于若从模型文件中查找到与查询词相匹配的行业视角词，从所述模型文件中获取与所述查询词相匹配的行业视角词的多个特征的特征权重；将所述与所述查询词相匹配的行业视角词的多个特征的特征权重作为与所述查询词相对应的多个归一化特征的特征权重；

第二获取子单元，用于若从模型文件中未查找到与查询词相匹配的行业视角词，从所述模型文件中获取通用词的多个特征的特征权重；将所述通用词的多个特征的特征权重作为与所述查询词相对应的多个归一化特征的特征权重。

一种存储介质，所述存储介质上存储有程序，所述程序被处理器执行时实现上述任一技术方案的步骤。

一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序被处理器执行时实现上述任一技术方案的步骤。

相较于现有技术，本申请具有以下有益效果：

基于以上技术方案可知，本申请实施例提供的文档与查询词的相关性获取方法中，能够对多个特征进行加权求和计算文档与查询词的相关性，因此，该方法可以综合多个不同维度的特征对文档与查询词的相关性进行衡量。另外，在本申请提供的方法中，其采用的用于对特征进行加权求和的特征权重是通过熵值法计算得到的，而熵值法计算权重无需较多的训练数据，对计算权重过程中的训练数据的要求不高。另外，通过熵值法计算得到的权重存储在模型文件中，当使用这些权重时，可以很方便地访问模型文件，并从模型文件中快速查找到与查询词相对应的多个特征的特征权重，因此，该方法调用权重比较方便。此外，本申请实施例提供的方法可以适用于各种长度的查询词，对于短查询词也适用。

综上，本申请实施例提供的方法解决了现有技术中的综合多个维度特征的相关性获取方法存在的问题。

附图说明

为了清楚地理解本申请的具体实施方式，下面将描述本申请具体实施方式时用到的附图做一简要说明。

图1是本申请实施例提供的模型文件结构示意图；

图2是本申请实施例提供的文档与查询词的相关性获取方法的一种具体实施方式流程示意图；

图3是本申请实施例提供的步骤S24的一个具体示例流程示意图；

图4是本申请实施例提供的输出的含有多个查询词与文档的相关性得分的结果集示意图；

图5是本申请实施例提供的文档与查询词的相关性获取方法的另一种具体实施方式的流程示意图；

图6是本申请实施例提供的训练模型文件中行业视角词的多个特征的特征权重的一个具体示例的流程示意图；

图7是本申请实施例提供的文档与查询词的相关性获取装置的一种具体实施方式的结构示意图。

具体实施方式

为了清楚地理解本申请具体实施方式，在描述本申请具体实施方式之前，首先介绍描述本申请具体实施方式时用到的技术术语。

1、与查询词相关的特征

与查询词在文档中体现的特征，例如可以为查询词在文档中出现的次数，即词频。文档特征是文档自身的特征，其与查询词无关，作为示例，文档特征例如可以为文本长度(可以仅计算中文汉字)。

下面以汽车行业为例介绍与查询词相关的特征以及文档特征。作为示例，查询词为某一车型。其中，与查询词相关的特征例如可以为：

(1)涉及title的6个特征，若传入的文档没有title，则所有特征均为0。

(2)话题标签中是否含有查询词(TagHasView)

微博中话题标签是指以“#”符号包含的内容，形式上属于正文内容，但语义上类似于长文本的标题，具有表征主题的作用，如果话题标签中包含视角词，在一定程度上能够说明该文本与视角词相关性很大(也有推广性质的标签，和视角词相关性不大，需要依靠其它特征识别)。另外，微博正文中以中括号“【”“】”符号包含的内容也有类似于标题的含义，在此也作为TagHasView的特征提取对象。问答将文本处理成微博的形式进行处理。

(3)汽车属性词数量(AttributeNum)

汽车属性词包括汽车零部件、基本参数等，如发动机、排量、最小离地间隙等。如果短文本中该类词语出现次数较多，那么该文本相关性较高的可能性就越大。

(4)车型词数量(AllCarNum)

车型词数量较少时是仅提及了视角词或与其它车的对比，相关性较高；数量过多时多为车型罗列，相关性较低。

(5)汽车主题相似度(CarLDASimilarity)

汽车主题相似度主要衡量的是短文本所描述的主题是否为汽车相关，根据此特征可以排除那些仅仅提及视角词但描述主题并不是车的文本。汽车主题相似度越高，和视角车相关的可能性越大。

(6)车型词种类数(AllCarKinds)

如果短文本中出现的车型词种类过多，该文本很有可能是车型词罗列，相关性较低。

(7)查询车出现次数(ViewCarNum)

视角车出现次数较多的短文本，描述视角车的可能性越高，相关性越大。

(8)仅含查询词篇章句子占比(A_Percent)

(9)既含查询词又含其它词篇章句子占比(AB_Percent)

(10)仅含其它车型词篇章句子占比(B_Percent)

(11)查询车属性词篇章句子占比(CarAttributePercent)

(12)仅被提及或广告提及(IsMentionedOrAd)

(13)标题仅含查询词(IsTitleTypeA)

(14)标题既含查询词又含其它词(IsTitleTypeAB)

(15)标题仅含其它词(IsTitleTypeB)

(16)标题不含车型词(IsTitleTypeNull)

2、文档特征

文档特征是文档自身的特征，其与查询词无关。

作为示例，文档特征例如可以为：

(1)汉字数量(ChineseNum)

汉字数量主要指文章长度，长度越长，相关信息的描述就越多，相关性就越高。为了避免数字、链接、html标签等的影响，在此选用汉字的数量来代指文章长度。另外企业版微博长度不受微博140字的限制，过长会导致一部分其它车型的推广文章得分较高，为此特征提取时会特别把长度超过140的微博汉字数量特征设定为140。

(2)文章长度(docLength)

3、模型文件

模型文件的示意图可以如图1所示。在模型文件中包括多个行业视角词View₀至View_m及其分别对应的多个特征的特征权重f₀:w₁,f₁:w₂,......,f_n:w_n。

其中，m为行业视角词的数量，n为每个行业视角词中的特征数量，f为特征，w为特征权重。

在模型文件中除了包括多个行业视角词View₀至View_m及其分别对应的多个特征的特征权重f₀:w₁,f₁:w₂,......,f_n:w_n外，还可以包括通用词(即common)的多个特征的特征权重。设置该通用词的多个特征的特征权重是针对模型文件中的行业视角词不包括用户输入的查询词的情形，当出现此种情形时，该查询词的特征权重由模型文件中的通用词的特征权重确定。

在本申请实施例中，为了简化特征权重的获取过程，模型文件中的特征权重通过熵值法计算得到。

需要说明，在本申请实施例中，模型文件中可以包括一个行业视角词及其对应的多个特征的特征权重，也可以包括多个视角词及其对应的多个特征的特征权重。概括地说，模型文件中要包括至少一个行业视角词及其对应的多个特征的特征权重。

4、熵值法

熵值法可以用来判断一个事件的随机性及无序程度，指标的熵值可以衡量该指标的离散程度，离散程度越高，该指标对于综合评价的效用也就越大。

在本申请实施例中，一个行业视角词可以包括多个特征。作为示例，设定一个行业视角词包括n个特征，其中，n为大于或者等于2的整数。利用熵值法，可以得到每个特征的信息熵值。

其中，任意一个特征的信息熵值的计算公式如公式(1)所示：

其中，Y_i为一个行业视角词的某一特征归一化后的特征值；m为某一特征的训练数据的个数。

某特征权重可通过如下方式计算：

其中，e_i为特征i的信息熵值，n为一个行业视角对应的特征个数。

5、相关性等级规范

为了便于直观地判断文档与查询词的相关性强弱，也便于在实际中进行评测，本申请实施例还可以根据相关性得分即特征的加权求和预先设置一个相关性等级规范，规定文档与查询词的相关性由弱到强分为若干个等级，作为示例，相关性由弱到强划分为5个等级：弱、较弱、中、较强、强，等级标号为1至5，而不是仅仅给出一个相关或者不相关的二值关系。

6、信源

所谓信源，顾名思义，就是信息的来源。信号的产生(物)被称为信源，相对应的概念应该是信号的接受(物)被称为信宿。信息传播过程简单地描述为:信源→信道→信宿。其中，"信源"是信息的发布者，即上载者；"信宿"是信息的接收者，即最终用户。在传统的信息传播过程中，对信源的资格有严格的限制，通常是广播电台、电视台等机构，采用的是有中心的结构。而在计算机网络中，对信源的资格并无特殊限制，任何一个上网者都可以成为信源。在本申请实施例中，信源可以为微信、微博、网易新闻、论坛或者问答等等。

下面结合附图对本申请的具体实施方式进行详细描述。

正如背景技术部分所述，现有的综合多个维度特征的相关性获取方法存在以下技术问题：获取过程中的特征权重调用比较困难，并且对训练特征权重的训练数据的要求较高，另外，该learning to rank方法适用于长查询词的相关性获取，而对短查询词的相关性获取效果较差。

为了解决这些技术问题，本申请实施例提供了一种文档与查询词的相关性获取方法。该获取方法在获取到记载有某一行业数据的文档后，响应于用户输入的查询词，从文档中提取多个特征；然后对提取出的多个特征分别进行归一化处理，得到多个归一化特征；接着从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重；其中，所述模型文件中的特征权重通过熵值法计算得到；最后将各个归一化特征和与其对应的特征权重进行加权求和，得到的结果用于表征所述文档与查询词的相关性。

由上可知，本申请实施例提供的文档与查询词的相关性获取方法能够综合多个不同维度的特征对文档与查询词的相关性进行衡量。另外，在本申请提供的方法中，其采用的用于对特征进行加权求和的特征权重是通过熵值法计算得到的，而熵值法计算权重无需较多的训练数据，对计算权重过程中的训练数据的要求不高。另外，通过熵值法计算得到的权重存储在模型文件中，当使用这些权重时，可以很方便地访问模型文件，并从模型文件中快速查找到与查询词相对应的多个特征的特征权重，因此，该方法调用权重比较方便。此外，本申请实施例提供的方法可以适用于各种长度的查询词，对于短查询词也适用。

下面结合附图对本申请实施例提供的文档与查询词的相关性获取方法进行详细描述。

图2是本申请实施例提供的文档与查询词的相关性获取方法一种具体实施方式的流程示意图。如图2所示，该具体实施方式包括以下步骤：

S21：获取记载有某一行业数据的文档。

作为示例，可以通过网络爬虫从网络上爬取网络数据，获取记载有某一行业数据的文档(document)。

S22：响应于用户输入的查询词，从所述文档中提取多个特征，所述多个特征包括与所述查询词相关的特征和/或文档特征。

需要说明，为了能够综合多个维度特征来衡量相关性，在本申请实施例中，响应于用户输入的查询词，从文档中提取多个特征。该多个特征可以均为与查询词相关的特征，也可以均为文档特征，也可以兼而有之。另外，在本申请实施例中，提取到的每个特征均为数值型特征。

S23：对提取出的多个特征分别进行归一化处理，得到多个归一化特征。

在本申请实施例中，提取出的每个特征均为数值型特征，而这些不同特征的量纲、数量级和特征优劣的取向存在差异，所以，为了准确地获取到相关性，需要对这些特征进行归一化处理。作为示例，可以采用最小-最大规范化对特征进行归一化处理。归一化的公式如公式(1)所示：

其中，X表示归一化之前的特征，Y表示归一化之后的特征。maxX表示该特征的最大值，minX表示该特征的最小值。归一化之后，Y的取值范围为[0,1]。

S24：从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重。

根据上述介绍的模型文件可知，模型文件中包括至少一个行业视角词及其分别对应的多个特征的特征权重，所述模型文件中还包括通用词的多个特征的特征权重。如此，基于模型文件的结构，可以从预先训练好的模型文件中获取与查询词相对应的多个特征的特征权重。

此外，在本申请实施例中，模型文件为预先训练好的模型文件，将该预先训练好的模型文件存储在处理器的存储器中，当需要获取文档与查询词的相关性时，直接从处理器的存储器中调用。

作为本申请的一个具体实施例，如图3所示，步骤S24可以具体包括以下步骤：

S241：从所述模型文件中查找是否含有与所述查询词相匹配的行业视角词。

本步骤可以具体为按照字符串匹配方式从模型文件中查找与查询词相匹配的行业视角词，若从模型文件中查找到与查询词相匹配的行业视角词，执行S242，若从模型文件中未查找到与查询词相匹配的行业视角词，执行S244。

S242：从所述模型文件中获取与所述查询词相匹配的行业视角词的多个特征的特征权重。

S243：将所述与所述查询词相匹配的行业视角词的多个特征的特征权重作为与所述查询词相对应的多个归一化特征的特征权重。

S244：从所述模型文件中获取通用词的多个特征的特征权重。

S245：将所述通用词的多个特征的特征权重作为与所述查询词相对应的多个归一化特征的特征权重。

S25：将各个归一化特征与其对应的特征权重进行加权求和，得到的结果用于表征文档与查询词的相关性。

本步骤用公式表示为：

score_query,doc＝f₀w₀+f₁w₁+f₂w₂+...f_nw_n (4)

式中，score_query,doc为文档与查询词的相关性得分，

f为归一化特征，w为特征权重，0,1,2,…,n为特征序号。

需要说明，在本申请实施例中，通过将各个归一化特征与其对应的特征权重进行加权求和，得到的结果可以看作是文档与查询词的相关性得分，该相关性得分的高低可以表征文档与查询词的相关性的强弱。当相关性得分高时，两者的相关性较强，当相关性得到低时，两者的相关性较弱。

作为本申请的一具体示例，在获取到用于表征文档与查询词的相关性的加权求和结果后，可以输出该加权求和结果，以便用户更加直观地获取到文档与查询词的相关性。该输出的加权求和结果可以显示在计算机屏幕上。

此外，在本申请实施例中，可以是以一个查询词为例描述文档与查询词的相关性的。实际上，作为本申请实施例的扩展，也可以以多个查询词来描述文档与查询词的相关性。当以多个查询词来描述文档与查询词的相关性时，需要针对每一查询词分别执行步骤S22至S26，从而分别得到不同查询词与文档的相关性得分。在这种示例下，输出的加权求和结果为一结果集，该结果集里包括多个不同查询词分别与文档的相关性得分。图4示出了输出的含有多个查询词与文档的相关性得分的结果集示意图。在图4中，示出了k个查询词与文档的相关性得分。

作为本申请的一具体示例，为了便于直观地判断文档与查询词的相关性强弱，也便于在实际中进行评测，本申请实施例还可以根据预先设定的相关性等级规范以及相关性得分即特征的加权求和确定文档与查询词的相关性等级，即文档与查询词的相关性等级。如此，上述所述的获取方法的具体实施方式还可以包括以下步骤：

S26：根据预先设定的相关性等级规范以及加权求和结果确定文档与查询词的相关性等级。

以上为本申请实施例提供的文档与查询词的相关性获取方法一种具体实施方式。在该具体实施方式中，能够对多个特征进行加权求和计算相关性，因此，该方法可以综合多个不同维度的特征对文档与查询词的相关性进行衡量。另外，在本申请提供的方法中，其采用的用于对特征进行加权求和的特征权重是通过熵值法计算得到的，而熵值法计算权重无需较多的训练数据，对计算权重过程中的训练数据的要求不高。另外，通过熵值法计算得到的权重存储在模型文件中，当使用这些权重时，可以很方便地访问模型文件，并从模型文件中快速查找到与查询词相对应的多个特征的特征权重，因此，该方法调用权重比较方便。此外，本申请实施例提供的方法可以适用于各种长度的查询词，对于短查询词也适用。

此外，作为本申请的一可选实施例，模型文件与文档的信源有关，且模型文件与信源为一一对应关系。而且，信源也会在一定程度上影响文档与查询词的相关性，而且不同的信源，在获取文档与查询词的相关性时，考虑的特征也不尽相同，而且。不同信源中的同一特征对相关性的影响程度也不同，也就是说，同一特征在不同信源中的特征权重不同。因此，为了考虑将信源对文档与查询词的相关性的影响，本申请实施例还提供了一种文档与查询词的相关性获取方法的另一种具体实施方式。

图5是本申请实施例提供的文档与查询词的相关性获取方法的另一种具体实施方式的流程示意图。如图5所示，该另一具体实施方式包括以下步骤：

S51：获取记载有某一行业数据的文档。

该步骤与S21相同，为了简要起见，在此不再详细描述。

S52：根据所述文档中携带的信源标识确定文档的信源。

需要说明，在S51中获取的文档中一般均携带有信源标识，因此，本步骤可以根据文档中携带的信源标识确定文档的信源。

S53：响应于用户输入的查询词，从所述文档中提取多个特征，所述多个特征包括与所述查询词相关的特征和/或文档特征。

该步骤S53与S22相同，为了简要起见，在此不再详细描述。

S54：对提取出的多个特征分别进行归一化处理，得到多个归一化特征。

该步骤与S23相同，为了简要起见，在此不再详细描述。

S55：从与所述信源相对应的预先训练好的模型文件中获取与所述查询词相对应的多个特征的特征权重。

在本申请实施例中，模型文件与信源一一对应。有多少个信源，就有多少个模型文件。而且同一特征在不同信源中对应的特征权重也不同，因此，为了能够准确地衡量文档与查询词之间的相关性，本申请实施例从与所述信源相对应的预先训练好的模型文件中获取与所述查询词相对应的多个特征的特征权重。

S56：将各个归一化特征与其对应的特征权重进行加权求和，得到的结果用于表征所述文档与查询词的相关性。

该步骤S56与S25相同，为了简要起见，在此不再详细描述。

S57：根据预先设定的相关性等级规范以及加权求和结果确定文档与查询词的相关性等级。

该步骤S57与S26相同，为了简要起见，在此不再详细描述。

以上为本申请实施例提供的文档与查询词相关性的获取方法的另一种具体实现方式。该另一种具体实现方式不仅考虑了与查询词相关的特征以及文档特征对相关性的影响，而且还考虑了文档的信源对相关性的影响。如此，本申请具体实施方式能够综合更多纬度的特征来获取相关性，从而使得获取到的相关性更加准确、可靠。

另外，在本申请实施例中，在对特征进行加权求和时，用到了模型文件的特征权重，因此，作为本申请的又一具体实施方式，在获取文档与查询词的相关性之前，还可以包括：预先训练模型文件中行业视角词的多个特征的特征权重。

作为本申请的一具体示例，如图6所示，训练模型文件中行业视角词的多个特征的特征权重，可以具体包括以下步骤：

S61：从记载有某一行业数据的文档库中获取训练数据。

本步骤可以具体为：根据文档与查询词的相关性定义，从记载有某一行业数据的文档库中标注一部分数据，将标注的这一部分数据作为训练数据。

S62：从所述训练数据中提取每一行业视角词的多个特征，该多个特征包括行业视角词特征和/或文档特征。

需要说明，为了使得训练出的模型文件中的行业视角词的特征权重，能够满足用户多方面的需求，因此，训练出的模型文件中，可以包括多个行业视角词及其分别对应的多个特征的特征权重。

S63：对提取出的每一行业视角词的多个特征分别进行归一化处理，得到每一行业视角词的多个归一化特征。

根据公式(3)对提取出的每一行业视角词的多个特征分别进行归一化处理，得到每一行业视角词的多个归一化特征。

S64：利用熵值法分别计算每一行业视角词的每一归一化特征对应的特征权重，得到的结果作为模型文件中的行业视角词的多个特征的特征权重。

本步骤可以具体为：利用熵值法，首先根据公式(1)分别计算每一行业视角词的每一归一化特征对应的信息熵值e；

然后根据公式(2)分别计算每一行业视角词的每一归一化特征对应的特征权重。

以上为本申请实施例提供的文档与查询词的相关性获取方法的具体实施方式。基于上述文档与查询词的相关性获取方法的具体实施方式，本申请实施例还提供了文档与查询词的相关性获取装置的具体实施方式。具体参见以下实施例。

图7是本申请实施例提供的文档与查询词的相关性获取装置的结构示意图。如图7所示，该获取装置包括：

第一获取单元71，用于获取记载有某一行业数据的文档；

提取单元72，用于响应于用户输入的查询词，从所述文档中提取多个特征，所述多个特征包括与所述查询词相关的特征和/或文档特征；

归一化单元73，用于对提取出的多个特征分别进行归一化处理，得到多个归一化特征；

第二获取单元74，用于从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重；其中，所述模型文件中包括至少一个行业视角词及其分别对应的多个特征的特征权重，所述模型文件中还包括通用词的多个特征的特征权重；所述模型文件中的特征权重通过熵值法计算得到；

计算单元75，用于将各个归一化特征与其对应的特征权重进行加权求和，得到的加权求和结果用于表征所述文档与查询词的相关性。

作为本申请的一可选实施例，第二获取单元74可以具体包括：

查找子单元741，用于从所述模型文件中查找是否含有与所述查询词相匹配的行业视角词；

第一获取子单元742，用于若从模型文件中查找到与查询词相匹配的行业视角词，从所述模型文件中获取与所述查询词相匹配的行业视角词的多个特征的特征权重；将所述与所述查询词相匹配的行业视角词的多个特征的特征权重作为与所述查询词相对应的多个归一化特征的特征权重；

第二获取子单元743，用于若从模型文件中未查找到与查询词相匹配的行业视角词，从所述模型文件中获取通用词的多个特征的特征权重；将所述通用词的多个特征的特征权重作为与所述查询词相对应的多个归一化特征的特征权重。

本申请实施例提供的文档与查询词的相关性获取装置与上述文档与查询词的相关性获取方法相对应，因此，获取装置具有与获取方法相同的技术效果。为了简要起见，在此不再详细描述。

所述文档与查询词的相关性获取装置包括处理器和存储器，上述第一获取单元71、提取单元72、归一化单元73、第二获取单元74和计算单元75等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有的综合多个维度特征的相关性获取方法存在的问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述文档与查询词的相关性获取方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述文档与查询词的相关性获取方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：

获取记载有某一行业数据的文档；

可选地，所述所述从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重，具体包括：

根据所述文档中携带的信源标识确定文档的信源；

可选地，还包括：训练模型文件中行业视角词的多个特征的特征权重。

从记载有某一行业数据的文档库中获取训练数据；

可选地，在得到加权求和结果后，还包括：

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取记载有某一行业数据的文档；

根据所述文档中携带的信源标识确定文档的信源；

从记载有某一行业数据的文档库中获取训练数据；

可选地，在得到加权求和结果后，还包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其它可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其它可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其它可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其它可编程数据处理设备上，使得在计算机或其它可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其它可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其它数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其它类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其它内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其它光学存储、磁盒式磁带，磁带磁磁盘存储或其它磁性存储设备或任何其它非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文档与查询词的相关性获取方法，其特征在于，包括：

获取记载有某一行业数据的文档；

将各个归一化特征与其对应的特征权重进行加权求和，得到的加权求和结果用于表征所述文档与查询词的相关性；

2.根据权利要求1所述的方法，其特征在于，所述模型文件与信源对应，且模型文件与信源为一一对应关系；

根据所述文档中携带的信源标识确定文档的信源；

3.根据权利要求1-2任一项所述的方法，其特征在于，所述方法还包括：训练模型文件中行业视角词的多个特征的特征权重。

4.根据权利要求3所述的方法，其特征在于，所述训练模型文件中行业视角词的多个特征的特征权重，具体包括：

从记载有某一行业数据的文档库中获取训练数据；

5.根据权利要求1-2任一项所述的方法，其特征在于，在得到加权求和结果后，还包括：

6.一种文档与查询词的相关性获取装置，其特征在于，包括：

第一获取单元，用于获取记载有某一行业数据的文档；

计算单元，用于将各个归一化特征与其对应的特征权重进行加权求和，得到的加权求和结果用于表征所述文档与查询词的相关性；

所述第二获取单元具体包括：

7.一种存储介质，其特征在于，所述存储介质上存储有程序，所述程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。

8.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。