CN101122909A

CN101122909A - 文本信息检索装置以及文本信息检索方法

Info

Publication number: CN101122909A
Application number: CNA2006101154695A
Authority: CN
Inventors: 黑田昌芳; 桑原祯司; 伊藤荣朗; 虞立群; 陈奕秋; 汪更生; 林霜梅
Original assignee: Shanghai Jiaotong University; Hitachi Ltd
Current assignee: Shanghai Jiaotong University; Hitachi Ltd
Priority date: 2006-08-10
Filing date: 2006-08-10
Publication date: 2008-02-13
Anticipated expiration: 2026-08-10
Also published as: CN101122909B

Abstract

本发明涉及一种文本信息检索装置以及文本信息检索方法，其能够良好地反应用户在不同领域的广泛的兴趣，能够检索出良好地反映用户兴趣的检索结果。本发明的文本信息检索装置具备文章分词部、第一特征提取部、第二特征提取部、文本分类部、用户模板制作部、文本信息联想检索部。本发明的文本信息检索方法具备文章分词步骤、第一特征提取步骤、第二特征提取步骤、文本分类步骤、用户模板制作步骤、文本信息联想检索步骤。

Description

文本信息检索装置以及文本信息检索方法

技术领域

本发明涉及一种文本信息检索装置以及文本信息检索方法。

背景技术

近年来，文本信息检索技术逐渐用于数字电视以及DVD/HDD播放机等数字家电中。例如，以演员或歌手的名字检索电视节目的功能，是通过以演员或歌手的名字作为关键词在EPG(电子节目指南)的文本信息中进行检索的技术来实现的。而另一方面，还提出了联想检索技术，该技术是提取文本信息的特征，通过计算该特征的类似度来进行类似文本信息的检索。使用该技术，就可以从用户过去看过的节目的EPG文本信息中提取出特征信息，通过使用该特征信息而检索与该特征类似的EPG文本信息，从而能够检索出反应用户兴趣的节目。

在已有的检索技术中，日本特开平11-53394提出的检索技术是，在从基准文本(文本信息)中提取的基准文本向量上，结合用户过去使用的文本中的重要语句、其出现频度、处理次数等表示用户兴趣的向量，制作与基准文本相对应的兴趣文本向量，将从检索对象文本生成的文本向量与基准文本向量的类似度高的文本，作为反映用户兴趣的文本而检索出来。日本特开平11-53394的文本处理方法是以类似于基准文本的文本，在其中检索与用户兴趣相近的文本。

发明内容

但是，本发明人发现，在现有背景技术中，由于是根据用户兴趣的向量成分即关键词的重要度不同来进行检索，因此当用户具有广泛的兴趣时，不同兴趣领域的用户兴趣的向量成分即关键词将混在一起。例如，从喜欢与体育和经济相关的新闻的用户在过去观看过的新闻中，提取关键语句以及其出现频度的话，与体育相关的关键词和与经济相关的关键词将混在一起，不能很好地生成表现用户兴趣的向量，当然也不能检索出反映用户兴趣的文本。

因此，本发明就是为了解决上述问题而完成的，其目的在于提供一种文本信息检索装置以及文本信息检索方法，其能够进行正确地反映用户多方面的兴趣的文本检索。

在本发明中，将过去处理过的文本中的重要语句自动地按照不同领域进行分类，仅仅使用特定领域中包含的重要语句计算反映用户兴趣的文本的类似度。

具体而言，本发明涉及一种文本信息检索装置，其特征在于，具备：文章分词部，从文本信息切分出词语；第一特征提取部，使用从资源文本信息中被文章分词部切分出的词语，提取出资源文本的第一特征参数；第二特征提取部，使用从用户兴趣文本信息中被文章分词部切分出的词语，提取出表现用户兴趣的第二特征参数；文本分类部，用第二特征参数和分类参数对用户兴趣文本进行分类；用户模板制作部，基于文本分类部中的分类，将第二特征参数分为两组或两组以上的分类，制作反映用户兴趣的用户模板；文本信息联想检索部，按照每个分类计算出第一特征参数与在用户模板中的第二特征参数之间的相似度，并基于该计算出的相似度检索文本信息，给出检索结果。

在本发明的文本信息检索装置中，由于按照用户兴趣的不同领域来分类存储与用户兴趣相关的关键词，从而能够体现用户多兴趣的特点以生成更好的用户模板。并且在进行检索的时候，能够将第一特征参数和第二特征参数的相似度计算限制在某一个类别内部，由于减少了不同类别的特征词之间的相互干扰，因此能够提高匹配的精度，从而更好地检索出反映用户兴趣的文本。

另外，本发明的文本信息检索装置，优选还具备分类训练部，它使用文本分类训练集，利用文章分词部从该文本分类训练集中切分出的词语，并基于该词语训练用来分类文本信息的分类参数。

上述本发明的文本信息检索装置中还优选为，第二特征选择部对被文章分词部切分出的词语w_i，按照下式(1)计算该词语的权重Weight(w_i)，并将该权重大于预定阈值threshold的词语w_i及其权重Weight(w_i)作为第二特征参数，

Weight (w_{i}) = TF (w_{i}) \times ECE (w_{i}) = TF (w_{i}) \times P (w_{i}) \underset{j}{Σ} P (v_{j} \ w_{i}) \log \frac{P (v_{j} \ w_{i})}{P (v_{j})} - - - (1)

其中，TF(w_i)是词语w_i在当前文本中出现的频率，ECE(w_i)是词语w_i的期望交叉熵，P(w_i)是词语w_i出现的概率，P(v_j)是文本类别v_j出现的概率，P(v_j\w_i)是出现词语w_i的条件下出现类别v_j的概率。

这种本发明的文本信息检索装置，由于还具备分类训练部，可以通过用文本分类训练文本集来训练用来分类文本信息的分类参数，从而能够使用该参数对用户兴趣文本进行更好地分类，进而使得用户不同领域的广泛的兴趣能够更好地体现在用户模板中。这样，在文本信息联想检索部中根据用户模板中的用户兴趣特征检索文本时，便能更好地检索出反映用户兴趣的结果。

进一步，本发明的文本信息检索装置中，文本分类部优选采用朴素贝叶斯分类算法，按照下式(2)计算文本属于某个类别的概率P(v_j\d)，并根据取的最大概率P(v_j\d)的j来判断文本属于类别v_j：

V_{NB} = \max P (v_{j} \ d) = \max p (v_{j} \ w_{i}, w_{2}, \cdot \cdot \cdot w_{n}) = \max P (v_{j}) Π_{i = 1}^{n} P (w_{i} \ v_{j}) - - - (2)

其中，P(v_j\d)表示文档d出现的条件下，类别v_j出现的条件概率，(w₁，w₂，…，w_n)是文档d的向量表示，P(v_j)是文档类别v_j出现的概率，P(w_i\v_j)是出现类别v_j的条件下出现词语w_i的概率。

这种本发明的文本信息检索装置，由于还具备文本分类部，使用了简单、快速、易于维护且具有较高分类精度的朴素贝叶斯分类器对用户兴趣文本进行分类，使得用户兴趣特征能够分类地存放在用户模板中，因此，文本信息联想检索部可以将用户兴趣特征和资源文本特征的匹配限制在某一领域内部，从而减少类别之间的相互干扰，提高检索精度，检索出更加符合用户实际兴趣需求的文本。

进一步，本发明的文本信息检索装置中，优选还具备：语义相似网制作部，制作用来记录从语义相似网训练文本集被文章分词部切分出的词语之间的共现频率、平均距离、相似度、上下位关系的语义相似网；特征向量扩展部，从语义相似网中选择与第二特征参数中的特征词相似度高的词语，以该被选择的词语为基础，对用户模板的第二特征参数进行扩展，用户模板制作部基于文本分类部的分类，将被扩张的第二特征参数分为两组或两组以上的分类，制作反映用户兴趣的用户模板。

文本信息检索装置通过语义相似网，可以对用户感兴趣文本的特征向量进行联想扩展，将部分与用户兴趣特征词非常相似或密切相关的词语提取出来，并将其作为扩展特征加入到扩展特征向量中。据此，可以将文本信息联想检索部中基于关键词的精确检索提高到基于用户兴趣知识的模糊检索层面上来，从而克服关键词的精确匹配所带来的查不准和查不全问题，真正检索出符合用户兴趣需求的文本。

在本发明的使用语义相似网对特征向量进行扩展的文本信息检索装置中，特征向量扩展部优选按照以下公式(3)计算在语义相似网中所含的词语w_s的权重RealWeight(w_s)，当该w_s的权重RealWeight(w_s)大于规定的权重阈值时，从语义相似网中选择该词语w_s，

RealWeight(w_s)＝RealWeight(w_o)×Sim(w_o，w_s) (3)

其中，w_o和RealWeight(w_o)是在第二特征提取部中提取出的词语w_o以及由公式(2)计算得到的词语w_o的特征权重，Sim(w_o，w_s)是词语w_o和词语w_s的相似度，该相似度由以下公式(4)计算得到，

Sim(w_o，w_s)＝α×Sim_lexical(w_o，w_s)+β×Sim_statistic(w_o，w_s) (4)

其中，Sim_lexical(w_o，w_s)由以下公式算出，

{Sim}_{lexical} (w_{o}, w_{s}) = 1 - \frac{{depth}^{2}}{({4 \max Depth}^{2} + δ)}

其中，depth是词语w_o和词语w_s在语义树中的路径距离，maxDepth为语义树的最大深度，δ为调整参数，

Sim_stastic(w_o，w_s)由以下公式算出，

{Sim}_{statistic} (w_{a}, w_{s}) = (co_fre q_{w_{o} w_{s}} \times \frac{α}{\overset{&OverBar;}{dist (w_{o}, w_{s})} + α}) / Entropy (w_{s})

其中，co_freq_wows为词语w_o和词语w_s在设定范围内的同现频率，

为词语w_o和词语w_s的平均共现距离，α为调整参数。

其中，Entropy(w_s)由以下公式算出，

Entropy (w_{s}) = - \underset{i}{Σ} P (v_{i} \ w_{s}) \log (P (v_{i} \ w_{s}))

这里，P(v_i\w_s)为语义相似网训练文本集中特征w_s出现的条件下，出现类别v_i条件概率。

本发明的文本信息检索装置，由于还具备语义相似网训练部，该语义相似网训练部通过对语义相似网训练文本集进行学习，提取里面所蕴含的词语之间的包含关系、相关关系和相似关系并记录保存。在进行用户兴趣特征扩展时，利用语义相似网综合考虑词语之间的词义相似性和相关性的语义相似关系对用户兴趣特征进行扩展，从而克服用户兴趣的关键词表达本身固有的同义性和语义分歧性，以及表示时没有考虑到词序或语境等问题，进而使得基于扩展后的用户模板表示产生的检索结果更加符合用户的兴趣需求。

并且，本发明还提供一种文本信息检索方法，其特征在于，具备：文章分词步骤，从文本信息切分出词语；第一特征提取步骤，使用从资源文本信息中被文章分词步骤切分出的词语，提取出资源文本的第一特征参数；第二特征提取步骤，使用从用户兴趣文本信息中被文章分词步骤切分出的词语，提取出表现用户兴趣的第二特征参数；文本分类步骤，用第二特征参数和分类参数对用户兴趣文本进行分类；用户模板制作步骤，基于文本分类步骤中的分类，将第二特征参数分为两组或两组以上的分类，制作反映用户兴趣的用户模板；文本信息联想检索步骤，按照每个分类，计算出第一特征参数与在用户模板中的第二特征参数之间的相似度，并基于该计算出的相似度检索文本信息，并给出检索结果。

在本发明的文本信息检索方法中，由于按照用户兴趣的不同领域来分类存储与用户兴趣相关的关键词，从而能够体现用户多兴趣的特点以生成更好的用户模板。并且在进行检索的时候，能够将第一特征参数和第二特征参数的相似度计算限制在某一个类别内部，由于减少了不同类别的特征词之间的相互干扰，因此能够提高匹配的精度，从而更好地检索出反映用户兴趣的文本。

另外，本发明的文本信息检索方法，优选还具备分类训练步骤，其使用文本分类训练集，利用文章分词步骤从该文本分类训练集中切分出词语，并基于该词语训练用来分类文本信息的分类参数。

上述本发明的文本信息检索方法中还优选为，在第二特征选择步骤中，对在词语切分步骤中切分出的词语w_i，按照下式(1)计算该词语的权重Weight(w_i)，并将该权重大于预定阈值threshold的词语w_i及其权重Weight(w_i)作为第二特征参数，

Weight (w_{i}) = TF (w_{i}) \times ECE (w_{i}) = TF (w_{i}) \times P (w_{i}) \underset{j}{Σ} P (v_{j} \ w_{i}) \log \frac{P (v_{j} \ w_{i})}{P (v_{j})} - - - (1)

这种本发明的文本信息检索方法，由于还具备分类训练步骤，可以通过用文本分类训练文本集来训练用来分类文本信息的分类参数，从而能够使用该参数对用户兴趣文本进行更好地分类，进而使得用户不同领域的广泛的兴趣能够更好地体现在用户模板中。这样，在文本信息联想检索步骤中根据用户模板中的用户兴趣特征检索文本时，便能更好地检索出反映用户兴趣的结果。

进一步，本发明的文本信息检索方法，在文本分类步骤中，采用朴素贝叶斯分类算法，按照下式(2)计算文本属于某个类别的概率P(v_j\d)，并根据取的最大概率P(v_j\d)的j来判断文本属于类别v_j：

V_{NB} = \max P (v_{j} \ d) = \max P (v_{j} \ w_{1}, w_{2}, \cdot \cdot \cdot, w_{n}) = \max P (v_{j}) Π_{i = 1}^{n} P - (w_{i} \ v_{j}) - - (2)

其中，P(v_j\d)表示文档d出现的条件下，类别v_j出现的条件概率，(w₁，w₂，…，w_n)是文档d的向量表示，P(v_j)是文档类别v_j在文本分类训练集中出现的概率，P(w_i\v_j)是出现类别v_j的条件下出现词语w_i的概率。

这种本发明的文本信息检索方法，由于还具备文本分类步骤，使用了简单、快速、易于维护且具有较高分类精度的朴素贝叶斯分类器对用户兴趣文本进行分类，使得用户兴趣特征能够分类地存放在用户模板中，因此在文本信息联想检索步骤中可以将用户兴趣特征和资源文本特征的匹配限制在某一领域内部，从而减少类别之间的相互干扰，提高检索精度，检索出更加符合用户实际兴趣需求的文本。

进一步，本发明的文本信息检索方法中，优选还具备：语义相似网制作步骤，制作用来记录在文章分词步骤中从用户兴趣文本切分出的词语之间的共现频率、平均距离、相似度、上下位关系的语义相似网；特征向量扩展步骤，从语义相似网中选择与第二特征参数相似度高的词语，以该被选择的词语为基础，对用户模板的第二特征参数进行扩展，在用户模板制作步骤中，基于文本分类步骤中的分类，将被扩张的第二特征参数分为两组或两组以上的分类，制作反映用户兴趣的用户模板。

文本信息检索方法通过语义相似网，可以对用户感兴趣文本的特征向量进行联想扩展，将部分与用户兴趣特征词非常相似或密切相关的词语提取出来，并将其作为扩展特征加入到扩展特征向量中。据此，可以在文本信息联想检索步骤中将基于关键词的精确检索提高到基于用户兴趣知识的模糊检索层面上来，从而克服关键词的精确匹配所带来的查不准和查不全的问题，检索出真正符合用户兴趣需求的文本。

本发明文本信息检索方法，在上述特征向量扩展步骤中，优选按照以下公式(3)计算在语义相似网中所含的词语w_s的权重RealWeight(w_s)，当该w_s的权重RealWeight(w_s)大于规定的权重阈值时，从语义相似网中选择该词语w_s，

RealWeight(w_s)＝RealWeight(w_o)×Sim(w_o，w_s) (3)

其中，w_o和RealWeight(w_o)是在第二特征提取步骤中提取出的词语w_o以及由公式(2)计算得到的词语w_o的特征权重，Sim(w_o，w_s)是词语w_o和词语w_s的相似度，该相似度由以下公式(4)计算得到，

Sim(w_o，w_s)＝α×Sim_lexical(w_o，w_s)+β×Sim_statistic(w_o，w_s) (4)

其中，Sim_lexical(w_o，w_s)由以下公式算出，

{Sim}_{lexical} (w_{o}, w_{s}) = 1 - \frac{{depth}^{2}}{({4 \max Depth}^{2} + δ)}

Sim_statist(w_o，w_s)由以下公式算出，

{Sim}_{statistic} (w_{o}, w_{s}) = (co_fre q_{w_{o} w_{s}} \times \frac{α}{\overset{&OverBar;}{dist (w_{o}, w_{s})} + α}) / Entropy (w_{s})

为词语w_o和词语w_s的平均共现距离，α为调整参数。

其中，Entropy(w_s)由以下公式算出，

Entropy (w_{s}) = - \underset{i}{Σ} P (v_{i} \ w_{s}) \log (P (v_{i} \ w_{s}))

本发明的文本信息检索方法，由于具备语义相似网训练步骤，该步骤中通过对大规模的语料库进行学习，提取里面所蕴含的词语之间的包含关系、相关关系和相似关系并记录保存。在进行用户兴趣特征扩展时，利用语义相似网中综合考虑词语之间的词义相似性和相关性的语义相似关系对用户兴趣特征进行扩展，从而克服用户兴趣的关键词表达本身固有的同义性和语义分歧性，以及表示时没有考虑到词序或语境等问题，进而使得基于扩展后的用户模板表示产生的检索结果更加符合用户的兴趣需求。

综上，本发明的文本信息检索装置以及文本信息检索方法，能够良好地反应用户在不同领域的广泛的兴趣，能够检索出良好地反映用户兴趣的检索结果。

附图说明

图1是文本信息检索装置的一例实施方式的结构示意图。

图2中，(a)是提取第一特征参数的流程示意图，(b)是提取第二特征参数的流程示意图。

图3是表示文本分类部工作的流程示意图。

图4是图1所示文本信息检索装置的用户模板制作部工作的流程示意图。

图5是图1所示文本检索装置中制作的用户模板的结构示意图。

图6是图1所示文本信息检索装置所实施的文本信息检索方法的

实施步骤。

图7是文本信息检索装置的另一实施方式的结构示意图。

图8是语义相似网的结构的示意图。

图9是表示语义相似网的具体训练过程的流程图。

图10是特征向量扩展部工作的流程图。

图11是图7所示文本信息检索装置的用户模板制作部工作的流程示意图。

图12是图7所示文本检索装置中制作的用户模板的结构示意图。

图13是图7所示文本信息检索装置所实施的文本信息检索方法的

实施步骤。

图14是本发明文本信息检索装置的又一例实施方式的结构示意图。

图15是图14所示文本信息检索装置的文本分类器训练部工作的流程图；

图16是图14所示文本信息检索装置所实施的文本信息检索方法的实施步骤。

图17是本发明文本信息检索装置的再一例实施方式的结构示意图。

图18是图17所示本发明文本信息检索装置所实施的文本信息检索方法的实施步骤。

具体实施方式

下面参照附图对本发明优选的具体实施方式进行说明。

实施例一

图1是本发明的文本信息检索装置的一例实施方式的结构示意图。如图1所示，文本信息检索装置100包括：文章分词部104、第一特征选择部204、资源文本保存部206、第二特征选择部106、文本分类部108、用户模板制作部112、文本信息联想检索部300。

文本信息检索装置100实施文本信息检索方法，更具体地来说，文章分词部104进行文章分词步骤；第一特征选择部204进行第一特征选择步骤；第二特征选择部106进行第二特征选择步骤；文本分类部108进行文本分类步骤；用户模板制作部112进行用户模板制作步骤；文本信息联想检索部300进行文本信息联想检索步骤。

文章分词部104从文本信息，例如从资源文本集202或兴趣文本集102切分出词语，输出文本被分词后得到的词语序列，并将其传输给第一特征选择部204或第二特征选择部106。

第一特征选择部204使用从资源文本集202中被文章分词部104切分而得到的词语集，提取出资源文本的第一特征参数，将其存储在资源文本保存部206中，供文本信息联想检索部300使用。

第二特征选择部106使用从用户兴趣文本集102中被文章分词部104切分而得到的词语集，提取出第二特征参数，将其传输给文本分类部108。

文本分类部108按照分类参数保存部110中保存的参数(也就是按照规定的类别)，对第二特征参数进行分类，并将第二特征信息、类别信息、类别与特征关系的信息传输给用户模板制作部112。

用户模板制作部112中，使用得到的第二特征信息、类别信息、类别与特征关系的信息来制作用户模板，并将用户模板存储在用户模板保存部114中，供文本信息联想检索部300使用。

在文本信息联想检索部300中，按照每个分类，计算第一特征参数和用户模板中的第二特征参数的相似度，并依据相似度大小给出搜索结果。

资源文本集202是资源文本的集合，定义检索的范围。

兴趣文本集102是用户兴趣文本的集合，是用户感兴趣的所有文本信息的集合。

图2是表示提取第一特征参数以及第二特征参数的流程示意图。其中，图(a)是提取第一特征参数的流程示意图，图(b)是提取第二特征参数的流程示意图。图(a)与图(b)的区别仅仅在于，两个流程使用的文本集不相同。下面，以图(b)为例，对提取第二特征参数的流程进行说明。

首先，对每一篇用户感兴趣的文本进行分词处理，得到词语序列，然后使用TF*ECE评估函数，对所有词语进行评分，具体按照如下公式(1)来计算每个词语的权重：

Weight (w_{i}) = TF (w_{i}) \times ECE (w_{i}) = TF (w_{i}) \times P (w_{i}) \underset{j}{Σ} P (v_{j} \ w_{i}) \log \frac{p (v_{j} \ w_{i})}{P (v_{j})} - - - (1)

其中，“TF(w_i)”是词语“w_i”在文本中出现的频率(TF：TermFrequency)，“ECE(w_i)”是词语“w_i”的期望交叉熵(ECE：Expected CrossEntropy)，“P(w_i)”是词语“w_i”出现的概率，“P(v_j)”是文本类别“v_j”出现的概率，“P(v_j\w_i)”是出现词语“w_i”的条件下出现类别“v_j”的概率。

然后，根据分数确定一个阈值“threshold”，并挑选出评估分值高于阈值的词语，将其作为特征词添加到文本的特征向量中。

第一特征选择部204按照上述流程从资源文本集202中提取出资源文本的第一特征参数，将其存储在资源文本保存部206中，供文本信息联想检索部300使用。

第二特征选择部106按照上述流程从兴趣文本集102中提取出兴趣文本的第二特征参数，将其传输给文本分类部108。

图3是表示本实施方式中文本分类部108工作的流程示意图。图3是按照朴素贝叶斯文本分类算法进行分类处理的处理流程，具体如下。

首先，对于经过第二特征选择部106得到的文本特征向量按照如下公式(2)计算该文本属于每个类别的概率P(v_j\d)：

V_{NB} = \max P (v_{j} \ d) = \max P (v_{j} \ w_{1}, w_{2}, \cdot \cdot \cdot, w_{n}) = \max P (v_{j}) Π_{i = 1}^{n} P (w_{i} \ v_{j}) - - - (2)

其中，“P(v_j＼d)”表示文档“d”出现的条件下，类别“v_j”出现的条件概率，“(w₁，w₂，…，w_n)”是文档“d”的向量表示，P(v_j)”是文档类别“v_j”出现的概率，“P(w_i＼V_j)”是出现类别“V_j”的条件下出现词语“w_i”的概率。根据取的最大概率“P(v_i/d)”的“j’’来判定文本属于类别“v_j”。V_NB表示使用朴素贝叶斯(NB：Bayes、)文本分类方法的到文本类别，max表示最大条件概率的P(v_j＼d)。根据最大概率“P(v_j＼d)”的“j”来判定文本属于类别“V_j”。

分类处理方法，除了上述朴素贝叶斯文本分类算法之外，还可以采用其它的文本分类算法如：Rocchio算法、K-近邻算法(KNN：K-Nearest Neighbor)、支持向量机(SVM：Support Vector Machine)、决策树分类(Decision Tree)、神经网络(NNet：Neural network)等。

在对第二特征信息进行分类之后，分类文本分类部108将第二特征信息、类别信息、类别与特征关系的信息传输给用户模板制作部112。

图4是本实施方式的用户模板制作部工作的流程示意图。

每经过一次用户兴趣学习后，都会根据文本的类别信息，按照下述公式(12)和(13)来计算特征项的实际权重和最近更新时间，并写入用户模板的相应兴趣类别中：

realWeigh t^{'} (w_{i}) = \frac{δ}{δ + (T - lastUpdateTine)} \times realWeight (w_{i}) + Weight (w_{i}) - - - (12)

lastUpdateTime′＝T (13)

其中，“realWeight′(w_j)”和“lastUpdateTime′”是“realWeight(w_f)”和“lastUpdateTime”的更新值，初始时“realWeight(w_i)”值为“O”，“lastUpdateTime”对应于用户模板中的兴趣节点：

(keyword_i，realWeight(w_i)，weight(w_i)，lastUpdateTime_i)

创建或修改的系统时间，“T”是当前系统时间，“Weight(w_i)”是特征词在特征选择时得到的权重，“δ”是一个调整系数。

上式(12)的意思是，如果用户模板中该向量所属的兴趣类别中已存在具有相同关键词的兴趣节点，则只需修改原有节点的实际权重项和时间项即可；反之，若没有则直接创建一个新的兴趣节点。

实际权重的修改按照上述的公式(12)，即将原有的实际权重“realWeight(w_i)”按照原来的时间项“lastUpdateTime”与当前系统时间“T”之间差距的大小来降低一定的比例，然后与“Weight(w_i)”相加来得到新的权重“realWeight′(w_i)”。调整系数“δ”的值越小，特征项权重随时间降低的速度也就越快。也就是说，更能实时地反应用户兴趣的变化。时间项修改为当前系统时间即可，如上式(13)所示。

待所有节点加入完毕后，判断用户模板中该兴趣类别的特征词数量是否超过了预定容量“C”，若超过了就要根据实际权重大小淘汰掉超过预定容量的特征项。最后，按照各个特征节点的实际权重重新计算其归一化权重，并写入用户模板。

图5是在本发明的文本检索装置中制作的用户模板的结构示意图。

图5中，“Category 1”表示用户的第1个兴趣类别，“Category 2”则表示用户的第2个兴趣类别，......，“Category n”表示用户的第n个兴趣类别。

其中的“(name，weight，number)”是描述用户兴趣类别特征的记录结构，“name”是兴趣类别的名称，“weight”是类别权重，它是属于该类的兴趣样本数占所有的兴趣样本数的百分比，“number”是属于该类别的兴趣样本的数量。举例而言，例如，兴趣类别的名称“name”可以是体育、财经、教育、医疗、家庭等等。

“Feature 11”表示用户的第1个兴趣类别的第1个特征，“Feature12”表示用户的第1个兴趣类别的第2个兴趣特征，......，“Feature 1m”表示用户的第1个兴趣类别的第m个兴趣特征，......，“Feature nm”表示用户的第n个兴趣类别的第m个特征。

“(keyword，realWeight，weight，lastUpdateTime)”是描述用户兴趣每个类别下面的特征项的记录结构，其中：“keyword”是特征词；“realWeight”是特征词的实际权重，它反映了特征词与用户兴趣的相关程度；“weight”是特征词的余弦归一化权重，它是该特征词的实际权重与所有特征词实际权重的平方和的平方根的比值；“lastUpdateTime”是特征词权重信息最近一次更新的时间。

用户在使用如图1所示的文本信息检索装置100时，在文本信息联想检索部300中，按照每个分类，计算第一特征参数和用户模板中的第二特征参数的相似度，并依据相似度大小给出搜索结果。

图6是图1所示文本信息检索装置所实施的文本信息检索方法实施步骤：

资源文本经过文章分词步骤以后，得到词语序列，然后通过第一特征选择得到重要特征，作为第一特征参数保存起来；

用户感兴趣的文本经过文章分词以后得到词语序列，再通过第二特征选择提取重要特征作为第二特征参数，然后利用预先确定的文本分类参数对第二特征参数所代表的文本进行分类，然后按照文本分类步骤所判定的类别，将第二特征参数存储至用户模板中；

文本信息联想检索步骤计算第一特征参数和第二特征参数的相似度，并依据相似度大小给出搜索结果。

实施例二

图7是本发明的文本信息检索装置的另一实施方式的结构示意图。

相比于图1所示的实施方式，图7所示的文本信息检索装置多了语义相似网(SSN)制作部118和使用语义相似网对用户兴趣的第二特征参数进行扩展的特征向量扩展部122。

语义相似网(SSN)制作部118进行语义相似网制作步骤，特征向量扩展部122中进行特征向量扩展步骤。

具体而言，图7所示的文本信息检索装置100包括：文章分词部104、第一特征选择部204、资源文本保存部206、第二特征选择部106、文本分类部108、语义相似网制作部118、特征向量扩展部122、用户模板制作部112。

文章分词部104从文本信息，例如从资源文本集202、或兴趣文本集102、或语义相似网训练文本集116切分出词语，输出文本被分词后得到的词语序列，并将其传输给第一特征选择部204、或第二特征选择部106、或语义相似网制作部118。

文本分类部108按照分类参数保存部110中保存的参数(也就是按照规定的类别)，对第二特征参数进行分类，并将第二特征信息、类别信息、类别与特征关系的信息传输给用户模板制作部112以及特征向量扩展部126。

语义相似网制作部118，使用大规模语料库即语义相似网训练文本集116进行训练，提取其中所包含概念之间的包含、相关、相似关系构成语义相似网，并将其保存在语义相似网保存部120中，供特征向量扩展部122使用。

在特征向量扩展部122中，使用第二特征信息、类别信息、类别与特征关系的信息，利用语义相似网对第二特征参数进行扩展，联想出同义词和相关词，并将它们传输给用户模板制作部112。

用户模板制作部112中，按照每个分类，将被扩展的第二特征参数分为两组或两组以上的分类，也就是说，将第二特征信息、类别信息、类别与特征关系的信息、以及上述同义词和相关词，分为两组或两组以上的分类，由此来制作反映用户兴趣的用户模板，并将用户模板存储在用户模板保存部114中，供文本信息联想检索部300使用。

资源文本集202是资源文本的集合，定义检索的范围。

语义相似网训练文本集116是对语义相似网进行训练的文本集，仅仅在对语义相似网进行训练时使用。

在实施例二中，与实施例一同样地提取第一特征参数/或第二特征参数。

并且，在实施例二中，文本分类部108工作的流程与实施例一的完全相同。其分类处理方法，除了上述朴素贝叶斯文本分类算法之外，还可以采用其它的文本分类算法如：Rocchio算法、K-近邻算法(KNN：K-Nearest Neighbor)、支持向量机(SVM：Support Vector Machine)、决策树分类(Decision Tree)、神经网络(NNet：Neural network)等。

图8是表示本发明的语义相似网的结构的示意图。它是语义相似网制作部118通过对大规模的语料库进行学习，提取其中所蕴含的包含关系、相关关系和相似关系来构建的语义相似网络(SSN：SemanticSimilarNetwork)。SSN由包含关系网(Containing Relation)、相关关系网(Correlative Relaion)和相似关系网(Similar Relation)组成。

语义相似网定义为SSN＝(W，R)，其中，“W”表示词汇空间，W＝(w₁，w₂，...，w_n)，向量w_i＝(key，weight)，“key”是词语，“weight”是词语出现的频数：“R”表示关系空间，R＝(r₁，r₂，...，r_m)，向量r_i＝(father_node，son_list，relate_list，co_frequency，distance，similar_list，similarity)，“father_node”是词语的父节点，“son_list”是词语的子节点列表，“relate_list”是词语的相关节点列表，“co_frequency”是词语与相关节点的共现频率，“distance”是词语与相关节点共现的平均距离，“similar_list”是词语的相似节点列表，“similarity”词语与相似节点的相似度。

词语的父节点和子节点序列在图8中体现在包含关系中，包含关系实质上是一种纵向的父子关系，它记录概念的父节点和子节点序列，用树形结构来表示。如“体育运动”是“球类运动”父节点，“篮球”和“足球”是“球类运动”的子节点。

词语的相关节点和相似节点在图8中体现在相关关系和相似关系中，相关关系记录概念的相关节点序列及其属性，包括共现频率和平均距离，相似关系记录概念的相似节点序列及其相似度信息。

图9是表示语义相似网的具体训练过程的流程图。下面参照图9对语义相似网的训练过程进行说明。

首先，对SSN的所有训练文本进行分词处理，得到词语序列。然后按照公式(8)计算词语之间的词义相似度，即：

{Sim}_{lexical} (w_{o}, w_{s}) = 1 - \frac{{depth}^{2}}{({4 \max Depth}^{2} + δ)} - - - (8)

其中，“depth”表示两个概念在语义树中的路径距离，“maxDepth”表示语义树中两个概念之间路径长度的最大值，“δ”是一个调整系数。

接着，统计训练集中共现词语的共现频率和共现平均距离，以提取词语之间的相关关系。按照公式(9)计算统计相似度(相关度)，即：

{Sim}_{statistic} (w_{o}, w_{s}) = (co_fre q_{w_{o} w_{s}} \times \frac{α}{\overset{&OverBar;}{dist (w_{o}, w_{s})} + α}) / Entropy (w_{s}) - - - (9)

其中，“co_freq_wows”是指词语“w_o”和相关词“w_s”的共现频率，

是词语“w_o”和相关词“w_s”的平均共现距离，“α”为可调参数，“Entropy(ws)”是相关词“w_s”的信息熵，其计算方法如下式(10)所示：

Entropy (w_{s}) = - \underset{i}{Σ} P (v_{i} \ w_{s}) \log (P (v_{i} \ w_{s})) - - - (10)

其中，P(v_i\w_s)为语义相似网训练文本集中特征w_s出现的条件下，出现类别v_i条件概率。

最后，综合词语之间的同义关系和相关关系，按照如下公式(4)计算词语之间的语义相似度，即：

Sim(W_o，w_s)＝α×Sim_lexical(w_o，w_s)+β×Sim_statistic(w_o，w_s) (4)

其中，“Sim(w_o，w_s)”表示词语w_o和w_s的语义相似度，Sim_lexical(w_o，w_s)表示概念w_o和w_s的词义相似度，sim_statist(w_o，w_s)表示词语w_o和w_s的相关度，“α”和“β”是比例系数，满足如下关系：

α，β∈(0，1)且α+β＝11。

图10是本发明中特征向量SSN扩展部工作流程图。

首先，对于特征向量中的每一个特征节点，到语义相似网SSN中去查找该节点的相似节点。

然后，按照公式(3)计算从特征选择部得出的特征向量中的源节点在语义相似网SSN中相似节点的实际权重RealWeight(w_s)：

RealWeight(w_s)＝RealWeight(w_o)×Sim(w_o，w_s) (3)

其中，“RealWeight(w_o)”从特征选择部得出的特征向量中源节点“w_o”的实际权重，“RealWeight(w_s)”是源节点“w_o”的相似节点“w_s”的实际权重，“Sim(w_o，w_s)”是特征节点“w_o”与其相似节点“w_s”的语义相似度。

然后，将实际权重满足下式(11)的相似节点作为该特征节点的扩展节点提取出来，加入用户兴趣的扩展特征向量中。

realWeight(w_s)≥α×threshold (11)

其中，“threshold”表示该特征向量在文本特征选择时设定的阈值，α∈(0，1)是一个可调的系数。

图11是本实施方式的用户模板制作部工作的流程示意图。

{realWeight}^{'} (w_{i}) = \frac{δ}{δ + (T - lastUpdateTine)} \times realWeight (w_{i}) + Weight (w_{i}) - - - (12)

lastUpdateTime′＝T (13)

其中，“realWeight′(w_i)”和“lastUpdateTime′”是“realWeight(w_i)”和“lastUpdateTime”的更新值，初始时“realWeight(w_i)”值为“0”，“lastUpdateTime”对应于用户模板中的兴趣节点：

(keyword_i，realWeight(w_i)，weight(w_i)，flgSSNExpand_i，lastUpdateTime_i)

此外，对于特征向量中的节点其“flgSSNExpand”为“1”，扩展特征向量中的节点其“flgSSNExpand”为“0”。待所有节点加入完毕后，判断用户模板中该兴趣类别的特征词数量是否超过了预定容量C，若超过了就要根据实际权重大小淘汰掉超过预定容量的特征项。最后，按照各个特征节点的实际权重重新计算其归一化权重，并写入用户模板。

图12是本发明的用户模板的结构示意图。如图12所示，在用户模板中，按照不同分类分别存储反应用户兴趣的特征项。

图12中，“Category 1”表示用户的第1个兴趣类别，“Category 2”则表示用户的第2个兴趣类别，......，“Category n”表示用户的第n个兴趣类别。

“Feature 11”表示用户的第1个兴趣类别的第1个特征，“Feature12”表示用户的第1个兴趣类别的第2个兴趣特征，......，“Feature lm”表示用户的第1个兴趣类别的第m个兴趣特征，......，“Feature nm”表示用户的第n个兴趣类别的第m个特征。

“(keyword，realWeight，weight，flgSSNExpand，lastUpdateTime)”是描述用户兴趣每个类别下面的特征项的记录结构，其中：“keyword”是特征词；“realWeight”是特征词的实际权重，它反映了特征词与用户兴趣的相关程度；“weight”是特征词的余弦归一化权重，它是该特征词的实际权重与所有特征词实际权重的平方和的平方根的比值；“flgSSNExpand”是标志项，如果该特征项是从用户感兴趣的样本集中直接提取出来的，该标志项为1，如果该特征项是利用语义相似网扩展得到的，则该标志项为0；“lastUpdateTime”是特征词权重信息最近一次更新的时间。

用户在使用如图7所示的文本信息检索装置100时，在文本信息联想检索部300中，按照每个分类，计算第一特征参数和用户模板中的第二特征参数的相似度，并依据相似度大小给出搜索结果。

图13是图7所示文本信息检索装置所实施的文本信息检索方法实施步骤：

SSN训练文本集经过文章分词得到词语序列，然后利用SSN训练算法得到语义相似网络，并保存起来；

用户感兴趣的文本经过文章分词以后得到词语序列，再通过第二特征选择提取重要特征作为第二特征参数，然后利用文本分类训练所得的文本分类器对第二特征参数所代表的文本进行分类，接着利用语义相似网SSN对文本的特征向量进行扩展，即联想出特征的同义词和相关词，然后按照文本分类步骤所判定的类别，将第二特征参数及其语义相似网SSN联想词语一起存储至用户模板中；

以下用一个实例来具体说明本发明的构建用户模板(user pfofile)的流程。

在该实例中，用户兴趣的训练文本采用以下的一段文章：

“在举世瞩目的世界杯足球大赛前夕，球王贝利对新华社记者发表谈话认为，南斯拉夫、巴西、联邦德国和意大利队有可能进入本届大赛的前四名。贝利是今天下午在里约热内卢州特雷索波利斯市高尔夫球俱乐部接受记者采访时发表上述看法的。他指出，今年的世界杯大赛形势比前几届更加明朗。一些著名世界球星大都在欧洲俱乐部队效力，因此，相互之间的技术战术都比较了解。贝利认为，在本届世界杯大赛中，进入前四名的队中，除巴西队外，还有南斯拉夫队、西德队和意大利队。他说，南斯拉夫队素质好，有能力夺冠；东道主意大利队占有天时地利人和的优势，为其夺冠创造了有利条件。当然，也不排除会爆冷门。”

文章分词部104利用词语切分工具，把一篇文档的内容切成一个个独立的词语，其中主要抽出名词。输出结果如下：

“世界杯”、“足球”、“大赛”、“球王”、“贝利”“新华社”“记者”、“谈话”、“南斯拉夫”、“巴西”、“联邦德国”、“意大利队”、“大赛”、“贝利”、“今天”、“下午”、“里约热内卢”、“州特雷索”、“波利斯市”、“高尔夫球”、“俱乐部”、“记者”、“看法”、“世界杯”、“大赛”、“形势”、“世界”、“球星”、“欧洲”、“俱乐部”、“效力”、“技术”、“战术”、“贝利”、“世界”、“大赛”、“巴西队”、“南斯拉夫队”、“西德”、“意大利队”、“南斯拉夫队”、“素质”、“能力”、“东道主”、“意大利队”、“条件”。

第二特征选择部106根据文章分词部的输出，采用TF*ECE特征选择方法，提取出相对重要的词语作为特征词，提取出来的特征词及其TFECE权重如下：

(世界杯，0.985963)	(足球，0.837228 )	(大赛，0.733 194)
(世界杯，0.985963)	(足球，0.837228 )	(大赛，0.733 194)	(球王，0.366377)	(贝利，0.312381)	(意大利队，0.193102)
(俱乐部，0.369821)	(形势，0.28202)	(球星，0.484627)	(球王，0.366377)	(贝利，0.312381)	(意大利队，0.193102)
(俱乐部，0.369821)	(形势，0.28202)	(球星，0.484627)	(战术，0.473977)	(巴西队，0.236668)	(南斯拉夫队，0.325905)
(素质，0.546971)	(能力，0.646547)	(东道主，0.299691)	(战术，0.473977)	(巴西队，0.236668)	(南斯拉夫队，0.325905)

文本分类部108根据特征选择部提取出来的特征词向量，通过贝叶斯(Bayes)文本分类算法的计算公式计算该文章属于各个类别的概率，结果如下：

log(P(v₁\d))＝-16.833285042177 log(P(v₂\d))＝-16.996304886255

log(P(v₃\d))＝-18.262425109666 log(P(v₄\d))＝-17.817327047682

log(P(v₅\d))＝-16.762599626653 log(P(v₆\d))＝-17.032302701802

log(P(v₇\d))＝-15.394893924487

由于P(v_j\d)正比于log(P(v_j\d))，因此log(P(v₇\d))最大则P(v₇\d)也最大，从而该文章属于v₇类。由于从v₁到v₇的七个类别分别是：经济、娱乐、国际、IT、政治、社会、体育，因此该文章属于体育类。

特征向量SSN扩展部122对特征选择部得到的特征向量进行扩展，即对于特征向量中的每一个节点，到语义相似网SSN中去寻找其相似节点，并提取出一部分符合条件的相思结点作为该节点的扩展节电加入扩展特征向量中。下面是对上述得到的特征向量进行扩展得到的扩展特征向量：

(冠军杯，0.853429)	(足球赛，0.823637)	(进球数，0.681643)
(冠军杯，0.853429)	(足球赛，0.823637)	(进球数，0.681643)	(欧洲队，0.450674)	(足球队，0.675435)	(球迷，0.526507)
(联赛，0.489065)	(赛季，0.310315)	(射门，0.400526)	(欧洲队，0.450674)	(足球队，0.675435)	(球迷，0.526507)

(防守，0.370935)

(进攻，0.308012)

最后通过用户模板制作部112将上述的特征选择部106得到的特征向量和特征向量SSN扩展部122得到的扩展特征向量，根据文本分类部108得到的兴趣类别信息保存在用户模板保存部114中。即将两个特征向量保存在用户模板的sports兴趣类别中，并调整兴趣类别的权重和计算特征词的归一化权重。得到的用户兴趣记录信息如下：

Keyword	realWeight	weight	flgSSNExpand	lastUpdateTime
Keyword	realWeight	weight	flgSSNExpand	lastUpdateTime	世界杯	0.985963	0.356218	1	1149153700
足球	0.837228	0.302482	1	1149153700	世界杯	0.985963	0.356218	1	1149153700
足球	0.837228	0.302482	1	1149153700	大赛	0.733194	0.264895	1	1149153700
球王	0.366377	0.132368	1	1149153700	大赛	0.733194	0.264895	1	1149153700
球王	0.366377	0.132368	1	1149153700	贝利	0.312381	0.11286	1	1149153700
意大利队	0.193102	0.0697658	1	1149153700	贝利	0.312381	0.11286	1	1149153700
意大利队	0.193102	0.0697658	1	1149153700	俱乐部	0.369821	0.133613	1	1149153700
形势	0.28202	0.101891	1	1149153700	俱乐部	0.369821	0.133613	1	1149153700
形势	0.28202	0.101891	1	1149153700	球星	0.484627	0.175091	1	1149153700
战术	0.473977	0.171243	1	1149153700	球星	0.484627	0.175091	1	1149153700
战术	0.473977	0.171243	1	1149153700	巴西队	0.236668	0.0855057	1	1149153700
南斯拉夫队	0.325905	0.117746	1	1149153700	巴西队	0.236668	0.0855057	1	1149153700
南斯拉夫队	0.325905	0.117746	1	1149153700	素质	0.546971	0.197615	1	1149153700
能力	0.646547	0.233591	1	1149153700	素质	0.546971	0.197615	1	1149153700
能力	0.646547	0.233591	1	1149153700	东道主	0.299691	0.108275	1	1149153700
冠军杯	0.853429	0.308335	0	1149153700	东道主	0.299691	0.108275	1	1149153700
冠军杯	0.853429	0.308335	0	1149153700	足球赛	0.823637	0.297572	0	1149153700
进球数	0.681643	0.246271	0	1149153700	足球赛	0.823637	0.297572	0	1149153700
进球数	0.681643	0.246271	0	1149153700	欧洲队	0.450674	0.162824	0	1149153700
足球队	0.675435	0.244028	0	1149153700	欧洲队	0.450674	0.162824	0	1149153700
足球队	0.675435	0.244028	0	1149153700	球迷	0.526507	0.190222	0	1149153700
联赛	0.489065	0.176694	0	1149153700	球迷	0.526507	0.190222	0	1149153700
联赛	0.489065	0.176694	0	1149153700	赛季	0.310315	0.112114	0	1149153700
射门	0.400526	0.144706	0	1149153700	赛季	0.310315	0.112114	0	1149153700
射门	0.400526	0.144706	0	1149153700	防守	0.370935	0.134015	0	1149153700
进攻	0.308012	0.111282	0	1149153700	防守	0.370935	0.134015	0	1149153700

这样便完成了对一篇用户感兴趣的文本的学习和建模，即根据这一篇用户感兴趣的文本构建好了用户的兴趣特征信息，并保存在用户模板的相应兴趣类别中。

实施例三

图14本发明的文本信息检索装置的再一例实施方式的结构示意图。

实施例三的文本信息检索装置与实施例一的文本信息检索装置的区别仅仅在于，实施例三的文本信息检索装置还具备文本分类器训练部126。

文本分类器训练部126进行文本分类器训练部步骤。

在分类参数部110中存储的分类参数，可以是预先设定的参数。也可以由分类训练部通过训练而确定。

如图14所示，文本分类器训练部126通过对分类训练文本集124(大量有类别标注信息的文本)进行学习，以得到文本分类时所需要的经验概率信息，包括文本分类计算及特征选择时所需的先验概率P(v_j)后验概率P(w_i\v_j)和每个词语出现的概率P(w_i)。

下面参照图15说明对文本分类器进行训练的流程。

如图15所示，根据文本分类训练集中所有文本的类别标注信息，按类别逐个读入训练文本，统计属于该类别的文本数量docs_j、该类别中每个词语出现的频率freq(w_ij)和该类别中所有词语出现的总频率freq_j；然后将各个类别的文本数量docs_j作和计算出分类训练集的总文本数量docs，并按照下式(5)计算每个类别出现的概率P(v_j)(即先验概率)：

P (v_{j}) = \frac{{docs}_{j}}{docs} - - - (5)

其中，docs_j训练集中属于类别v_j的文本数量。接着统计计算训练集中所有不同词语的总数量n，并按照下式(6)计算出现类别v_j的条件下出现词语wi的条件概率P(w_i\v_j)(即后验概率)：

P (w_{i} \ v_{j}) = \frac{1 + freq (w_{ij})}{n + {freq}_{j}} - - - (6)

其中，freq(w_ij)是词语w_i在属于类别v_j的所有文本中出现的频率之和，freq_j是类别v_j中所有词语出现的频率之和。然后按照下式(7)，计算分类训练集中词语w_i的出现概率P(w_i)：

P (w_{i}) = \frac{\underset{j}{Σ} freq (w_{ij})}{\underset{j}{Σ} fre q_{j}} - - - (7)

最后将前面计算所得的所有经验概率，包括先验概率P(v_j)后验概率P(w_i\v_j)和每个词语出现的概率P(w_i)一起保存在分类参数保存部110中。

在进行特征选择和文本分类时便依据分类参数保存部110中保存的经验参数进行计算。

本实施方式中文本分类部工作的流程示意图也可以参照图2来表示。图2是按照朴素贝叶斯文本分类算法进行分类处理的处理流程，具体如下。

V_{NB} = \max P (v_{j} \ d) = \max P (v_{j} \ w_{1}, w_{2}, \cdot \cdot \cdot, w_{n}) = \max P (v_{j}) Π_{i = 1}^{n} P (w_{i} \ w_{j}) - - - (2)

其中，“P(v_j\d)”表示文档“d”出现的条件下，类别“v_j”出现的条件概率，“(w₁，w₂，…，w_n)”是文档“d”的向量表示，“P(v_j)”是文档类别“v_j”在文本分类训练集中出现的概率，“P(w_i\v_j)”是出现类别“v_j”的条件下出现词语“w_i”的概率。根据取的最大概率“P(v_j\d)”的“j”来判定文本属于类别“v_j”。

图16是图14所示本发明实施例三的文本信息检索装置所实施的文本信息检索方法实施步骤：

文本分类训练文本集经由文章分词后得到单词序列，再经由文本分类器训练步骤得到文本分类所需的经验参数并保存；

用户感兴趣的文本经过文章分词以后得到词语序列，再通过第二特征选择提取重要特征作为第二特征参数，然后利用文本分类训练所得的文本分类器对第二特征参数所代表的文本进行分类，然后按照文本分类步骤所判定的类别，将第二特征参数存储至用户模板中；

实施例三的文本信息文本信息检索装置所对应的文本信息检索方法实施步骤，与实施例一的文本信息文本信息检索装置所对应的文本信息检索方法实施步骤，基本相同，实施例三中多了文本分类训练步骤。

实施例四

图17是本发明的文本信息检索装置的再一例实施方式的结构示意图。

实施例四的文本信息检索装置与实施例二的文本信息检索装置的区别仅仅在于，实施例四的文本信息检索装置还具备文本分类器训练部126。

文本分类器训练部126进行文本分类器训练部步骤。

如图17所示，文本分类器训练部126通过对分类训练文本集124(大量有类别标注信息的文本)进行学习，以得到文本分类时所需要的经验概率信息，包括文本分类计算及特征选择时所需的先验概率P(v_j)、后验概率P(w_i\v_j)和每个词语出现的概率P(w_i)。

在实施例四中，文本分类器训练步骤与实施例三的相同。

在实施例四中，文本分类步骤与实施例三的相同。

图18是图17所示本发明实施例四的文本信息检索装置所对应的文本信息检索方法实施步骤：

用户感兴趣的文本经过文章分词以后得到词语序列，再通过第二特征选择提取重要特征作为第二特征参数，然后利用文本分类训练所得的文本分类器对第二特征参数所代表的文本进行分类，接着利用语义相似网SSN对文本的特征向量进行扩展，即联想出特征的同义词和相关词，然后按照文本分类步骤所判定的类别，将第二特征参数及其SSN联想词语一起存储至用户模板中；

实施例四的文本信息文本信息检索装置所对应的文本信息检索方法实施步骤，与实施例二的文本信息文本信息检索装置所对应的文本信息检索方法实施步骤，基本相同，实施例三中多了文本分类训练步骤。

本发明的文本信息检索装置以及文本信息检索方法，可以用于数字电视以及HDD/HDD播放机等数字家电的智能检索中。

Claims

1.一种文本信息检索装置，其特征在于，

具备：

文章分词部，从文本信息切分出词语；

第一特征提取部，使用从资源文本信息中被所述文章分词部切分出的词语，提取出资源文本的第一特征参数；

第二特征提取部，使用从用户兴趣文本信息中被所述文章分词部切分出的词语，提取出表现用户兴趣的第二特征参数；

文本分类部，用第二特征参数和分类参数对用户兴趣文本进行分类；

用户模板制作部，基于所述文本分类部中的分类，将所述第二特征参数分为两组或两组以上的分类，制作反映用户兴趣的用户模板；

文本信息联想检索部，按照每个分类计算出所述第一特征参数与在所述用户模板中的所述第二特征参数之间的相似度，并基于该计算出的相似度的大小来检索文本信息，给出检索结果。

2.如权利要求1所述的文本信息检索装置，其特征在于，

还具备分类训练部，使用文本分类训练集，利用所述文章分词部从该文本分类训练集中切分出的词语，并基于该词语训练用来分类文本信息的分类参数。

3.如权利要求1或2所述的文本信息检索装置，其特征在于，

所述第二特征选择部对被所述文章分词部切分出的词语w_i，按照下式(1)计算该词语的权重Weight(w_i)，并将权重大于预定阈值threshold的词语w_i及其权重Weight(w_i)作为第二特征参数，

Weight (w_{i}) = TF (w_{i}) \times ECE (w_{i}) = TF (w_{i}) \times P (w_{i}) \underset{j}{Σ} P (v_{j} \ w_{i}) \log \frac{P (v_{j} \ w_{i})}{P (v_{j})} - - - (1)

4.如权利要求1或2所述的文本信息检索装置，其特征在于，

所述文本分类部采用朴素贝叶斯分类算法，按照下式(2)计算文本属于某个类别的概率P(v_j\d)，并根据取的最大概率P(v_j\d)的j来判断文本属于类别v_j：

V_{NB} = \max P (v_{j} \ d) = \max P (v_{j} \ w_{1}, w_{2}, . . ., w_{n}) = \max P (v_{j}) Π_{i = I}^{n} P (w_{i} \ v_{j}) - - - (2)

5.如权利要求1或2所述的文本信息检索装置，其特征在于，

还具备：

语义相似网制作部，制作用来记录从语义相似网训练文本集被文章分词部切分出的词语之间的共现频率、平均距离、相似度、上下位关系的语义相似网；

特征向量扩展部，从所述语义相似网中选择与所述第二特征参数中的特征词相似度高的词语，以该被选择的词语为基础，对用户模板的第二特征参数进行扩展，

所述用户模板制作部基于文本分类部的分类，将所述被扩张的第二特征参数分为两组或两组以上的分类，制作反映用户兴趣的用户模板。

6.如权利要求5所述的文本信息检索装置，其特征在于，

所述特征向量扩展部按照以下公式(3)计算在语义相似网中所含的词语w_s的权重RealWeight(w_s)，当该w_s的权重RealWeight(w_s)大于规定的权重阈值时，从语义相似网中选择该词语w_s，

RealWeight(w_s)＝RealWeight(w_o)×Sim(w_o，w_s) (3)

其中，w_o和RealWeight(w_o)是在所述第二特征提取部中提取出的词语w_o以及由所述公式(2)计算得到的词语w_o的特征权重，Sim(w_o，w_s)是词语w_o和词语w_s的相似度，该相似度由以下公式(4)计算得到，

Sim(w_o，w_s)＝α×Sim_lexical(w_o，w_s)+β×Sim_statistic(w_o，w_s) (4)

其中，Sim_lexical(w_o，w_s)由以下公式算出，

{Sim}_{lexical} (w_{o}, w_{s}) = 1 - \frac{{depth}^{2}}{(4 \max Dep {th}^{2} + δ)}

Sim_statistic(w_o，w_s)由以下公式算出，

{Sim}_{statistic} (w_{o}, w_{s}) = (co_{freq}_{w_{o} w_{s}} \times \frac{α}{\overset{&OverBar;}{dist (w_{o}, w_{s})} + α}) / Entropy (w_{s})

为词语w_o和词语w_s的平均共现距离，α为调整参数。

其中，Entropy(w_s)由以下公式算出，

Entropy (w_{s}) = - \underset{i}{Σ} P (v_{i} \ w_{s}) \log (P (v_{i} \ w_{s}))

这里，P(v_i\w_s)为语义相似网训练文本集中词语w_s出现的条件下，出现类别v_i条件概率。

7.一种文本信息检索方法，其特征在于，

具备：

文章分词步骤，从文本信息切分出词语；

第一特征提取步骤，使用从资源文本信息中被所述文章分词步骤切分出的词语，提取出资源文本的第一特征参数；

第二特征提取步骤，使用从用户兴趣文本信息中被所述文章分词步骤切分出的词语，提取出表现用户兴趣的第二特征参数；

文本分类步骤，用第二特征参数和分类参数对用户兴趣文本进行分类；

用户模板制作步骤，基于所述文本分类步骤中的分类，将所述第二特征参数分为两组或两组以上的分类，制作反映用户兴趣的用户模板；

文本信息联想检索步骤，按照每个分类，计算出所述第一特征参数与在所述用户模板中的所述第二特征参数之间的相似度，并基于该计算出的相似度检索文本信息，并给出检索结果。

8.如权利要求7所述的文本信息检索方法，其特征在于，

还具备分类训练步骤，使用文本分类训练集，利用所述文章分词步骤从该文本分类训练集中切分出词语，并基于该词语训练用来分类文本信息的分类参数。

9.如权利要求7或8所述的文本信息检索方法，其特征在于，

在所述第二特征选择步骤中，对在所述词语切分步骤中切分出的词语w_i，按照下式(1)计算该词语的权重Weight(w_i)，并将权重大于预定阈值threshold的词语w_i及其权重Weight(w_i)作为第二特征参数，

Weight (w_{i}) = TF (w_{i}) \times ECE (w_{i}) = TF (w_{i}) \times P (w_{i}) \underset{j}{Σ} P (v_{j} \ w_{i}) \log \frac{P (v_{j} \ w_{i})}{P (v_{j})} - - - (1)

10.如权利要求7或8所述的文本信息检索方法，其特征在于，

在所述文本分类步骤中，采用朴素贝叶斯分类算法，按照下式(2)计算文本属于某个类别的概率P(v_j\d)，并根据取的最大概率P(v_j\d)的j来判断文本属于类别v_j：

V_{NB} = \max P (v_{j} \ d) = \max P (v_{j} \ w_{1}, w_{2}, . . ., w_{n}) = \max P (v_{j}) Π_{i = I}^{n} P (w_{i} \ v_{j}) - - - (2)

其中，P(v_j\d)表示文档d出现的条件下，类别v_j出现的条件概率，(w₁，w₂，…，w_n)是文档d的向量表示，P(v_j)是文档类别v_j在文本分类训练集中出现的概率，P(w_j\v_j)是出现类别v_j的条件下出现词语w_i的概率。

11.如权利要求7或8所述的文本信息检索方法，其特征在于，

还具备：

语义相似网制作步骤，制作用来记录在文章分词步骤中从语义相似网训练文本集切分出的词语之间的共现频率、平均距离、相似度、上下位关系的语义相似网；

特征向量扩展步骤，从所述语义相似网中选择与所述第二特征参数中的特征词相似度高的词语，以该被选择的词语为基础，对用户模板的第二特征参数进行扩展，

在所述用户模板制作步骤中，基于文本分类步骤中的分类，将所述被扩张的第二特征参数分为两组或两组以上的分类，制作反映用户兴趣的用户模板。

12.如权利要求11所述的文本信息检索方法，其特征在于，

在所述特征向量扩展步骤中，按照以下公式(3)计算在语义相似网中所含的词语w_s的权重RealWeight(w_s)，当该w_s的权重RealWeight(w_s)大于规定的权重阈值时，从语义相似网中选择该词语w_s，

RealWeight(w_s)＝RealWeight(w_o)×Sim(w_o，w_s) (3)

其中，w_o和RealWeight(w_o)是在所述第二特征提取步骤中提取出的词语w_o以及由所述公式(2)计算得到的词语w_o的特征权重，Sim(w_o，w_s)是词语w_o和词语w_s的相似度，该相似度由以下公式(4)计算得到，

Sim(w_o，w_s)＝α×Sim_lexical(w_o，w_s)+β×Sim_statistic(w_o，w_s) (4)

其中，Sim_lexical(w_o，w_s)由以下公式算出，

{Sim}_{lexical} (w_{o}, w_{s}) = 1 - \frac{{depth}^{2}}{(4 \max {Depth}^{2} + δ)}

Sim_statistic(w_o，w_s)由以下公式算出，

{Sim}_{statistic} (w_{o}, w_{s}) = (co_{freq}_{w_{o} w_{s}} \times \frac{α}{\overset{&OverBar;}{dist (w_{o}, w_{s})} + α}) / Entropy (w_{s})

为词语w_o和词语w_s的平均共现距离，α为调整参数。

其中，Entropy(w_s)由以下公式算出，

Entropy (w_{s}) = - \underset{i}{Σ} P (v_{i} \ w_{s}) \log (P (v_{i} \ w_{s}))