CN102456060A

CN102456060A - 信息处理装置及信息处理方法

Info

Publication number: CN102456060A
Application number: CN2010105304306A
Authority: CN
Inventors: 邓攀; 刘宏建; 周泉; 国德峰; 永松健司
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2010-10-28
Filing date: 2010-10-28
Publication date: 2012-05-16

Abstract

本发明提供一种信息处理装置及信息处理方法，从外部接收检索问题的输入，将对检索问题的处理结果进行分组，并输出分组结果。该信息处理装置，具有：问题分析和检索项生成模块(1300)，对检索问题进行分析，生成检索项；文档检索模块(1400)，接收问题分析和检索项生成模块(1300)所生成的检索项，进行文档检索；结果抽取和过滤模块(1500)，抽取所检索的结果并对结果进行过滤；以及结果分组模块(1600)，对上述过滤后的结果进行分组。

Description

信息处理装置及信息处理方法

技术领域

本发明涉及一种信息处理装置及信息处理方法，尤其涉及用于信息检索及显示的信息处理装置及信息处理方法。

背景技术

21世纪，人们步入信息时代，对互联网络信息量的需求也与日俱增。大规模信息检索技术和搜索引擎的应用在一定程度上使人们的信息获取能力得到提高。然而，互联网络所固有的海量、异构、无效数据充斥等特点，降低了人们获取信息的准确性和效率。为了提升用户体验，主流信息检索系统在用户检索需求分析、检索方法和结果展现等技术上取得了一定成就。

传统搜索引擎多采用网页排序技术提升用户体验。例如，搜索引擎Google(http://www.google.com.hk)，在获取用户检索项并检索网页后，对命中网页按相关度以列表的形式分页展现。然而，由于“相关度”与用户期望“结果”的不一致性，用户期望的“结果”可能分布在列表的各个位置，这便产生了两个局限性：一、排序靠前的网页往往有很多相似之处，指向同一个结果，这浪费用户点击和阅读网页的时间。二、含有不同“结果”的网页如果排序靠后，往往很难被用户看到，这样就造成了检索信息的丢失。

为了弥补只采用网页排序进行结果展现的不足，有文献和搜索引擎产品提出基于文档分类的信息检索技术。例如，专利文献1：《Information Presentation in A Knowledge Base Search And RetrievalSystem》(U.S.Patent 5940821)提出了先对所有的文档按主题进行分类，在检索命中后，对待显示文档亦按其主题分类显示。然而，由于用户期望“结果”与其所在文档主题的不一致性，这种检索技术也很难满足用户检索的精准高效的要求。专利文献2：特开2006-127523号公报提出基于文档聚类的检索方法和展现方法。然而，该技术是对检索命中的文档内容进行聚类，与“结果”仍有一定不一致性。另外，不同用语表达近似语义的情况在聚类展现中亦不能很好的解决。

问答系统是信息检索的高级形式。它集自然语言处理，信息检索、知识表示等技术于一体，旨在接受用户的自然语言提问，而后返回简洁准确的答案。例如，专利文献3：特开2006-163491号公报提出一种基于用户输入问题的问答系统。然而，由于互联网络上信息表现形式的多样性、内容的丰富性和计算机推理能力的有限性，基于广阔的互联网络的问答系统很难返回简洁准确的答案。实际应用中，问答系统的答案来源主要是特定的知识库，因此其使用领域受到限制。

发明内容

因此，本发明的目的在于提供一种信息处理装置和信息处理方法，能对用户提供检索结果的总体概况，并以分组的形式向用户展现，减少阅读的不便，提高检索效率。

本发明的信息处理装置，从外部接收检索问题的输入，将对检索问题的处理结果进行分组，并输出分组结果。

本发明的信息处理装置，具有：问题分析和检索项生成模块，对检索问题进行分析，生成检索项；文档检索模块，接收上述问题分析和检索项生成模块所生成的检索项，进行文档检索；结果抽取和过滤模块，抽取所检索的结果并对结果进行过滤；以及结果分组模块，对上述过滤后的结果进行分组。

本发明的信息处理装置，上述文档检索模块根据语义对上述问题分析和检索项生成模块生成的检索项进行扩展，使用扩展后的检索项进行文档检索；上述结果抽取和过滤模块，根据上述问题分析和检索项生成模块生成的检索问题的问题模式，在答案模式库中检索得到对应的答案模式，然后，用答案模式在解析后的命中文档中匹配得到候选结果，根据候选结果的语义信息进行过滤；上述结果分组模块，对于上述结果抽取和过滤模块所抽取并过滤的结果，分词并进行词权重计算，进而进行向量空间表示，然后计算所有结果之间的语义距离，依据语义距离将结果聚类，形成多个结果组。

本发明的信息处理装置，还具有分组结果分析和报告生成模块，对分组的结果进行分析，并且生成分组结果报告。

本发明的信息处理装置，上述分组结果分析和报告生成模块，对结果组内的文档数量、文档发布时间、文档来源等信息进行统计分析，生成分组结果报告。

本发明的信息处理装置，还具有：问题输入模块，接收从外部输入的检索问题；和显示模块，从分组结果分析和报告生成模块获取信息，并显示分组结果。

本发明的信息处理装置，也可以还具有数据库。

本发明的信息处理装置，也可以通过网络与数据库连接。

本发明的信息处理装置，上述数据库中存储有问题模式库、答案模式库、语义词典库、词法分析语料库、句法分析语料库。

本发明的信息处理装置，也可以是，具有：问题分类模块，对所输入的问题进行分类；基于句子相似的结果抽取模块，从待检索文档中检索得到输入问题的结果；结果分组模块，对所得到的结果进行分组；以及显示模块，显示分组结果。

本发明的信息处理装置可以是信息检索装置。

本发明的信息处理方法，包括：从外部接收检索问题的输入的步骤；以及输出分组结果的步骤。

本发明的信息处理方法，还包括：问题分析和检索生成步骤，对检索问题进行分析，生成检索项；文档检索步骤，接收问题分析和检索生成步骤中所生成的检索项，进行文档检索，结果抽取和过滤步骤，抽取所检索的结果并对结果进行过滤；以及结果分组步骤，对上述过滤后的结果进行分组。

本发明的信息处理方法，还包括：上述文档检索步骤中，根据语义对上述问题分析和检索生成步骤中生成的检索项进行扩展，使用扩展后的检索项进行文档检索；上述结果抽取和过滤步骤中，根据上述问题分析和检索生成步骤中生成的检索问题的问题模式，在答案模式库中检索得到对应的答案模式，然后，用答案模式在解析后的命中文档中匹配得到候选结果，根据候选结果的语义信息进行过滤；上述结果分组步骤中，对于上述结果抽取和过滤步骤中所抽取并过滤的结果，分词并进行词权重计算，进而进行向量空间表示，然后计算所有结果之间的语义距离，依据语义距离将结果聚类，形成多个结果组。

本发明的信息处理方法，还包括分组结果分析和报告生成步骤，对分组的结果进行分析，并且生成分组结果报告。

本发明的信息处理方法，上述分组结果分析和报告生成步骤中，对结果组内的文档数量、文档发布时间、文档来源等信息进行统计分析，生成分组结果报告。

本发明的信息处理方法，还包括：

问题输入步骤，接收从外部输入的检索问题；和显示步骤，根据上述分组结果分析和报告生成步骤中获取的信息，显示分组结果。

本发明的信息处理方法，也可以是，包括：问题分类步骤，对所输入的问题进行分类；基于句子相似的结果抽取步骤，从待检索文档中检索得到输入问题的结果；结果分组步骤，对所得到的结果进行分组；以及显示步骤，显示分组结果。

发明的效果

本发明能从语义层次上对检索结果进行分组展现，用户无需通过大量阅读文档，就可以方便地了解检索“结果”的总体情况，有效地节省了检索时间。采用本发明进行信息检索，可以避免已有检索技术的少量“结果”不易甚至不能够被用户看到的情况。另外，采用本发明进行信息检索，可以通过阅读报告的形式对结果支持信息进一步了解，对于用户的人工决策起到辅助作用。

附图说明

图1是本发明的信息处理装置的结构图。

图2是实施例1的信息处理装置的模块结构示意图。

图3是实施例1的数据库的信息库组成图。

图4是实施例1的问题分析和检索项生成模块的处理流程图。

图5是实施例1的文档检索模块的处理流程图。

图6是实施例1的结果抽取和过滤模块的处理流程图。

图7是实施例1的结果分组模块的处理流程图。

图8是实施例1的分组结果分析和报告生成模块的处理流程图。

图9是实施例1的结果显示窗口示例。

图10是实施例1的用户问题接收窗口示例。

图11是实施例2的信息处理装置的模块结构示意图。

图12是实施例2的问题分类模块的处理流程图。

图13是实施例2的基于句子相似结果抽取模块的处理流程图。

图14是实施例2的结果分组模块的处理流程图。

图15是实施例2的结果显示窗口示例。

具体实施方式

下面参照附图详细说明本发明的具体实施方式。但是，这些只是适用于本发明的实施例，本发明不限定于这些实施例。

如图1所示，信息处理装置从外部接收检索问题的输入，并输出分组结果。

<实施方式一>

如图2所示，信息处理装置100包括数据库1100，问题输入模块1200，问题分析和检索项生成模块1300，文档检索模块1400，结果抽取和过滤模块1500，结果分组模块1600，分组结果分析和报告生成模块1700和显示模块1800。

数据库1100用于存储问答模式库、语义词典库等。为问题分析和检索项生成模块1300提供问题模式，为文档检索模块1400提供语义知识支持，为结果抽取和过滤模块1500及结果分组模块1600提供语义知识支持、答案模式。

输入模块1200用于接收用户输入的问题，检查输入问题的规范性，保证将正确格式的问题提交到服务器端的问题分析和检索项生成模块1300。具体地，可以从本地获取，也可以通过远程客户端接收用户输入的检索问题。

问题分析和检索项生成模块1300用于接收输入模块1200所提交的问题，调用数据库1100中的数据进行问题分析，包括分词、词性标注、句法分析，而后根据问题分析的结果，与数据库服务器1100中的问题模式相匹配，得到对应的问题模式ID和检索项，然后将问题模式ID和检索项提交给文档检索模块1400。

文档检索模块1400用于接收问题分析和检索项生成模块1300提交的问题模式ID和检索项，调用数据库服务器1100中的语义词典对关键词进行扩展，而后用扩展后的检索项对互联网上的各种文档进行检索，含有关键词的检索对象为命中文档。文档检索模块对命中文档进行语言解析，包括分词、词性标注、句法分析，然后将分析结果和问题模式ID提交到结果抽取和过滤模块1500。

结果抽取和过滤模块1500接收文档检索模块1400提交的问题模式ID和命中文档信息，从数据库服务器1100中的答案模式中抽取出问题模式ID对应的答案模式，使用答案模式在命中文档信息中匹配到问题的结果，而后从根据问题模式和语义词典进行结果的过滤，将符合语义信息的结果和其对应的文档ID提交到结果分组模块1600。

结果分组模块1600在接收结果文档信息后，对每一结果中的词权重进行计算，将每一结果表示为向量空间模型，然后调用数据库服务器1100中的语义词典，计算结果之间的语义距离，根据语义距离对结果进行聚类，形成分组。最后将组别信息、结果以及对应的文档信息提交给分组结果分析和报告生成模块1700。

分组结果分析和报告生成模块1700在收到结果分组模块1600提交的信息后，对一个分组进行结果数量、文档来源、文档发布时间等统计，进而生成分组结果报告。最后将该报告和分组信息、组内文档ID信息发送给客户端的显示模块1800。

显示模块1800从分组结果分析和报告生成模块1700获取信息，以图8的形式返回给用户。

下面分别举例对数据库1100和服务器端模块进行进一步的详细说明。

如图3所示，数据库1100用于存储问题模式库1101、答案模式库1102、语义词典库1103、词法分析语料库1104、句法分析语料库1105。为问题分析和检索项生成模块1300提供问题模式和其对应的答案模式，为结果分组模块1600进行语义距离计算提供支持，以及对各个模块内需要的分词、词性标注、句法分析提供支持。

其中问题模式库1101包含问题模式和问题类型信息。例如，对于一种提问物体颜色的模式为：

<QuestionPatternID＝1；QuestionType＝“颜色”；Pattern＝“key＝[NP]:颜色:是:什么”；AnswerPattern ID＝“1:2:3”>，具体为：

QuestionPatterID表示问题模式的ID。

QuestionType表示该问题模式提问的是“颜色”。

Pattern是具体的问题的模式，其中“NP”是句法分析中的“名词短语”，key＝[NP]指该名词短语“NP”是关键字，将会在答案模式中填充“key”这个变量。

AnswerPatternID是对应答案模式的ID，可根据答案模式的ID在答案模式库中检索得到答案模式。

其中答案模式库1102包含答案模式，例如，对于一种回答物体颜色的模式为：

<AnswerPatternID＝1；Pattern＝“key＝[NP]:是:X的”>，亦包括

<AnswerPatternID＝2；Pattern＝“key＝[NP]:颜色:是:X”>，

<AnswerPatternID＝3；Pattern＝“ADV:X:的:key＝[NP]”>。具体为：

AnswerPatternID是答案模式的ID，可以由一个或多个问题模式ID对应。

Pattern为具体答案模式，答案模式中的X为应当抽取的答案，key＝NP表示此处用问题模式中的NP填充此处。

同一问题类型的问题模式可有多种，同一问题类型的答案模式也可有多种。问题模式和答案模式可以人工总结，也可以通过计算机辅助的方式总结。

其中1103语义词典为包含语义信息的语义知识库，可以为查询词的同义词，词的义项，以及两个词之间的语义距离提供支持。

其中词法分析语料库1104包括汉语分词信息和词性标注信息；句法分析语料库1105包括短语结构推导信息。

如图4所示，问题分析和检索项生成模块1300的处理流程为问题接收步骤S1301，问题词法分析步骤S1302，问题句法分析步骤S1303，问句模式检索步骤S1304，检索项抽取步骤S1305。

在问题词法分析步骤S1302中进行中文分词和词性标注。在此，中文分词的方法没有特殊的限定，例如可以用基于词典的双向最大长度匹配分词，也可以使用基于统计分类的分词方法如最大熵。在此，分词后的词性标注的方法也没有特殊限定，例如可以用基于HMM的词性标注方法，也可以使用基于分类的词性标注方法如最大熵。

在问题句法分析步骤S1303中，将经过词法分析的问题进行句法分析，用于识别句子的语法结构信息，如名词短语，介词短语等。在此，句法分析的方法不作限制，例如可使用线图法生成完整的句法树，也可以用浅层句法分析获得语法结构信息。

例如，问句“美国的西红柿颜色是什么”，经过词法分析后应当为：

美国/ns的/u西红柿/n颜色/n是/v什么/r.

经过浅层句法分析后应当为：

[[美国/ns的/u西红柿/n]NP颜色]NP[是/v什么/r]VP

在问题模式检索步骤S1304中，用经过句法分析后的问题与问题模式库中的模式进行匹配，可得到问题模式的ID，例如，上例匹配到问题模式1，“NP:颜色:是:什么”。

在检索项抽取步骤S1305中，用句法分析后的问题信息填充问题模式，而后将填充后的问题模式去停用词，得到检索项。例如上例中的问题模式经过填充并删除停用词“的”、“是”和“什么”后，得到检索项“美国西红柿颜色”。

如图5所示，文档检索模块1400的处理流程包括检索项接收步骤S1401，检索项同义词检索步骤S1402，检索项扩展步骤S1403，文档检索步骤S1404，命中文档语言解析步骤S1405。

检索项同义词检索步骤S1402用于将接收的检索项逐一在语义词典中检索，分别取得其同义词。例如西红柿，经过同义词检索后得到同义词“番茄”。

检索项扩展步骤S1403用于将检索项扩展为多个同义词的检索项。例如“美国西红柿颜色”经过扩展后得到检索项“美国西红柿|番茄颜色”。

文档检索步骤S1404用于使用信息检索的方法，在网络文档300中进行检索。在此，对信息检索的方法不作限制，可以使用倒排索引的检索方式，亦可使用模式匹配的检索方式。

命中文档语言解析步骤S1405用于将检索到的文档词法分析和句法分析。

如图6所示，结果抽取和过滤模块1500的处理流程包括问句类型和命中文档接收步骤S1501，答案模式检索步骤S1502，结果抽取步骤S1503，结果过滤步骤S1504。

答案模式检索步骤S1502用于在接收问题模式ID的同时也得到其对应的答案模式的ID，并据此在答案模式库1102中检索得到答案模式。例如：

<AnswerPatternID＝1；Pattern＝“key＝NP:是:X的”>，

<AnswerPatternID＝2；Pattern＝“key＝NP:颜色:是:X”>，

<AnswerPatternID＝3；Pattern＝“ADV:X:的:key＝NP”>。

结果抽取步骤S1503首先用问题模式中的关键字填充答案模式，例如：因“NP”是“美国西红柿”，则得到三个填充后的答案模式：

“key＝美国西红柿:是:X的”

“key＝美国西红柿:颜色:是:X”

“ADV:X:的:美国西红柿”

而后用填充后的答案模式在解析后的命中文档中匹配，得到结果X。

例如：[]内的为抽取出的答案。

美国的西红柿是[红色]的。

美国西红柿的颜色是[粉红]的。

美国西红柿的颜色是[赤]的。

很[粉红]的美国西红柿。

很[小]的美国西红柿。

结果过滤步骤S1504用于使用结果抽取步骤S1503所获取的结果的义项，如果一个结果的义项中没有包含问题模式中的类型，则该结果因不合语义而被淘汰。

例如：

前例中“美国的西红柿的颜色是什么”在步骤S1304中得到问题模式1，其问题类型为“颜色”。对步骤S1503获取的结果进行义项分析，在此显示其部分义项为：

红色：ADJ aValue|属性值，color|颜色，red|红…

赤：ADJ aValue|属性值，color|颜色，red|红…

粉红：ADJ aValue|属性值，color|颜色，red|红

小：ADJ aValue|属性值，age|年龄，young|幼…

可以获取，“红色”、“赤”和“粉红”都有属于“颜色”的义项，而“小”没有属于“颜色”的义项，因此结果“小”不符合语义，淘汰掉。

经过过滤的结果集，不仅符合词法、句法层次上的要求，而且在语义上符合问题的提问，提高检索结果的准确率。

步骤S1504将经过过滤的结果信息、结果所属的文档信息送入结果分组模块1600。

如图7所示，结果分组模块1600的处理流程包含结果和文档信息接收步骤S1601，计算结果中的词权重的步骤S1602，结果转换到向量空间模型步骤S1603、计算结果向量语义距离步骤S1604，结果向量聚类步骤S1605。

计算结果中的词权重步骤S1602用于，为每一个结果中词赋于一个权重，在此对计算方法不作限制。例如可以以词在该结果中出现的次数作为该词的权重。

结果转换到向量空间模型S1603将每一个结果用一组特征向量表示，如：

V(r)＝(word₁，weight₁(r)；word₂，weight₂(r)…word_i，weight_i(r))；

计算结果向量的语义距离步骤S1604用于，对于任意两个结果向量R₁，R₂，调用语义词典1103，计算两组结果向量的距离。具体的为，

Dis \tan ce (R_{1}, R_{2}) = 1 - \frac{Σ_{i = 1}^{m} weight (x_{i}) Max {{Sim}_{j = 1}^{n} (x_{i}, y_{j})} + Σ_{j = 1}^{n} weight (y_{j}) Max {{Sim}_{i = 1}^{m} (y_{j}, x_{i})}}{Σ_{i = 1}^{m} weight (x_{i}) + Σ_{j = 1}^{n} weight (y_{j})}

其中x_i为向量R₁中的词，weight(x_i)为其权重；y_j为向量R₂中的词，weight(y_j)为其权重；m为向量R₁的度，n为向量R₂的度Sim(x_i，y_j)为x_iy_j在语义词典中的相似度。在此规定x_i，y_j两个词语义完全一致时Sim(x_i，y_j)的值最大为1；而在x_i，y_j两个词语义无关时，Sim(x_i，y_j)的值最小为0。对于具体语义相似度的计算方法不做限制。

结果向量聚类步骤S1605将步骤S1603生成的结果向量聚类，形成N个不同的分组，每个分组内含有一定数量的结果。聚类算法比较多，在此以K-means为例描述具体的聚类过程。

(1)设定要生成的类别数K。

(2)随即选择K个向量作为聚类的中心点，代表K个类别。

(3)对中心点之外的点，分别将其归入到距其最近的中心点的类别。此处的距离为步骤1604计算所的。

(4)对已经生成好的K个类别，分别找到K个类别的中心点，作为新的聚类中心。

(5)迭代过程(3)(4)直到类别内的点不在变化，聚类完成。

由于K-means聚类算法需要指定聚类的类别数，因此在实施的过程中，可以根据多个K值分别聚类，而后根据IGP指标或者Silhouette指标确定最佳类别个数，以此作为聚类结果。

如图8所示，分组结果分析和报告生成模块1700的处理流程包括结果分组接收步骤S1701，组内结果量统计步骤S1702，组内文档类型分析步骤S1703，文档发布时间分析步骤S1704，报告生成步骤S1705。

具体地，组内结果量统计步骤S1702用于统计结果分组模块1600生成的结果分组内的文档数量，如图9中1804所显示。组内文档类型分析S1703用于分析分组内的文档格式类型，如网页，DOC，PDF等。文档发布时间分析步骤S1704用于统计组内文档的发布时间。最终，报告生成步骤S1705对一个分组生成一个检索报告。检索报告和分组信息、文档信息一并送往客户端，由显示模块1800进行结果展现。

图9显示一例使用本发明的结果显示界面。其中1801为其中一项结果组；1802为同一结果组内的结果；1803为结果组内的文档，通过点击该文档链接可以访问文档本身；1804为结果组内含有文档数量信息；1805为结果组的检索报告；1806访问结果组内的下一页文档列表的链接。

在该结果显示界面中，提供了如下信息：(1)结果组内的文档数量、文档类型信息、文档发布时间信息、文档来源信息等，或以报告形式提供这些信息。(2)命中文档的关于结果部分的摘要信息。

图10显示一例使用本发明的问题输入界面。

在实施方式一中，例举的是信息处理装置100内部具有数据库1100，但是本发明并限于此，数据库也可以设置在网络的某侧，通过网络与信息处理装置相连。

此外，在实施方式一中，例举的是问题分析和检索项生成模块1300、文档检索模块1400、结果抽取和过滤模块1500、结果分组模块1600调用数据库1100中的数据，但是本发明并限于此，也可以不设置数据库，而是问题分析和检索项生成模块1300、文档检索模块1400、结果抽取和过滤模块1500、结果分组模块1600通过访问网络文档来取得数据。

<实施方式二>

图11为本发明的另一实施方式的信息处理装置的模块结构图。该信息处理装置200包括：问题分类模块2100、基于句子相似的结果抽取模块2200、结果分组模块2300、显示模块2400。

问题分类模块2100用于为输入问题找到对应的问题类别。每种问题类别都对应特定的答案类型。

基于句子相似的结果抽取模块2200用于从待检索文档中检索得到输入问题的结果。

下面分别举例对模块2100、2200、2300、2400进行进一步的详细说明。

如图12所示，问题分类模块2100的处理流程分为离线训练步骤和在线预测步骤。其中离线训练步骤包括，问题样本收集步骤S2101，问题样本分类步骤S2102，问题样本训练步骤S2103。在线预测部分包括问题接收步骤S2105，词、句法信息获取步骤S2106，分类特征生成步骤S2107，分类预测步骤S2108。

下面对离线训练步骤进行详细的说明。

问题样本收集步骤S2101用于收集问题样本。

问题样本分类步骤S2102用于，将所收集到的问题样本，按照问题的类型进行分类。例如：时间类问题、人物类问题、地点类问题、数量类问题等。

问题样本训练步骤S2103用于，首先从问题样本中生成特征信息，特征具体可以包括但不限于：问题中所有词，问题中所有由词组成的二元组，问题中所有词的词性，问题包含词的个数，问题焦点词、问题焦点词的词性，问题焦点词所属的句法结构信息。而后使用分类器进行训练，得到问题分类模型数据。在此分类算法没有限制，可以使用决策树分类器，也可以使用支持向量机等分类器。

下面对在线预测步骤进行详细的说明。

问题接收步骤S2105用于，接受用户输入的问题，并进行有效性检测。若输入为空，则不进行后续处理。

词法信息、句法信息获取步骤S2106用于，将用户输入的问题进行分词，词性标注和句法分析。此步骤可以从问题中获得关键词信息，词性信息，以及句子结构信息。

分类特征生成步骤S2107用于，从步骤S2106所得的词句法信息中，抽取用于问题类别预测的分类特征，该此处分类特征与问题样本训练步骤S2103中所用的特征保持一致。

分类预测步骤S2108用于，使用步骤S2107生成的分类特征和离线部分产生的问题分类模型数据进行自动分类，得到问题类别。

如图13所示，基于句子相似的结果抽取模块2200的处理流程包括，句子切分步骤S2201、句子分词和词性标注步骤S2202，基于相似度计算的答案句确定S2203，结果抽取和过滤步骤S2204。

步骤S2201用于，将每一个待检索文档分割成多个句子，而后每个句子作为结果抽取的对象，传递给后续处理步骤。

步骤S2202用于，对步骤S2201切分好的句子，做分词，词性标注，得到句子中的词和其词性。

步骤S2203用于，对输入的问句和步骤S2202切分好的句子进行相似度计算，相似度达到一定阈值的句子为候选答案句。具体地可以：

首先问句S₁经过词法分析后的词集W_S1的和步骤S2202输出的词集合W_S2进行停用词过滤，去掉助词“的”，“了”等停用词，分别得到词集W_S1和W_S2，其中W_S1的词个数为m，W_S2的词个数为n。而后通过下式计算相似度。

Sim (S_{1}, S_{2}) = \frac{Σ_{i = 1}^{m} isIn (x_{i}, W_{S 2}) + Σ_{j = 1}^{n} isIn (y_{j}, W_{S 1})}{m + n}

其中x_i为词集W_S1中的一个词，y_j为词集W_S2中的一个词

isIn(x，W_s)定义为一个二值函数，当词x在W_s中有相同词或者同义词，并且两者词性相同的时候，该函数值为1，否则值为0。这样的目的在于使含有同词性的相同词越多，句子的相似度越高。和问句相似度高于一定阈值的句子为候选答案句。

步骤S2204用于，从步骤S2203获取的候选答案句中抽取问题的结果。具体地：

从问题分类模块2100所得到的答案类型，例如：西红柿是什么颜色？在经过问题分类后得到其答案类型为“颜色”。而后对候选问题集中的词进行语义义项检索，如果词的义项中含有答案类型，则该词即为问题的结果。

最终，将所有文档中包含的结果，以及其所在的文档信息加入结果集中。

如图14所示，结果分组模块2300的处理流程包括，结果集接收步骤S2301，结果向量空间模型表示步骤S2302，计算结果向量语义距离步骤S2303，结果向量聚类步骤S2304。

步骤S2301用于，接收模块2200检索得到的结果集。

步骤S2302用于，将结果集中的结果用向量空间模型表示。具体地，对结果进行词法分析，得到结果所包含的词，进而表示为向量：如：

其中weight_i为词word_i的权重，可以选取word_i在当前结果中出现的次数作为权重。

步骤2303用于，对于任意两个结果向量R₁R₂，计算它们之间的语义距离，具体地，可以通过下式计算。

Dis \tan ce (R_{1}, R_{2}) = 1 - \frac{Σ_{i = 1}^{m} weight (x_{i}) Max {{Sim}_{j = 1}^{n} (x_{i}, y_{j})}}{2 * Σ_{i = 1}^{m} weight (x_{i})} - \frac{Σ_{j = 1}^{n} weight (y_{j}) Max {{Sim}_{i = 1}^{m} (y_{j}, x_{i})}}{2 * Σ_{j = 1}^{n} weight (y_{j})}

步骤S2204用于，基于步骤S2203所生成的结果向量之间的语义距离，将结果向量进行聚类，形成多个结果组。在此以最短距离法进行层级聚类为例，说明对于N个结果向量具体聚类过程：

(1)设定生成类别数K。

(2)每个结果R_i向量单独成为的一个类C_i的中心，得到N个类，当前类别数k＝N。

(3)当k＝K时，算法结束。

(4)根据步骤S2203计算的语义距离，将距离最近的两个类别C_i和C_j合并成一个新类C_i，去除类别C_j并计算新类别C_i的中心点。

(5)当前类别个数k减一，并转到(3)

上述方法需要预设定类别生成个数K，而在实施的过程中，可以根据多个K值分别进行聚类，而后根据IGP指标或者Silhouette指标确定最佳类别个数，其相应的地聚类结果作为分组结果。至此，得到多个结果组，每个结果组中包含一定数量的结果，同时每个结果都包含其对应的文档信息。

图15为显示模块2400所生成的一例显示界面。其中，2401为一结果组，2402为结果组2401所包含的文档列表，2403为带有文档链接的文档名，点击可以访问对应的文档。

根据本发明的信息处理装置，能够向用户提供回答问题的多个结果组，每个结果组都包含一种回答检索问题的结果，通过对结果组的浏览，即可了解检索结果的总体概况；每个结果组都包含一定数量的命中文档，同一个结果组内的命中文档均包含相同结果，通过点击命中文档链接即可访问具体的文档内容。根据本发明的信息处理装置，可以提高检索的准确率，同时方便用户了解检索结果的总体情况，提高检索速度，避免检索结果的遗漏。

Claims

1.一种信息处理装置，其特征在于，从外部接收检索问题的输入，将对检索问题的处理结果进行分组，并输出分组结果。

2.如权利要求1所述的信息处理装置，其特征在于，具有：

问题分析和检索项生成模块(1300)，对检索问题进行分析，生成检索项；

文档检索模块(1400)，接收上述问题分析和检索项生成模块(1300)所生成的检索项，进行文档检索；

结果抽取和过滤模块(1500)，抽取所检索的结果并对结果进行过滤；以及

结果分组模块(1600)，对上述过滤后的结果进行分组。

3.如权利要求2所述的信息处理装置，其特征在于，

上述文档检索模块(1400)根据语义对上述问题分析和检索项生成模块(1300)生成的检索项进行扩展，使用扩展后的检索项进行文档检索；

上述结果抽取和过滤模块(1500)，根据上述问题分析和检索项生成模块(1300)生成的检索问题的问题模式，在答案模式库中检索得到对应的答案模式，然后，用答案模式在解析后的命中文档中匹配得到候选结果，根据候选结果的语义信息进行过滤；

上述结果分组模块(1600)，对于上述结果抽取和过滤模块(1500)所抽取并过滤的结果，分词并进行词权重计算，进而进行向量空间表示，然后计算所有结果之间的语义距离，依据语义距离将结果聚类，形成多个结果组。

4.如权利要求2所述的信息处理装置，其特征在于，

还具有分组结果分析和报告生成模块(1700)，对分组的结果进行分析，并且生成分组结果报告。

5.如权利要求3所述的信息处理装置，其特征在于，

上述分组结果分析和报告生成模块(1700)，对结果组内的文档数量、文档类型、文档发布时间、文档来源等信息进行统计分析，生成分组结果报告。

6.如权利要求4所述的信息处理装置，其特征在于，

还具有：

问题输入模块(1200)，接收从外部输入的检索问题；和

显示模块(1800)，从上述分组结果分析和报告生成模块(1700)获取信息，并显示分组结果。

7.如权利要求6所述的信息处理装置，其特征在于，

还具有数据库(1100)。

8.如权利要求6所述的信息处理装置，其特征在于，

该处理装置通过网络与数据库连接。

9.如权利要求7所述的信息处理装置，其特征在于，

上述数据库(1100)中存储有问题模式库(1101)、答案模式库(1102)、语义词典库(1103)、词法分析语料库(1104)、句法分析语料库(1105)。

10.如权利要求1所述的信息处理装置，其特征在于，具有：

问题分类模块(2100)，对所输入的问题进行分类；

基于句子相似的结果抽取模块(2200)，从待检索文档中检索得到输入问题的结果；

结果分组模块(2300)，对所得到的结果进行分组；以及

显示模块(2400)，显示分组结果。

11.如权利要求1所述的信息处理装置，其特征在于，所述信息处理装置是信息检索装置。

12.一种信息处理方法，其特征在于，包括：

从外部接收检索问题的输入的步骤；以及

输出分组结果的步骤。

13.如权利要求12所述的信息处理方法，其特征在于，还包括：

问题分析和检索生成步骤，对检索问题进行分析，生成检索项；

文档检索步骤，接收问题分析和检索生成步骤中所生成的检索项，进行文档检索，

结果抽取和过滤步骤，抽取所检索的结果并对结果进行过滤；以及

结果分组步骤，对上述过滤后的结果进行分组。

14.如权利要求13所述的信息处理方法，其特征在于，还包括：

上述文档检索步骤中，根据语义对上述问题分析和检索生成步骤中生成的检索项进行扩展，使用扩展后的检索项进行文档检索；

上述结果抽取和过滤步骤中，根据上述问题分析和检索生成步骤中生成的检索问题的问题模式，在答案模式库中检索得到对应的答案模式，然后，用答案模式在解析后的命中文档中匹配得到候选结果，根据候选结果的语义信息进行过滤；

上述结果分组步骤中，对于上述结果抽取和过滤步骤中所抽取并过滤的结果，分词并进行词权重计算，进而进行向量空间表示，然后计算所有结果之间的语义距离，依据语义距离将结果聚类，形成多个结果组。

15.如权利要求13所述的信息处理方法，其特征在于，

还包括分组结果分析和报告生成步骤，对分组的结果进行分析，并且生成分组结果报告。

16.如权利要求15所述的信息处理方法，其特征在于，

上述分组结果分析和报告生成步骤中，对结果组内的文档数量、文档发布时间、文档来源等信息进行统计分析，生成分组结果报告。

17.如权利要求15所述的信息处理方法，其特征在于，

还包括：

问题输入步骤，接收从外部输入的检索问题；和

显示步骤，根据上述分组结果分析和报告生成步骤中获取的信息，显示分组结果。

18.如权利要求12所述的信息处理方法，其特征在于，包括：

问题分类步骤，对所输入的问题进行分类；

基于句子相似的结果抽取步骤，从待检索文档中检索得到输入问题的结果；

结果分组步骤，对所得到的结果进行分组；以及

显示步骤，显示分组结果。