CN103092875A

CN103092875A - 一种基于文本的搜索方法及搜索装置

Info

Publication number: CN103092875A
Application number: CN201110346054XA
Authority: CN
Inventors: 董宇; 杨辉
Original assignee: China Mobile Group Guizhou Co Ltd
Current assignee: China Mobile Group Guizhou Co Ltd
Priority date: 2011-11-04
Filing date: 2011-11-04
Publication date: 2013-05-08
Anticipated expiration: 2031-11-04

Abstract

本发明公开了一种基于文本的搜索方法及搜索装置。基于文本的搜索方法包括：获取用户发送的文本流中包含的特征词；从预先构建的特征概率词库中分别获取特征词对应的各业务的特征概率；根据特征词对应的各业务的特征概率，计算文本流对应各业务的联合概率；根据计算得到的联合概率输出最终匹配业务，将特征词存入特征概率库，更新特征概率库中该特征词对应的特征概率。应用本发明，可以提高搜索效率、降低运营成本。

Description

一种基于文本的搜索方法及搜索装置

技术领域

本发明涉及移动通信业务支撑技术，特别涉及一种基于文本的搜索方法及搜索装置。

背景技术

用户通过短信等文本通信方式办理或取消通信业务，可以有效节约用户到短信营业厅办理的时间、提高用户的便捷性。但传统的短信营业厅不支持或只能部分支持模糊匹配功能，对于不支持模糊匹配功能的短信营业厅，通过将短信内容与业务库中预先设置的各业务映射的关键词集进行精确匹配，如果匹配成功，则为用户办理相应的业务，如果匹配失败，向用户返回输入错误提示信息。而随着用户越来越多地使用自然语言与短信营业厅进行交互，短信营业厅通过精确匹配的方法对用户的意图越来越难以理解，导致对用户上行的大量短信无法识别，从而无法进行及时有效的处理，影响用户正常的业务订阅；而对于部分支持模糊匹配识别功能的短信营业厅，在精确匹配失败后，需要将短信内容与业务库中预先设置的各业务映射的关键词集进行模糊匹配，获取模糊匹配成功的短信内容所属的业务，对于匹配成功的业务为多个的情况，将相应业务指令采用推送菜单的方式与用户交互，由用户选取需要订阅的业务后再上报至短信营业厅，短信营业厅再进行用户业务的办理。上述业务指令处理逻辑为：用户上行短信由短信网关程序处理接收，经过防攻击机制进行预处理后，短信进入上行队列表中，由分发程序将短信取出分发给后台处理进程，处理进程进行短信业务规则(预先设置的各业务映射的关键词)匹配处理。具体来说，匹配流程为：根据用户上行短信，对存储在业务指令库中的短信业务规则进行一对一精确匹配，如果匹配成功，则取出对应的业务指令进行业务逻辑处理，并结束流程，如果精确匹配失败，进入模糊匹配处理流程，按照包含与被包含的关系进行处理并获取模糊处理结果，举例来说，如果用户上行的短信内容为“我要办理飞信”，而业务指令库中业务指令或短信业务规则为“办理飞信”，则不能实现精确匹配，进入模糊匹配流程。由于短信内容中包含且只包含了业务指令“办理飞信”，可以确定模糊匹配成功，则进入飞信开通流程；再例如，如果用户发送的短信内容为“飞信”，如果查询到业务指令库中包含“开通飞信”的业务指令，则进入对应的开通飞信流程，如果查询到业务指令库中不仅包含“开通飞信”的业务指令，还包含“办理飞信”的业务指令，则表明匹配出来的业务为多项，则将这些业务组装成新的短信菜单，发送给用户进行选择，并依据用户反馈的选择进行办理。

为了推进短信营业厅的发展及优化建设，中国移动对短信营业厅的规划提出了进一步的要求：短信营业厅需要承担70％以上的业务办理量；各省应建设短信营业厅智能搜索功能，能够承载本地10086热线可查询的全部业务，并在2011年12月基于短信的搜索成功率应不低于70％。

但由上述可见，现有短信营业厅基于短信(文本)搜索实现业务的方法，短信营业厅能够结合精确匹配，按照业务指令中的关键词对用户上行的短信进行业务模糊匹配，对同一条短信中出现不同关键词或同一关键词对应多项业务指令等匹配结果不确定的情况，获取业务指令库中包含这些关键词的不同业务指令，并将全部查询得到的业务名称组装成新的短信菜单推送给用户进行二次交互确认，并通过用户的简单回复完成业务查询和订购。但按照关键词的模糊匹配搜索方法，不能对用户上行短信内容中的同义词或近义词进行辨别和区分，漏失了相关有效信息，降低了搜索的效率；同时，对业务指令的关键词配置成为业务指令库中对用户上行短信进行解析处理的重要依据，使得对用户上行短信内容的理解依赖于大量业务指令与相应关键词映射关系的建立和维护，需要通过人工操作才能完成关键词的选取和补充，不仅给维护管理人员带来很大的工作量，同时随着业务指令与关键词映射关系的不断扩充，会带来另一个严重问题，即同一业务关键词重复出现和使用以及不同业务间关键词的嵌套交叉等，使得用户发送一条短信会查出来十几个甚至几十个业务的局面，虽然仍然可以通过各式各样的分解、去重、补充或删减等手段来完善和精简关键词库，但仍会造成业务指令库难于管理和维护，运营成本高；进一步地，用户需要浏览繁多展示的业务并从中进行选择，使得用户订阅业务的流程相对比较繁琐，不仅降低了业务的服务水平，也压抑了用户的新业务消费冲动，使得用户业务体验差、感知度不强。

发明内容

有鉴于此，本发明的主要目的在于提出一种基于文本的搜索方法，提高搜索效率、降低运营成本。

本发明的另一目的在于提出一种基于文本的搜索装置，提高搜索效率、降低运营成本。

为达到上述目的，本发明提供了一种基于文本的搜索方法，该方法包括：

获取用户发送的文本流中包含的特征词；

从预先构建的特征概率词库中分别获取特征词对应的各业务的特征概率；

根据特征词对应的各业务的特征概率，计算文本流对应各业务的联合概率；

根据计算得到的联合概率输出最终匹配业务，将特征词存入特征概率库，更新特征概率库中该特征词对应的特征概率。

所述获取用户发送的文本流中包含的特征词包括：

对用户发送的文本流进行分词处理，获取候选特征词集；

根据预先设置的停用词表对获取的候选特征词集进行过滤处理，得到特征词。

所述停用词表包括无意义词语、和/或，高文档率词语。

构建所述特征概率词库包括：

采集训练样本数据集；

对训练样本数据集中样本数据进行精确匹配以及模糊匹配，获取匹配成功的样本数据以及对应的分类业务，在特征概率词库中建立分类业务存储区，存储与分类业务匹配成功的样本数据；

在分类业务存储区中，获取样本数据中包含的词条，统计词条在分类业务中的文档频率DF；

将DF值超过预先设置的分类业务DF阈值的词条作为特征词存入分类业务存储区；

计算特征词在分类业务中的特征指示概率；

根据特征指示概率计算该特征词的特征概率，并存入分类业务存储区中，建立特征词与特征概率的特征概率词库。

所述特征指示概率的计算公式为：

p_{i} (w) = \frac{b_{i} (w)}{b_{i} (w) + g_{i} (w)}

式中，

p_i(w)是第i个分类业务中特征词w的特征指示概率；

b_i(w)是第i个分类业务中特征词w的目标概率；

g_i(w)是第i个分类业务中特征词w的非目标概率。

所述目标概率计算公式为：

b_{i} (w) = \frac{{DF}_{i} (w)}{N_{i}}

式中，

DF_i(w)为第i个分类业务中含有特征w的目标分类文本数量；

N_i为第i个分类业务中总的目标分类文本数量。

所述非目标概率计算公式为：

g_{i} (w) = \frac{Σ_{j = 1, j &NotEqual; i}^{n} D F_{j} (w)}{Σ_{j = 1, j &NotEqual; i}^{n} N_{j}}

式中，

DF_j(w)为第j个分类业务中含有特征w的文本数量；

N_j为第j个分类业务中总的目标分类文本数量；

n为总的分类业务数量。

所述特征概率计算公式为：

f_{i} (w) = \frac{(s * x) + (m * p_{i} (w))}{s + m}

式中，

m为含特征w的文本数量；

s、x为预先设置的常量。

所述联合概率的计算公式为：

式中，

p_k()为文本的联合概率；

M_i为第i个文本；

f(w_ij)为第i个文本中的第j个特征词的特征概率；

K为第i个文本包含的特征词数量。

在构建特征概率词库后，进一步包括：

利用预先设置的测试样本数据集中的样本数据对构建的特征概率词库进行测试验证。

所述根据计算得到的联合概率输出业务指令包括：

将计算得到的联合概率与预先设置的联合概率阈值进行大小比较，如果联合概率大于或等于分类输出阀值，输出相应的业务指令；或

选择计算得到的联合概率排序前预设数目的文本对应的分类业务，并将其向用户输出。

在所述获取用户发送的文本流中包含的特征词的步骤之前，进一步包括：

获取用户发送的文本流，确定精确匹配失败；

对用户发送的文本流进行模糊匹配，确定模糊匹配的业务数为零或超过预先设置的业务阈值。

一种挖掘热点词的装置，该装置包括：特征词获取模块、特征概率词库构建模块、联合概率计算模块以及业务处理模块，其中，

特征词获取模块，获取用户发送的文本流中包含的特征词，输出至联合概率计算模块；

特征概率词库构建模块，用于构建特征词对应的各业务的特征概率；

联合概率计算模块，特征概率词库构建模块中分别获取特征词对应的各业务的特征概率，根据特征词对应的各业务的特征概率，计算文本流对应各业务的联合概率；

业务处理模块，根据计算得到的联合概率输出业务指令，将特征词存入特征概率库，更新特征概率库中该特征词对应的特征概率。

所述特征词获取模块包括：分词处理单元以及去停用词处理单元，其中，

分词处理单元，对用户发送的文本流进行分词处理，获取候选特征词集；

去停用词处理单元，根据预先设置的停用词表对获取的候选特征词集进行过滤处理，得到特征词。

所述特征概率词库构建模块包括：训练样本数据集采集单元、分类业务存储区单元、文档频率统计单元、特征指示概率计算单元以及特征概率词库单元，其中，

训练样本数据集采集单元，采集训练样本数据集；

分类业务存储区单元，对训练样本数据集中样本数据进行精确匹配以及模糊匹配，获取匹配成功的样本数据以及对应的分类业务，存储与分类业务匹配成功的样本数据；

文档频率统计单元，在分类业务存储区单元中，获取样本数据中包含的词条，统计词条在分类业务中的文档频率DF，获取DF值超过预先设置的分类业务DF阈值的词条，作为特征词存储；

特征指示概率计算单元，计算文档频率统计单元获取的特征词在分类业务中的特征指示概率；

特征概率词库单元，根据特征指示概率计算该特征词的特征概率，建立特征词与特征概率的特征概率词库。

由上述的技术方案可见，本发明提供的一种基于文本的搜索方法及搜索装置，获取用户发送的文本流中包含的特征词；从预先构建的特征概率词库中分别获取特征词对应的各业务的特征概率；根据特征词对应的各业务的特征概率，计算文本流对应各业务的联合概率；根据计算得到的联合概率输出最终匹配业务，将特征词存入特征概率库，更新特征概率库中该特征词对应的特征概率。这样，通过构建特征概率词库，对文本流进行特征词提取，根据构建的特征概率词库获取提取的特征词对应的特征概率，最终得到上行短信的联合概率，基于联合概率输出业务指示，从而有效利用了用户上行短信内容中的同义词或近义词等有效的相关信息，提高了搜索的效率；同时，通过更新特征概率库中该特征词及对应的特征概率，从而通过自适应的迭代过程，无需人工管理和维护，有利于搜索效率的提升以及运营成本的降低。

附图说明

图1为本发明实施例的一种基于文本的搜索方法流程示意图。

图2为本发明实施例构建特征概率词库的流程示意图。

图3为本发明实施例基于文本的搜索方法具体流程示意图。

图4为本发明实施例基于文本的搜索装置结构示意图。

图5为本发明实施例基于文本的搜索装置的逻辑构成示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

现有短信营业厅基于短信进行搜索实现业务办理的方法，不能对用户上行短信内容中的同义词或近义词进行辨别和区分，漏失了有效的相关信息，降低了搜索效率；而通过人工操作扩展业务指令与关键词对应关系，又将使得同一业务指令对应的关键词重复出现以及不同业务指令间关键词的嵌套交叉，管理和维护成本高。本发明实施例中，在现有基于文本的搜索方法基础上，提供一种语义搜索功能，考虑分类的业务，统计、提取各分类业务映射的关键词，预先建立关键词对各分类业务的指示性概率，即考虑每一关键词与各分类业务的相关性，使得用户上行短信与各分类业务或其他数据进行关联，然后，通过对用户文本内容进行特征词提取，获取用户文本内容包含的特征词分别对各分类业务的指示性概率，并依据用户文本内容中包含的所有特征词综合计算对各分类业务的联合概率，作为业务匹配成功与否的依据，从而避免了关键词的嵌套交叉问题；同时，随着用户的不断使用，可以存储提取的更多上行短信特征词，从而更新计算得到的特征词分别对各分类业务的指示性概率。这样，通过对特征指示性概率的反复迭代计算和训练，实现机器自学习成长的过程，从而实现对业务指令的同义词、近义词、错别字、生僻字等语义智能识别和业务搜索匹配。

图1为本发明实施例的一种基于文本的搜索方法流程示意图。参见图1，该流程包括：

步骤101，获取用户发送的文本流中包含的特征词；

本步骤中，对于用户采用文本形式表示信息或短信输入的文本流，需要进行预处理，例如，对文本流进行分词、去停用词、未登录词、词性、拼音以及语义分析等处理，即将文本流表示成计算机能够识别的形式，并提取文本流中能够反映与用户业务办理相关的词语，形成特征词，特征词可以是一个，也可以是多个。

在该步骤之前，还可以按照现有基于文本的搜索方法进行处理，在确定现有方式不能处理之后，执行步骤101，即：

获取用户发送的文本流，确定精确匹配失败；

本步骤中，通过对文本流进行模糊匹配，如果模糊匹配失败；或者，文本流中出现不同关键词，不同的关键词分别对应不同的业务指令，或同一关键词对应多项业务指令等匹配结果不确定的情况，且相匹配的结果数超过预先设置的业务阈值，例如，与文本流相匹配的业务超过三个，表明用户需要浏览繁多展示的业务并从中进行选择，可以作进一步处理。

获取用户发送的文本流中包含的特征词具体包括：

A1，对用户发送的文本流进行分词处理，获取候选特征词集；

本步骤中，对文本流进行中英文分词处理。

本发明实施例中，可以采用由中国科学院计算技术研究所研制的基于多层隐马模型的汉语词法分析系统(ICTCLAS)进行短信中英文分词处理，ICTCLAS的分词正确率可高达97.58％，基于角色标注的未登录词识别，能取得高于90％的召回率，其中，中国人名的识别召回率接近98％，分词和词性标注处理速度为31.5KB/s，并提供Delphi、JAVA等接口。当然，实际应用中，也可以采用其他的分词技术。

A2，根据预先设置的停用词表对获取的候选特征词集进行过滤处理。

本步骤中，停用词表包括无意义词语、和/或，高文档率词语。

在实际应用时，用户文本中输入的很多词语与需要处理的业务内容关系不大，这样，在获取的候选特征词集中，可能包含了大量噪音。例如，无意义词语的连词：可是、那么、如果等；虚词：的、了、呢等词语，这些与业务内容无关的词语，为了避免后续的冗余处理，节约计算资源，需要将其过滤。本发明实施例中，在获取候选特征词集后，可以根据预先设置的停用词表对获取的候选特征词集进行去噪处理，即通过设置停用词表，与获取的候选特征词集进行匹配，将候选特征词集中与停用词表相匹配的词语进行去噪(过滤)处理。

另外，一些出现频率过高的词语，例如，我们、人家等，这些词只在文本中起辅助作用，与业务内容的关联性也较小。因此，为降低后续处理，提高过滤的性能，可以将它们删除掉。本发明实施例中，在停用词表中设置该类高文档率词语，具体可通过大规模文本集的分析，筛选一批文档率高的词语，加入到停用词表中，即停用词表包括无意义词语以及高文档率词语，并可以采用字典过滤的方式进行，关于字典过滤的方式，具体可参见相关技术文献，在此不再赘述。

经过过滤处理的候选特征词集为特征词集。

步骤102，从预先构建的特征概率词库中分别获取特征词对应的各业务的特征概率；

构建特征概率词库包括：

B1，采集训练样本数据集以及测试样本数据集；

本步骤中，查询预先设置的样本迭代库，优先从样本迭代库中选择样本数据。如果样本迭代库中没有样本数据或样本数据量不足，可采集短信营业厅存储的近期上行文本日志记录，例如，存储的最近1个月用户发送的上行短信作为样本数据。

较佳地，按照2∶1的比例将样本数据分为训练样本数据集和测试样本数据集。

B2，对训练样本数据集中样本数据进行精确匹配以及模糊匹配，获取匹配成功的样本数据以及对应的分类业务，在特征概率词库中建立分类业务存储区，存储与分类业务匹配成功的样本数据；

本步骤中，将训练样本数据集中短信作为现有短信营业厅业务指令集的输入，将输出中与业务指令集中分类业务匹配的短信与分类业务按照多对一或一对多的关系进行存储，建立每一分类业务存储区，存储与相应分类业务匹配成功的样本数据。

如果分类业务中还包含有多个子分类业务，则在该分类业务存储区中，分别建立相应的子分类业务存储区，分别存储与相应子分类业务匹配成功的样本数据。

B3，在分类业务存储区中，获取样本数据中包含的词条；

本步骤与步骤101相类似，在此不再赘述。

B4，统计词条在分类业务中的文档频率(DF，Document Frequent)；

本步骤中，利用分词技术对短信进行词汇拆分、过滤后得到词条，统计每一词条在分类业务存储区中的DF值，即在分类业务存储区存储的匹配成功的样本数据中，样本集中包含该词条的文本数或短信数。当然，实际应用中，也可以统计每一词条在所有业务存储区中的DF值。

B5，将DF值超过预先设置的分类业务DF阈值的词条作为特征词存入分类业务存储区；

本步骤中，将DF值超过预先设置DF阈值的词条作为特征词。

实际应用中，对于不同的分类业务，可以设置不同的分类业务DF阈值，通过分类业务DF阈值过滤处理，可以使得后续构建的特征概率词库更为精确。当然，该步骤为可选。

B6，计算特征词在分类业务中的特征指示概率；

本步骤中，同一特征词可能出现在不同的分类业务存储区，对应不同的特征指示概率。

根据分类业务中的特征词，计算该特征词在该分类业务中的特征指示概率。

实际应用中，可采用朴素贝叶斯分类方法计算特征指示概率。

贝叶斯分类算法是一种广泛应用的分类算法，应用于文本分类，通过计算文本属于每个类别的概率P(c_j/d_x)，其中，d_x为类别x，c_j为第j个样本数据，从而将该文本归为概率最大的一类，朴素贝叶斯分类(Naive Bayesian)算法建立在“贝叶斯假设”的基础之上：即假设所有的特征之间互相独立，基于该假设的朴素贝叶斯分类算法的计算简单，能够进行自我纠正，效果较好。关于贝叶斯分类算法以及朴素贝叶斯分类方法的详细描述，具体可参见相关技术文献，在此不再赘述。

考虑贝叶斯分类算法应用于业务分类和文本搜索等方面，但主要还是应用在垃圾短信、垃圾邮件等类别较少的分类模型构建中，缺少对样本类别概率的迭代计算和不断求精过程，因而，本发明实施例中，结合贝叶斯分类算法并进一步设置迭代求精、分类学习、结果修正，以提高模型的精度以及自适应能力，降低维护成本。针对每一个分类的业务指令，建立一个对应的目标文本和非目标文本特征词的贝叶斯概率模型。在贝叶斯概率模型中，对于每一个特征词，可以运用贝叶斯公式计算特征指示概率。

对于分类业务存储区中的一个特征词w，其特征指示概率计算公式如下：

p_{i} (w) = \frac{b_{i} (w)}{b_{i} (w) + g_{i} (w)}

式中，

p_i(w)是第i个分类业务中特征词w的特征指示概率；

b_i(w)是第i个分类业务中特征词w的目标概率；

g_i(w)是第i个分类业务中特征词w的非目标概率，即含有特征w的其他分类业务中文本数量与总的其他分类业务中文本数量的比值。

其中，

b_{i} (w) = \frac{{DF}_{i} (w)}{N_{i}}

式中，

DF_i(w)为第i个分类业务中含有特征w的目标分类文本数量，即DF值；

N_i为第i个分类业务中总的目标分类文本数量。

g_{i} (w) = \frac{Σ_{j = 1, j &NotEqual; i}^{n} D F_{j} (w)}{Σ_{j = 1, j &NotEqual; i}^{n} N_{j}}

式中，

DF_j(w)为第j个分类业务中含有特征w的文本数量；

N_j为第j个分类业务中总的目标分类文本数量；

n为总的分类业务数量。

B7，根据特征指示概率计算该特征词的特征概率，并存入分类业务存储区中，建立特征词与特征概率的特征概率词库。

特征词(w)的特征概率f_i(w)的计算公式如下：

f_{i} (w) = \frac{(s * x) + (m * p_{i} (w))}{s + m}

式中，

m为含特征w的文本(短信)数量，m＝DF_i(w)；

s为一个常数参量，通常为1；

x为常量，当m＝0时假设的常量，即含特征w的文本数量为零时，设置的特征概率，通常设为0.4。

特征w的迭代计算过程，即为特征概率词库的构建。由于特征词的筛选消耗时间较长，因此将筛选特征词的整体过程单独分离实现，将统计筛选完成后的特征词用于构建特征概率词库，以供前台分类搜索使用。

在计算过程中，较佳地，不考虑短信业务分类外的情况，即不将未匹配上短信分类业务的短信集考虑在内，否则会造成不属于任何分类业务的短信集形成一个单独的分类，且其特征值指示概率越来越高，从而影响目标分类业务的特征值成长。

进一步地，在构建特征概率词库后，进一步包括：

利用测试样本数据集中的样本数据对构建的特征概率词库进行测试验证。

本步骤中，在测试样本数据集中，提取文本的特征，使用朴素贝叶斯分类算法进行结果验证，并通过反复训练对特征词及特征概率进行修正。

图2为本发明实施例构建特征概率词库的流程示意图。参见图2，按照2∶1的比例将样本数据分为短信训练集(训练样本数据集)和测试集，将训练集样本短信作为现有短信营业厅指令集的输入，将输出中与某分类业务匹配的短信集合与具体业务分类按照多对一关系对应划分作为分类下的目标短信，将选定训练集中的短信进行分词后，根据训练器进行特征提取。利用分词技术对短信进行词汇拆分后计算每一个词条的DF值，一个词条的DF值即为训练集中包含该词条的短信数，选取DF值高的词条或特征库中的词条作为特征词，把从文本中提取的特征串，逐一计算其匹配某个业务分类的概率(特征指示概率)，再以类似键值对的形式存入特征库中；在测试集中，提取文本的特征，通过分类器使用分类算法进行结果验证，将目标分类标识出来，存储分类结果并通过反复训练对特征词及其指示概率进行修正。

步骤103，根据特征词对应的各业务的特征概率，计算文本流对应各业务的联合概率；

本步骤中，根据文本(短信)中所包含的一组特征词在分类业务中的特征概率，可以计算获取该文本(短信)属于该分类业务的联合概率，最后分别得到该文本流对应多个业务的联合概率。

在分类过程中，对于进入分类的上行短信，根据训练的结果和该上行短信的特征，计算该短信一个综合的判定值，即联合概率。

联合概率计算公式如下：

p (M_{i}) = \frac{f (w_{i 1}) f (w_{i 2}) . . . f (w_{ij}) . . . f (w_{iK})}{f (w_{i 1}) f (w_{i 2}) . . . f (w_{ij}) . . . f (w_{iK}) + (1 - f (w_{i 1})) (1 - f (w_{i 2})) . . . (1 - f (w_{ij})) . . . (1 - f (w_{iK}))}

即：

式中，

p_k()为文本的联合概率；

M_i为第i个文本；

f(w_ij)为第i个文本中的第j个特征词的特征概率，当短信特征中包含以前没有从来没有出现的特征时，将特征概率设定为初始值，本发明实施例中，初始值假设为0.4；

K为第i个文本包含的特征词数量。

步骤104，根据计算得到的联合概率输出业务指令，将特征词存入特征概率库，并更新特征概率库中该特征词对应的特征概率。

本步骤中，将计算得到的联合概率与预先设置的联合概率阈值进行大小比较，以判定该文本是请求目标服务的文本还是请求其他服务的文本。如果联合概率大于或等于分类输出阀值，则表明用户输入的文本与该项分类业务匹配成功，确定该文本是请求目标服务的文本，向用户输出该项分类业务指令进行业务处理。当然，也可以选择计算得到的联合概率排序前预设数目的文本对应的分类业务，并将其向用户输出。

对于联合概率小于分类输出阀值的情况，表明与该项分类业务匹配失败。较佳地，可以将目标文本加入训练样本数据集中进行迭代计算等，这样，在反复迭代过程中，分类精度会随着迭代的次数增加而逐渐提高，每一次的迭代可以控制在只与之前的特征概率相关，尽量避免以前的文本集也参与迭代，从而提高迭代计算的效率。

更新特征概率库中该特征词对应的特征概率，即是在当前特征概率库中存储的该特征词对应的特征概率的基础上，考虑新加入的该特征词DF值对特征概率的影响。

实际应用中，对于联合概率小于分类输出阀值的情况，还可以设置匹配阈值，如果计算出来的联合概率小于分类输出阀值而大于匹配阈值，则将该联合概率对应的分类业务加入预选库中，由管理员进行人工判定；如果联合概率小于匹配阈值，则进入样本迭代库中，以便下次计算联合概率使用，并引导用户(设置交互次数)通过交互找到目标业务，超过设置的交互次数上限后，提示用户指令错误，详询10086，结束流程。

以下举一具体实施例，对本发明作详细说明。

图3为本发明实施例基于文本的搜索方法具体流程示意图。参见图3，该流程包括：

步骤301，根据采集的用户上行短信样本构建训练样本数据集以及测试样本数据集；

本步骤中，选取10086短信营业厅记录的12000条用户上行短信作为样本集，按照2∶1的比例划分为训练样本数据集(8000条)和测试样本数据集(4000条)。

步骤302，对训练样本数据集中短信进行精确匹配以及模糊匹配，获取匹配成功的短信以及该短信对应的分类业务；

本步骤中，通过将训练样本数据集中的短信导入系统进行业务分类匹配处理，由于特征库构建前系统中包含有短信营业厅业务指令，可以按照现有的精确匹配以及模糊匹配原则，系统将输出匹配成功的短信对应的业务(目标业务)或输出业务清单供用户进行二次交互选择办理。

本发明实例中，对于未匹配上任何分类业务的短信，后续中不再考虑，即可以将其从训练样本数据集中移除，以避免该类短信对后续特征指示概率计算过程产生干扰。

步骤303，建立目标分类业务短信存储区以及非目标分类业务短信存储区，分别存储与该分类业务匹配成功的短信以及与该分类业务匹配失败的短信；

本步骤中，建立的目标分类业务短信存储区可以是一个或多个，每个分类业务对应一个目标分类业务短信存储区以及一个非目标分类业务短信存储区，即分类业务存储区。在目标分类业务短信存储区中，存储与该分类业务匹配成功的短信，在非目标分类业务短信存储区中，存储与该分类业务匹配失败的短信，即将所有不能匹配该分类业务的短信作为其他分类业务短信存储。也就是说，如果该条短信输入系统后所得结果符合用户预期(需要结合历史数据进行分析)，则将该条短信作为目标分类业务短信进行存储，将所有不能匹配该项业务的短信作为其他分类业务短信存储。

在训练样本数据集中所有短信输入系统后，将生成上行短信与业务的多对多关联关系，即一个业务可以对应多条目标短信，一条短信可以对应多个业务。举例来说，系统中预先设置有四种分类业务A、B、C、D，则分别建立A短信存储区以及非A短信存储区、B短信存储区以及非B短信存储区、C短信存储区以及非C短信存储区、D短信存储区以及非D短信存储区，8000条短信经过精确匹配以及模糊匹配后，假设与四种分类业务中的至少一种匹配成功的短信为6000条，其中，与分类业务A匹配成功的短信为2500条，则A短信存储区存储的目标短信为2500条，非A短信存储区存储的非目标短信为3500条。这样，一条短信可能同时存储在A短信存储区以及B短信存储区等。

步骤304，分别获取目标分类业务短信存储区以及非目标分类业务短信存储区中短信包含的词条；

步骤305，将DF值超过预先设置的分类业务DF阈值的词条作为特征词分别存入目标特征库以及非目标特征库；

步骤306，计算目标特征库以及非目标特征库中特征词的特征指示概率；

本步骤中，在特征库的基础上，计算各特征词的特征指示概率(已配置的业务指令其指示概率为100％)，并将结果存入相应特征库中存储。即在特征概率库中，以分类业务为标识，分别存储该分类业务下特征词与相应特征指示概率的映射关系。

步骤307，接收测试样本数据集中输入的短信进行测试验证；

本步骤中，在测试阶段，使用测试样本数据集中的短信对训练阶段生成的结果进行测试验证，如向系统输入短信“怎样发送短信才省钱？”。

步骤308，对测试短信进行预处理；

本步骤中，预处理包括分词以及去停用词处理。系统首先对短信进行分词，得到分词结果为：“怎样”、“发送”、“短信”、“才”、“省钱”。接着，将分词结果进行去停用词处理，即去除“怎样”、“才”两个词条。

步骤309，根据预处理后得到的词条，获取各分类业务下该词条的特征指示概率；

本步骤中，每一分类业务对应的特征概率库中，存储有各特征词与相应特征指示概率的映射关系，根据预处理后得到的词条，从特征概率库中，查询得到该词条对应的特征指示概率。即通过词条与训练过程中生成的特征键值对进行比较，假设查询得到的“发送”词条对于国内短信套餐(业务)的指示概率为0.88，“短信”的指示概率为0.95，“省钱”的指示概率为0.2；而对于移动数据流量套餐，其特征指示概率分别为0.1、0.4和0.25。

步骤310，根据获取的分类业务下该词条的特征指示概率计算该分类业务的联合概率；

本步骤中，计算联合概率的公式为：

这样，短信“怎样发送短信才省钱？”对于国内短信套餐(业务)的联合概率为0.972，对于移动数据流量套餐的联合概率为0.024。

步骤311，选取超过联合概率阈值的联合概率对应的分类业务输出至用户；

本步骤中，如果预先设置的联合概率阈值为0.9，则短信匹配国内短信套餐业务成功，系统下发如下提示信息：

请问您想开通的是哪种短信套餐：

1、1元国内短信套餐(赠送20条短信，超出部分0.10元/条)

2、3元国内短信套餐(赠送50条短信，超出部分0.10元/条)

3、6元国内短信套餐(赠送100条短信，超出部分0.10元/条)

4、10元国内短信套餐(赠送180条短信，超出部分0.10元/条)，请您选择办理。

步骤312，根据用户反馈的上行短信，进行预处理，获取进行预处理后的词条在当前分类业务的各子分类业务下的特征指示概率；

本步骤中，客户再次发送上行短信“50条的”到10086，系统结合当前分类业务生成会话环境，将匹配搜索范围限定在国内短信套餐不同档次(子业务)的办理上，将“50条的”拆分为“50”、“条”、“的”，经去停用词处理后，获取词条“50”针对3元国内短信套餐的指示概率为0.9，“条”的指示概率为0.6。

步骤313，依据各子分类业务下的特征指示概率计算该子分类业务的联合概率；

本步骤中，针对3元国内短信套餐，计算后的联合概率为0.931，同时，其余套餐档次针对“50条的”计算得到的联合概率分别为0.23、0.45。

步骤314，选取超过联合概率阈值的联合概率对应的子分类业务输出至用户进行处理；

本步骤中，针对3元国内短信套餐，计算后的联合概率为0.931，超过预先设置的联合概率阈值0.9，则匹配3元国内短信套餐成功，同时，其它套餐联合概率分别为0.23、0.45，小于迭代阀值0.6，则匹配1元和6元套餐业务失败。下发二次确认短信：回复“是”将为您开通“3元国内短信套餐(赠送50条短信，超出部分0.10元/条)”，您也可发送“8012”到10086自行开通。当然，实际应用中，也可以选择联合概率最大对应的子分类业务，下发二次确认短信。

用户如回复“是”，则通过短信营业厅为用户开通相关业务，由于短信营业厅的业务包含cmd_id<节点号>，在业务分类匹配过程结束后，可以输出cmd_id到短信营业厅进入相应的业务流程。

本发明实施例中，由于特征概率库的建立依赖于样本的选材和数量，选取合适的样本集和反复迭代训练将使得业务搜索匹配越准确，也需要更多的处理时间，因而，将特征库的重复构建优化过程与短信匹配命中过程分离开来。

本发明实施例中，如果在测试过程中发现训练产生的业务匹配规则不准确，即预期输入得到非预期的结果，可以进行重新训练或人工修正。

步骤315，根据选取的子分类业务，更新该分类业务下测试短信中包含的词条的特征指示概率。

本步骤中，在已有特征库中业务分类与特征词条及指示概率的基础上，将上行短信进行分词后提取出特征，重新统计该分类业务下测试短信中包含的词条的特征指示概率。对于其中没有成为短信特征的单词，则进入训练迭代库中作为迭代数据以备在下次训练时使用。

由上述可见，本发明实施例的基于文本的搜索方法，通过统计分析上行短信，对上行短信进行分词后计算每一词条的DF值，选取DF值高的词条作为特征词，基于多重迭代贝叶斯算法，通过对每一个特征词的特征概率计算，构建特征概率词库，并通过构建的特征概率词库最终得到上行短信的联合概率(类别概率)，基于联合概率输出业务指示，从而将用户上行短信与各种业务分类进行关联，并将用户上行短信归入某一类或几类业务，有效利用了用户上行短信内容中的同义词或近义词等有效的相关信息，提高了搜索的效率；同时，通过自适应的迭代过程，随着构建的特征概率词库不断被使用、更新，其搜索范围和匹配精度会越来越广泛和准确，有利于搜索效率的提升；而且，构建的特征概率词库无需人工管理和维护，运营成本较低。

图4为本发明实施例基于文本的搜索装置结构示意图。参见图4，该装置包括：特征词获取模块、特征概率词库构建模块、联合概率计算模块以及业务处理模块，其中，

其中，

特征词获取模块包括：分词处理单元以及去停用词处理单元(图中未示出)，其中，

特征概率词库构建模块包括：训练样本数据集采集单元、分类业务存储区单元、文档频率统计单元、特征指示概率计算单元以及特征概率词库单元(图中未示出)，其中，

训练样本数据集采集单元，采集训练样本数据集；

图5为本发明实施例基于文本的搜索装置的逻辑构成示意图。参见图5，装置以用户发送的短信中的自然语言理解分析为核心，基于上行短信特征值与目标分类短信等的概率迭代计算来完成短信语义分析工作。充分考虑到业务扩展与推广的需要，装置提供多种实用功能，并且提供了接口，方便其他移动的业务系统接入。

其中，将传统语义文法层理解、词模层理解、关键词层理解融合在一起实现，将语义处理成功的业务转换为外部接入系统的对应业务项(业务路由)，如短信营业厅的业务节点号(cmd_id)等。使用典型的三层架构：即接口层、业务层和数据层。接口层包括：调用服务接口、BOSS业务接口、业务推荐受理接口、飞信接口以及第三方平台接口，分别实现如短信营业厅、BOSS平台、业务推荐平台、飞信平台、其他平台等外部系统的接入，提供多渠道服务支撑。业务层以自然语言解析技术和智能搜索技术为基础，实现自然语言的人机交互，达到业务咨询及业务办理的目的，包括智能搜索引擎、统一知识库管理、查询统计及运营支撑三大模块，智能搜索引擎包括自然语言理解、业务路由以及语言自学习；统一知识库管理包括知识库录入、知识库更新以及知识库同步；查询统计及运营支撑包括系统监控、统计管理等。数据层进行数据存储，实现对业务知识库、业务库和特征规则库的存储访问功能，进行多维度数据分析，提供持续的运营支撑服务。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换以及改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于文本的搜索方法，其特征在于，该方法包括：

获取用户发送的文本流中包含的特征词；

2.如权利要求1所述的方法，其特征在于，所述获取用户发送的文本流中包含的特征词包括：

对用户发送的文本流进行分词处理，获取候选特征词集；

3.如权利要求2所述的方法，其特征在于，所述停用词表包括无意义词语、和/或，高文档率词语。

4.如权利要求1所述的方法，其特征在于，构建所述特征概率词库包括：

采集训练样本数据集；

计算特征词在分类业务中的特征指示概率；

5.如权利要求4所述的方法，其特征在于，所述特征指示概率的计算公式为：

p_{i} (w) = \frac{b_{i} (w)}{b_{i} (w) + g_{i} (w)}

式中，

p_i(w)是第i个分类业务中特征词w的特征指示概率；

b_i(w)是第i个分类业务中特征词w的目标概率；

g_i(w)是第i个分类业务中特征词w的非目标概率。

6.如权利要求5所述的方法，其特征在于，所述目标概率计算公式为：

b_{i} (w) = \frac{{DF}_{i} (w)}{N_{i}}

式中，

DF_i(w)为第i个分类业务中含有特征w的目标分类文本数量；

N_i为第i个分类业务中总的目标分类文本数量。

7.如权利要求5所述的方法，其特征在于，所述非目标概率计算公式为：

g_{i} (w) = \frac{Σ_{j = 1, j &NotEqual; i}^{n} D F_{j} (w)}{Σ_{j = 1, j &NotEqual; i}^{n} N_{j}}

式中，

DF_j(w)为第j个分类业务中含有特征w的文本数量；

N_j为第j个分类业务中总的目标分类文本数量；

n为总的分类业务数量。

8.如权利要求5所述的方法，其特征在于，所述特征概率计算公式为：

f_{i} (w) = \frac{(s * x) + (m * p_{i} (w))}{s + m}

式中，

m为含特征w的文本数量；

s、x为预先设置的常量。

9.如权利要求8所述的方法，其特征在于，所述联合概率的计算公式为：

式中，

p_k()为文本的联合概率；

M_i为第i个文本；

f(w_ij)为第i个文本中的第j个特征词的特征概率；

K为第i个文本包含的特征词数量。

10.如权利要求8所述的方法，其特征在于，在构建特征概率词库后，进一步包括：

11.如权利要求1至10任一项所述的方法，其特征在于，所述根据计算得到的联合概率输出业务指令包括：

12.如权利要求11所述的方法，其特征在于，在所述获取用户发送的文本流中包含的特征词的步骤之前，进一步包括：

获取用户发送的文本流，确定精确匹配失败；

13.一种挖掘热点词的装置，其特征在于，该装置包括：特征词获取模块、特征概率词库构建模块、联合概率计算模块以及业务处理模块，其中，

14.如权利要求13所述的装置，其特征在于，所述特征词获取模块包括：分词处理单元以及去停用词处理单元，其中，

15.如权利要求13或14所述的装置，其特征在于，所述特征概率词库构建模块包括：训练样本数据集采集单元、分类业务存储区单元、文档频率统计单元、特征指示概率计算单元以及特征概率词库单元，其中，

训练样本数据集采集单元，采集训练样本数据集；