CN115033594B

CN115033594B - 一种给出置信度的垂直领域检索方法与装置

Info

Publication number: CN115033594B
Application number: CN202210953656.XA
Authority: CN
Inventors: 张梦璘; 郏维强; 华炜; 俞再亮; 马树楷; 韩松岭
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-11-18
Anticipated expiration: 2042-08-10
Also published as: CN115033594A

Abstract

本发明提供了一种给出置信度的垂直领域检索方法和装置，方法包括在初次启动检索引擎时，生成用来将预存信息生成查询过程中所需要的第一词权重表、惩罚词权重表；对待查语句集进行处理，生成待查语句的满匹配得分表和倒排索引表；用户输入查询语句，求得该查询语句与待查语句集的匹配置信度并进行降序排列。本发明充分考虑未涵盖在特定语料库中的词汇，使用协调因子重构其词权重，并设计合理的计算公式给出令人信服的匹配置信度，从而支撑下游任务的顺利进行。

Description

一种给出置信度的垂直领域检索方法与装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种给出置信度的垂直领域检索方法与装置。

背景技术

随着信息技术对人们工作、学习与生活的不断渗透，信息呈现爆炸增长，传统的搜索引擎在面对海量数据时，逐渐显现出一些不足，如响应速度慢、检索结果排序不准确等。而且，随着人工智能的不断发展，基于知识的检索对下游的自然语言处理等任务更是尤为关键。以智能对话机器人来举例，基于相似度匹配的知识问答通常会作为意图识别、任务型对话、情感分析、生成式闲聊对话等一系列任务的最上层任务来处理，对检索结果处理不当会对下游任务造成很大的负担：例如过度匹配出现捕捉过度（Catch all）,所有用户问询将全部由预设的问答对来进行回复，而无法进行下一步的任务；而过于疏忽（Remiss）也会造成对于经典的问题没法进行准确且统一的回复，增加了处理时间且加重了下游任务的负担。

由上我们可知对于上游的检索任务，置信度是非常重要的指标，用来衡量用户检索意图与返回文档的相关程度。在信息检索中，为了快速从海量数据筛选出合适的结果反馈用户，现有技术通常为基于词频的算法：倒排索引被广泛使用来实现召回和粗筛，而检索结果排序通常使用的是经典的TF-IDF（Term Frequency - Inverse Document Frequency）算法。在该主流算法中，通过IDF（逆文档频率）方法来计算查询词的词权重，即通过文档集合中所有文档的数目除以包含某个查询词的文档的数目，再将得到的商取对数的结果，作为该查询词的权重值。现有技术的主要缺陷在于查询词权重值由网络中包含该查询词的文档数目所决定，与查询词在该查询式中的重要程度有较大偏差。在垂直领域数据量较少，无法涵盖用户输入的所有查询词，这种情况下对于一些用户查询语句中的关键词可能会不在语料库中，即超出词表（OOV, Out Of Vocabulary）问题，从而因为无法确认这些词汇的重要性而被忽略，导致匹配结果出现重大偏差，在实际应用中不能很好地满足用户的需要。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种给出置信度的垂直领域检索方法与装置。

本发明的目的是通过以下技术方案来实现的：一种给出置信度的垂直领域检索方法，包括以下步骤：

（1）在初次启动检索引擎时，生成用来将预存信息生成查询过程中所需要的第一词权重表、惩罚词权重表；

（2）对待查语句集进行处理，生成待查语句的满匹配得分表和倒排索引表；

（3）用户输入查询语句，求得该查询语句与待查语句集的匹配置信度并进行降序排列。

进一步地，所述步骤（1）具体包括以下子步骤：

（1.1）将特定语料库中的多个文本拼接成单个超大文本，去除单个超大文本中的所有标点符号并进行分词，得到由独立词汇和空格组成的特定语料文本；随后对特定语料文本进行片段切割，得到由相同词汇数构成的语料片段组成的特定语料片段文本；

将通用语料库中的多个文本拼接成单个超大文本，去除单个超大文本中的所有标点符号并进行分词，得到由独立词汇和空格组成的通用语料文本；随后对通用语料文本进行片段切割，得到由相同词汇数构成的语料片段组成的通用语料片段文本；

（1.2）计算特定语料文本的单个词汇在特定语料文本内的第一总词频，即该词汇在特定语料文本内出现的总次数；并计算特定语料文本的单个词汇在特定语料片段文本内的第一最高词频，即该词汇在语料片段内出现的最多次数；

计算通用语料文本的单个词汇在通用语料文本内的第二总词频，即该词汇在通用语料文本内出现的总次数；并计算通用语料文本的单个词汇在通用语料片段文本内的第二最高词频，即该词汇在所有语料片段内出现的最多次数；

（1.3）计算特定语料文本的单个词汇的第一词权重，该词汇的第一词权重=该词汇的第一最高词频/该词汇的第一总词频；

计算通用语料文本的单个词汇的第二词权重，该词汇的第二词权重=该词汇的第二最高词频/该词汇的第二总词频；

（1.4）所述特定语料文本和所述通用语料文本相比具有N个重合词汇，计算特定语料文本的调和平均数T_t，

，其中，

，m_i为第i个重合词汇的第一总词频；计算通用语料文本的调和平均数Q_t，

，其中，n_i为第i个重合词汇的第二总词频；得到协调因子H，

；

（1.5）除去通用语料文本中的所有的重合词汇以及超高频和超低频的词汇，剩余的词汇作为惩罚词汇，将单个惩罚词汇的第二总词频乘上协调因子H得到单个惩罚词汇的惩罚总词频；

所述超高频的词汇为第二总词频大于10000的词汇；所述超低频的词汇为第二总词频小于100的词汇；

将单个惩罚词汇的第二词权重乘上协调因子H得到单个惩罚词汇的惩罚词权重；

以惩罚词汇及其惩罚词权重作为惩罚词权重表；

（1.6）以特定语料文本内的词汇及其第一词权重作为第一词权重表。

进一步地，所述步骤（2）具体包括以下子步骤：

（2.1）对于待查语句集中的单条待查语句进行分词，统计该待查语句的词汇数；

（2.2）以所述第一词权重表和惩罚词权重表为依据，对于单条待查语句逐词统计每个词汇的第一词权重或惩罚词权重，并对统计的第一词权重或惩罚词权重进行求和得到单条待查语句的满匹配得分；

（2.3）将待查语句、待查语句的词汇数以及待查语句的满匹配得分作为待查语句的满匹配得分表；

（2.4）对待查语句集中的待查语句和词汇进行倒排索引，生成倒排索引表，所述倒排索引表为所述词汇与对应待查语句的映射表。

进一步地，所述步骤（3）具体包括以下子步骤：

（3.1）用户输入查询语句；

（3.2）对用户输入的查询语句进行分词，并统计该查询语句的词汇数；

（3.3）对用户所输入的查询语句，分词后逐词统计每个词汇的第一词权重或惩罚词权重，并对统计的第一词权重或惩罚词权重进行求和得到查询语句的满匹配得分；

（3.4）查询语句分词后逐词查询所述倒排索引表，召回每个词汇的待查语句作为相关待查语句集；召回过程中，若查询语句的词汇出现重复，对重复词汇只进行一次召回；若待查语句已被一个词汇召回，该待查语句不会被下一个词汇再召回；

随后对每一条召回的待查语句，统计每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分；

并通过查询待查语句的满匹配得分表，得到每一条召回的待查语句的词汇数和满匹配得分；

（3.5）计算查询语句与相关待查语句集中每个召回的待查语句的匹配置信度，所述匹配置信度通过以下公式计算：

；

（3.6）对求得查询语句和相应待测语句的匹配置信度进行降序排列。

本发明还提供一种给出置信度的垂直领域检索装置，包括引擎预备单元和检索单元；

所述引擎预备单元包括：

数据预处理模块，用于计算特定语料文本的单个词汇的第一总词频和第一最高词频以及通用语料文本的单个词汇的第二总词频和第二最高词频；

词权重生成模块，用于计算特定语料文本的单个词汇的第一词权重以及通用语料文本的单个词汇的第二词权重；

语料库整合模块，用于生成通用语料文本除去所有的重合词汇的剩余词汇的惩罚词权重；

静态字典生成模块，用于生成惩罚词权重表、第一词权重表、待查语句的满匹配得分表和倒排索引表；

所述检索单元包括：

查询语句预处理模块，用于对用户输入的查询语句进行分词，并统计该查询语句的词汇数；

检索与统计模块，用于召回每个词汇的待查语句作为相关待查语句集，统计每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分，并通过查询待查语句的满匹配得分表，得到每一条召回的待查语句的词汇数和满匹配得分；

匹配置信度计算模块，用于计算查询语句与相关待查语句集中每个召回的待查语句的匹配置信度；

排序模块，用于对求得查询语句和相应待测语句的匹配置信度进行降序排列。

本发明还提供一种给出置信度的垂直领域检索装置，包括一个或多个处理器，用于实现上述给出置信度的垂直领域检索方法。

本发明还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述给出置信度的垂直领域检索方法。

本发明的有益效果是：本发明对较大量级的通用语料库进行了数据分析与处理，补足了特征语料库较小，词库不完全的问题；本发明采用离线的基于词汇的数据处理方法，词频统计分析与词权重计算等来生成惩罚词权重表、第一词权重表、待查语句的满匹配得分表和倒排索引表这些静态字典，从而提高使用过程中数据查询与检索速度；本发明对于不同的用户查询语句给出具有相对匹配置信度的检索结果，通过相对置信度阈值的调整减少因上游检索任务的捕获过度或捕获疏忽，从而减少对下游任务造成的干扰或负担；本发明所提出的引擎预备和检索的方法与装置改善了现有技术的不足，既提高了检索效率，更给出了可解释性高的相对置信度来供下游任务参考。

附图说明

图1为一种给出置信度的垂直领域检索方法的示意图；

图2为一种给出置信度的垂直领域检索方法的流程示意图；

图3为一种给出置信度的垂直领域检索装置的一个实施例的示意图；

图4为一种给出置信度的垂直领域检索装置的另一个实施例的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加明白清楚，结合附图和实施例，对本发明进一步的详细说明，应当理解，此处所描述的具体实施例仅仅用以解释本发明，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，均在本发明保护范围。

实施例1

如图1和图2所示，本发明提供一种给出置信度的垂直领域检索方法，包括以下步骤：

（1）在初次启动检索引擎时，生成用来将预存信息生成查询过程中所需要的第一词权重表、惩罚词权重表。

所述步骤（1）具体包括以下子步骤：

将通用语料库中的多个文本拼接成单个超大文本，去除单个超大文本中的所有标点符号并进行分词，得到由独立词汇和空格组成的通用语料文本；随后对通用语料文本进行片段切割，得到由相同词汇数构成的语料片段组成的通用语料片段文本。

特定语料库：指垂直领域的上游任务所需的语料库。以问答任务为例，特定语料库为问答任务的所有问题的集合，每个预存的问句为一个语料片段。这些问句词汇总数不等，但通常词汇数不多且问句间互相独立，故不做切割。在实验室园区知识问答场景下，特定语料库的语料片段举例为“实验室园区占地多少亩”、“实验室外宾接待经费开支范围”，其中前者包含5个词汇，后者包含6个词汇。对于特定语料库中待匹配的问题以下统称为待查语句。

通用语料库：指开放域的通用中文语料库。通常较大量级，在本实施例中以2022年3月的中文维基百科举例，解压前有2.33G，包含1274个文本。将通用语料库中的1274个文本拼接成单个超大文本，去除单个超大文本中的所有标点符号并进行分词，产生由独立词汇和空格组成的通用语料文本；随后对通用语料文本进行片段切割，此时有25个词汇构成一个语料片段，产生由若干个25个词汇构成的语料片段组成的通用语料片段文本。

计算通用语料文本的单个词汇在通用语料文本内的第二总词频，即该词汇在通用语料文本内出现的总次数；并计算通用语料文本的单个词汇在通用语料片段文本内的第二最高词频，即该词汇在所有语料片段内出现的最多次数。

例如，本实施例中，“小行星”这个词汇在通用语料文本内共计出现66649次，则“小行星”的第二总词频为66649；“小行星”在多个语料片段中出现了2次（由20个词汇数构成的语料片段），在其他语料片段中出现2次以下，则“小行星”的第二最高词频为2。“小行星”在通用语料文本内出现，未出现在特定语料文本内，那么“小行星”没有第一总词频和第一最高词频。

计算通用语料文本的单个词汇的第二词权重，该词汇的第二词权重=该词汇的第二最高词频/该词汇的第二总词频。

在本实施例中，词权重计算方法具体为：每个词汇的词权重为每个词汇在其所在语料库内的最高词频与每个词汇在其所在语料库内的总词频之比。某个词汇在其所在语料库内的总词频越高，则该词汇在多个文档/语句中出现导致标识性下降，就更倾向于是大众通用词汇，例如“是”、“的”这些缺少实际含义的词汇，对置信度的影响度应该降低；片段内最高词汇则指出了该词汇对于该语料片段属于高频词汇，例如百科中关于某个大学的介绍，则该大学的名称会在文中多次出现，例如“浙江大学的历史”、“浙江大学的学院介绍”、“浙江大学的学科排名”等，而在其他文本中较少出现该学校的名称，则该词汇是具有一定标识性的，对置信度的影响度应该提高。

，其中，

。

以惩罚词汇及其惩罚词权重作为惩罚词权重表。

（2）对待查语句集进行处理，生成满匹配得分表和倒排索引表。

所述步骤（2）具体包括以下子步骤：

（2.1）对于待查语句集中的单条待查语句进行分词，统计该待查语句的词汇数。

（2.2）以所述第一词权重表和惩罚词权重表为依据，对于单条待查语句逐词统计每个词汇的第一词权重或惩罚词权重，并对统计的第一词权重或惩罚词权重进行求和得到单条待查语句的满匹配得分。

（2.3）将待查语句、待查语句的词汇数以及待查语句的满匹配得分作为待查语句的满匹配得分表。

所述步骤（3）具体包括以下子步骤：

（3.1）用户输入查询语句。

（3.2）对用户输入的查询语句进行分词，并统计该查询语句的词汇数。

（3.3）对用户所输入的查询语句，分词后逐词统计每个词汇的第一词权重或惩罚词权重，并对统计的第一词权重或惩罚词权重进行求和得到查询语句的满匹配得分。

并通过查询待查语句的满匹配得分表，得到每一条召回的待查语句的词汇数和满匹配得分。

。

本发明充分考虑未涵盖在特定语料库中的词汇，使用协调因子重构其词权重，并设计合理的计算公式给出令人信服的匹配置信度，从而支撑下游任务的顺利进行。

实施例2

本实施例以实验室园区内虚拟数字人的对话系统作为本发明可应用的一个场景，并做进一步介绍。

对于“实验室园区内虚拟数字人的对话系统”场景的上游问答任务，信息通常以问答对（Question-Answer Pair）的形式预先存储在内存中，如表1所示。

表1：待查语句及其相应的答案

本发明提供一种给出置信度的垂直领域检索方法，包括以下步骤：

所述步骤（1）具体包括以下子步骤：

问答任务中，特定语料库为一些预存的问答对的问题部分的集合。对于问答对中信息的检索我们关心的是用户输入的查询问句与问答对中问句的相似度，找到最相近的问句，从而将该相关问题的答案作为用户输入的问句的答案。该应用场景下的特定语料库为[“最近实验室有什么新闻”“最近食堂新增了什么菜品”“实验室食堂怎么付款”…]这些问题的集合。对每个问题进行分词后得到一个语料片段（[“最近实验室有什么新闻”“最近食堂新增了什么菜品”“实验室食堂怎么付款”…]）。在本实例中，语料片段数量等同于问题数，即等同于问答对的对数。

而对于通用语料库，以2022年3月的中文维基百科举例，将中文维基百科中的多个文本拼接成单个超大文本，去除单个超大文本中的所有标点符号并进行分词，得到由独立词汇和空格组成的通用语料文本：[“欧几里得西元前三世纪的古希腊数学家现在被认为是几何之父此画为拉斐尔的作品雅典学院数学是研究数量…”]；随后对通用语料文本进行片段切割，得到由相同词汇数构成的语料片段组成的通用语料片段文本；本实施例中，以10个词汇组成一个通用语料片段文本，例如：“欧几里得西元前三世纪的古希腊数学家现在被认为”和“是几何之父此画为拉斐尔的作品雅典”。

而对于特定语料库，例如对于园区内问答任务中的特定语料库，可以将园区内问答任务中的特定语料库的多个文本拼接成单个超大文本，去除单个超大文本中的所有标点符号并进行分词，得到由独立词汇和空格组成的特定语料文本；随后对特定语料文本进行片段切割，得到由相同词汇数构成的语料片段组成的特定语料片段文本。

在本实施例中，针对第一词权重和第二词权重的计算以“有”为例：

“有”这个词汇在特定语料库中共出现33次，在每个特定语料片段文本中最多出现1次，则“有”的第一词权重为：

。

“有”这个词汇在通用语料库中，这里的通用语料库指2022年3月的维基百科；“有”这个词汇在通用语料库中共出现797477次，假设在每个通用语料片段文本中最多出现3次，则“有”的第二词权重为：

。

从数值可直观看出同一词汇在两个语料库中词权重的量级差别，将第二词权重直接作为惩罚词权重显然不合适，第二词权重需要缩放到与第一词权重相对一致的量级，这样惩罚词权重的数值才能有效标识该词汇的重要性。

，其中，

。

为了方便理解，例如：特定语料文本中总共包含5个词汇，和通用语料文本相比具有4个重合词汇；特定语料文本中5个词汇的词汇信息如表1所示。

表2：5个词汇的词汇信息表

求得特定语料文本的调和平均数

，并求得通用语料文本的调和平均数Q_t=2000；随后求得协调因子

；协调因子的直观而不严谨的解释为：通用语料库是特定语料库的多少倍。交集词汇在通用语料库中的总词频平均是该词汇在特定语料库中的总词频的多少倍。即我们需要把通用语料库中词权重计算时总词频项做缩放实现标准化，从而使这些惩罚词的词权重和特定语料库的词权重进行对齐，具备相似的辨识能力。

由于特定语料库和通用语料库的量级差别通常较大，两个语料库中词汇的词频也呈现出量级上的差别；又因为两个语料库词频分布的差异性，即使是交集词汇在分布上差距也不可忽略，故本实施例中使用交集词汇的调和平均数的比值来缩放通用语料库中词权重，而调和平均数可以有效平滑一些词汇的极端词频分布。

以惩罚词汇及其惩罚词权重作为惩罚词权重表。

（2）对待查语句集进行处理，生成满匹配得分表和倒排索引表；

所述步骤（2）具体包括以下子步骤：

所述步骤（3）具体包括以下子步骤：

（3.1）用户输入查询语句；

；

以用户输入的查询语句为：“最近实验室食堂有什么特色”为例来对步骤（3）进行说明。

对用户输入的查询语句进行分词，分词为“最近” 、“实验室”、“食堂”、“有”、“什么”、“特色”，并统计该查询语句的词汇数为6。

对于查询语句“最近实验室食堂有什么特色”，“最近”的第一词权重为0.12，“实验室”的第一词权重为0.08，“食堂”的第一词权重为0.36，“有”的第一词权重为0.03，“什么”的第一词权重为0.12，“特色”的第一词权重为0.46，6个词汇都没有惩罚词权重，得到查询语句“最近实验室食堂有什么特色”的满匹配得分为1.17：0.12+0.08+0.36+0.03+0.12+0.46=1.17。

查询语句“最近实验室食堂有什么特色”分词后逐词查询所述倒排索引表，召回每个词汇的待查语句作为相关待查语句集；

并通过查询待查语句的满匹配得分表，得到每一条召回的待查语句的词汇数和满匹配得分，如表3所示；

表3：查询语句“最近实验室食堂有什么特色”的相关查询语句集

查询语句“最近实验室食堂有什么特色”的词汇的第一词权重或惩罚词权重、词汇的召回的待查语句、每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分如表4所示。

表4：查询语句“最近实验室食堂有什么特色”的召回情况表

查询语句“最近实验室食堂有什么特色”和待查语句“最近实验室有什么新闻” 来说明如何求得查询语句“最近实验室食堂有什么特色”和“最近实验室有什么新闻”的匹配置信度；查询语句“最近实验室食堂有什么特色”和“最近实验室有什么新闻”的匹配词汇数为4，匹配词汇总得分为0.35；查询语句“最近实验室食堂有什么特色”的词汇数为6，满匹配得分为1.17；通过查询待查语句的满匹配得分表，得到待查语句“最近实验室有什么新闻”的词汇数为5，满匹配得分为0.88；求得查询语句“最近实验室食堂有什么特色” 和待查语句“最近实验室有什么新闻” 的匹配置信度为

；

同时，并求得查询语句“最近实验室食堂有什么特色” 和待查语句“最近食堂新添了什么规定”的匹配置信度为

；

求得查询语句“最近实验室食堂有什么特色” 和待查语句“实验室有食堂吗”的匹配置信度为

；

求得查询语句“最近实验室食堂有什么特色” 和待查语句“实验室食堂怎么付款”的匹配置信度为

；

求得查询语句“最近实验室食堂有什么特色” 和待查语句“实验室有什么特色”的匹配置信度为

；

求得查询语句“最近实验室食堂有什么特色” 和待查语句“介绍一下实验室的特色文化”的匹配置信度为

；

对求得查询语句和相应待测语句的匹配置信度进行降序排列，降序排列为

。

以用户输入的查询语句为：“最近实验室停车场有什么特色”为例来对步骤（3）进行说明。

对用户输入的查询语句进行分词，分词为“最近”、“实验室”、“停车场”、“有”、“什么”、“特色”，并统计该查询语句的词汇数为6。

对于查询语句“最近实验室停车场有什么特色”，“最近”的第一词权重为0.12，“实验室”的第一词权重为0.08， “停车场”的惩罚词权重为0.56，有”的第一词权重为0.03，“什么”的第一词权重为0.12，“特色”的第一词权重为0.46，“最近”、“实验室”、“有”、“什么”、“特色”无惩罚词权重，“停车场”无第一词权重；得到查询语句“最近实验室停车场有什么特色” 满匹配得分为1.37：0.12+0.08+0.56+0.03+0.12+0.46=1.37.

查询语句“最近实验室停车场有什么特色”分词后逐词查询所述倒排索引表，召回每个词汇的待查语句作为相关待查语句集；

并通过查询待查语句的满匹配得分表，得到每一条召回的待查语句的词汇数和满匹配得分，如表5所示；

表5：查询语句“最近实验室停车场有什么特色”的相关查询语句集

查询语句“最近实验室停车场有什么特色”的词汇的第一词权重或惩罚词权重、词汇的召回的待查语句、每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分如表6所示。

表6：查询语句“最近实验室停车场有什么特色”的召回情况表

查询语句“最近实验室停车场有什么特色”和待查语句“最近实验室有什么新闻”的匹配置信度为

；

查询语句“最近实验室停车场有什么特色”和待查语句“最近食堂新添了什么规定”的匹配置信度为

；

查询语句“最近实验室停车场有什么特色”和待查语句“实验室有什么特色”的匹配置信度为

；

查询语句“最近实验室停车场有什么特色”和待查语句“介绍一下实验室的特色文化”的匹配置信度为

；

。

实施例3

参考图3，作为对一种给出置信度的垂直领域检索方法的实现，本申请提了一种给出置信度的垂直领域检索装置的一个实施例，该装置实施例与图1所示的方法实施例相对应。

如图3所示，一种给出置信度的垂直领域检索装置，包括引擎预备单元和检索单元；

所述引擎预备单元包括

数据预处理模块，用于计算特定语料文本的单个词汇的第一总词频和第一最高词频以及通用语料文本的单个词汇的第二总词频和第二最高词频。

词权重生成模块，用于计算特定语料文本的单个词汇的第一词权重以及通用语料文本的单个词汇的第二词权重。

静态字典生成模块，用于生成惩罚词权重表、第一词权重表、待查语句的满匹配得分表和倒排索引表。

所述检索单元包括

查询语句预处理模块，用于对用户输入的查询语句进行分词，并统计该查询语句的词汇数。

检索与统计模块，用于召回每个词汇的待查语句作为相关待查语句集，统计每一条召回的待查语句与查询语句的匹配词汇数和匹配词汇总得分，并通过查询待查语句的满匹配得分表，得到每一条召回的待查语句的词汇数和满匹配得分。

实施例4

与前述一种给出置信度的垂直领域检索方法的实施例相对应，本发明还提供了一种给出置信度的垂直领域检索装置的实施例。

参见图4，本发明实施例提供的一种给出置信度的垂直领域检索装置，包括一个或多个处理器，用于实现上述实施例中的一种给出置信度的垂直领域检索方法。

本发明一种给出置信度的垂直领域检索装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图4所示，为本发明一种给出置信度的垂直领域检索装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种给出置信度的垂直领域检索方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种给出置信度的垂直领域检索方法，其特征在于，包括以下步骤：

所述步骤（1）具体包括以下子步骤：

（1.1）将特定语料库中的多个文本拼接成单个超大文本，去除单个超大文本中的所有标点符号并进行分词，得到由独立词汇和空格组成的特定语料文本；随后对特定语料文本进行片段切割，得到由相同词汇数构成的语料片段组成的特定语料片段文本；所述特定语料库：指垂直领域的上游任务所需的语料库；

将通用语料库中的多个文本拼接成单个超大文本，去除单个超大文本中的所有标点符号并进行分词，得到由独立词汇和空格组成的通用语料文本；随后对通用语料文本进行片段切割，得到由相同词汇数构成的语料片段组成的通用语料片段文本；所述通用语料库：指开放域的通用中文语料库；

，其中，

；

以惩罚词汇及其惩罚词权重作为惩罚词权重表；

（1.6）以特定语料文本内的词汇及其第一词权重作为第一词权重表；

所述步骤（2）具体包括以下子步骤：

（2.4）对待查语句集中的待查语句和词汇进行倒排索引，生成倒排索引表，所述倒排索引表为所述词汇与对应待查语句的映射表；

2.根据权利要求1所述的一种给出置信度的垂直领域检索方法，其特征在于，所述步骤（3）具体包括以下子步骤：

（3.1）用户输入查询语句；

；

3.一种给出置信度的垂直领域检索装置，其特征在于，包括引擎预备单元和检索单元；

所述引擎预备单元包括：

数据预处理模块，用于计算特定语料文本的单个词汇的第一总词频和第一最高词频以及通用语料文本的单个词汇的第二总词频和第二最高词频；将特定语料库中的多个文本拼接成单个超大文本，去除单个超大文本中的所有标点符号并进行分词，得到由独立词汇和空格组成的特定语料文本；随后对特定语料文本进行片段切割，得到由相同词汇数构成的语料片段组成的特定语料片段文本；所述特定语料库：指垂直领域的上游任务所需的语料库；将通用语料库中的多个文本拼接成单个超大文本，去除单个超大文本中的所有标点符号并进行分词，得到由独立词汇和空格组成的通用语料文本；随后对通用语料文本进行片段切割，得到由相同词汇数构成的语料片段组成的通用语料片段文本；所述通用语料库：指开放域的通用中文语料库；计算特定语料文本的单个词汇在特定语料文本内的第一总词频，即该词汇在特定语料文本内出现的总次数；并计算特定语料文本的单个词汇在特定语料片段文本内的第一最高词频，即该词汇在语料片段内出现的最多次数；计算通用语料文本的单个词汇在通用语料文本内的第二总词频，即该词汇在通用语料文本内出现的总次数；并计算通用语料文本的单个词汇在通用语料片段文本内的第二最高词频，即该词汇在所有语料片段内出现的最多次数；

词权重生成模块，用于计算特定语料文本的单个词汇的第一词权重以及通用语料文本的单个词汇的第二词权重；该词汇的第一词权重=该词汇的第一最高词频/该词汇的第一总词频；该词汇的第二词权重=该词汇的第二最高词频/该词汇的第二总词频；

语料库整合模块，用于生成通用语料文本除去所有的重合词汇的剩余词汇的惩罚词权重；所述特定语料文本和所述通用语料文本相比具有N个重合词汇，计算特定语料文本的调和平均数T_t，

，其中，

；除去通用语料文本中的所有的重合词汇以及超高频和超低频的词汇，剩余的词汇作为惩罚词汇，将单个惩罚词汇的第二总词频乘上协调因子H得到单个惩罚词汇的惩罚总词频；所述超高频的词汇为第二总词频大于10000的词汇；所述超低频的词汇为第二总词频小于100的词汇；将单个惩罚词汇的第二词权重乘上协调因子H得到单个惩罚词汇的惩罚词权重；

静态字典生成模块，用于生成惩罚词权重表、第一词权重表、待查语句的满匹配得分表和倒排索引表；以惩罚词汇及其惩罚词权重作为惩罚词权重表；以特定语料文本内的词汇及其第一词权重作为第一词权重表；对于待查语句集中的单条待查语句进行分词，统计该待查语句的词汇数；以所述第一词权重表和惩罚词权重表为依据，对于单条待查语句逐词统计每个词汇的第一词权重或惩罚词权重，并对统计的第一词权重或惩罚词权重进行求和得到单条待查语句的满匹配得分；将待查语句、待查语句的词汇数以及待查语句的满匹配得分作为待查语句的满匹配得分表；对待查语句集中的待查语句和词汇进行倒排索引，生成倒排索引表，所述倒排索引表为所述词汇与对应待查语句的映射表；

所述检索单元包括：

4.一种给出置信度的垂直领域检索装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-2中任一项所述的给出置信度的垂直领域检索方法。

5.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，用于实现权利要求1-2中任一项所述的给出置信度的垂直领域检索方法。