CN107391504A

CN107391504A - 新词识别方法与装置

Info

Publication number: CN107391504A
Application number: CN201610322268.6A
Authority: CN
Inventors: 周文礼
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2016-05-16
Filing date: 2016-05-16
Publication date: 2017-11-24
Anticipated expiration: 2036-05-16
Also published as: CN107391504B

Abstract

本申请涉及计算机技术领域，尤其涉及在信息检索系统中使用的新词识别方法。在新词识别方法中，首先获取信息检索系统的历史查询日志中的单字串，之后，将单字串进行切分，生成候选词汇，并从信息检索系统的历史查询日志中获取与所述候选词汇相关的目标查询日志，最后根据所述目标查询日志识别所述当前候选词汇为新词，且识别所述候选词汇为新词后，将所述候选词汇存储至所述信息检索系统的词特征库中。通过本申请提供的方案，可以高效识别出不断涌现的新词，完善词特征库，进而提高分词的精度，进而提高信息检索系统的检索速度和检索结果准确度。

Description

新词识别方法与装置

技术领域

本申请涉及计算机技术领域，具体涉及一种新词识别方法与装置以及一种计算设备。

背景技术

信息检索系统，例如搜索引擎或问答(英文：question answering)系统，是根据用户输入的查询语句进行查询并生成查询结果展示给用户的系统。信息检索系统获取了用户输入的查询语句后，需将查询语句分为一系列的词。如果查询语句为无边界语言，则获取该一系列词的过程也称为分词。例如将“手机购物”分词为“手机”和“购物”，接下来，将分词产生的一系列的词与索引文件进行匹配，并获取该查询语句在索引文件中匹配的各个文件的匹配情况，包括匹配的各个文件的评分或排序，最后将评分最高或排序最靠前的一定数量的文件返回给用户。通过信息检索系统的工作流程可以看出，信息检索系统输出的检索结果的准确与否，很大程度上依赖于分词产生的一系列词的准确性，因此，分词的精度直接决定了信息检索系统的检索的速度和检索结果准确度。比如，把用户输入的查询语句中的AB分成两个词A、B与分成一个词AB相比，前者检索时长较长且检索结果也不如后者准确。

目前的分词技术，均是基于一个已有的词特征库来实现的，对于词特征库中已经存储的词，能够准确分出，而对于不断涌现的新词，比如网络新词、专业词汇等等，却无法准确分出，可见，词特征库的完备性是影响分词的精度的最大因素。

因此，亟需一种高效识别新词的方法，以完善词特征库，提高分词的精度，进而提高信息检索系统的检索速度和检索结果准确度。

发明内容

有鉴于此，本申请提供了一种新词识别方法、装置以及计算设备，以高效识别新词，进而提升信息检索系统的检索速度和检索结果准确度。

为实现上述目的，本申请提供如下技术方案：

本申请的第一方面提供了一种新词识别方法，该方法由信息检索系统中的检索设备执行，包括：从所述信息检索系统的历史查询日志中获取单字串；将所述单字串进行切分，生成候选词汇，所述候选词汇中包括至少两个单字；从所述历史查询日志中获取与所述候选词汇相关的目标查询日志；根据所述目标查询日志计算所述候选词汇的统计指标；判断所述候选词汇的统计指标是否满足预设规则；当所述候选词汇的统计指标满足预设规则时，识别所述候选词汇为新词，并将所述候选词汇存储至所述信息检索系统的词特征库中。

通过获取信息检索系统的历史查询日志中的单字串，随后将单字串进行切分，生成候选词汇，并从信息检索系统的历史查询日志中获取与所述候选词汇相关的目标查询日志，最后根据所述目标查询日志识别所述当前候选词汇为新词，且识别所述当前候选词汇为新词后，将所述候选词汇存储至所述信息检索系统的词特征库中，可以高效识别出不断涌现的新词，完善词特征库，进而提高分词的精度，进而提高信息检索系统的检索速度和检索结果准确度。

结合第一方面，在第一方面的第一种实现方式中，所述目标查询日志的数量为一个，，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：判断所述候选词汇的各个统计指标是否大于对应的预设阈值；当所述候选词汇的各个统计指标均大于对应的预设阈值时，判断所述候选词汇的统计指标满足预设规则。

结合第一方面，在第一方面的第二种实现方式中，所述目标查询日志的数量为一个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：计算所述候选词汇的各个统计指标的差值比，所述候选词汇的每个统计指标的差值比为：该统计指标与该统计指标对应的预设阈值的差值的绝对值与所述该统计指标对应的预设阈值的百分比；当所述候选词汇的各个统计指标的差值比均符合对应的预设标准时，判断所述候选词汇的统计指标满足预设规则。

结合第一方面，在第一方面的第三种实现方式中，所述目标查询日志的数量为多个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：分别判断每个目标查询日志中所述判断所述候选词汇的统计指标是否满足预设规则，获得所述每个目标查询日志对应的判断结果；当表示所满足预设规则的判断结果的数量与所述目标查询日志的数量之比大于预设比例，判断所述候选词汇的统计指标满足预设规则。

结合第一方面，在第一方面的第四种实现方式中，所述目标查询日志的数量为多个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：分别计算每个目标查询日志的所述候选词汇的统计指标；去除所述每个目标查询日志的所述候选词汇的统计指标中的异常值，获得所述每个目标查询日志的所述候选词汇的统计指标的正常值；计算所述每个目标查询日志的所述候选词汇的统计指标的正常值的均值；当所述每个目标查询日志的所述候选词汇的统计指标的正常值的均值大于所述对应的预设阈值时，判断所述候选词汇的统计指标满足预设规则。

结合第一方面，在第一方面的第五种实现方式中，所述目标查询日志的数量为多个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：分别计算每个目标查询日志的所述候选词汇的统计指标；确定所述每个目标查询日志的所述候选词汇的统计指标中的异常值，并从所述每个目标查询日志中去除对应所述异常值的异常目标查询日志，获得正常目标查询日志；计算所述正常目标查询日志的所述候选词汇的统计指标的均值；当所述正常目标查询日志的所述候选词汇的统计指标的均值大于对应的预设阈值时，判断所述候选词汇的统计指标满足预设规则。

结合第一方面，在第一方面的第六种实现方式中，在所述识别所述候选词汇为新词之后，还根据包含用户行为数据的目标查询日志再次识别所述候选词汇是否为新词。

通过根据包含用户行为数据的目标查询日志再次识别所述候选词汇是否为新词，能够保证新词的识别准确性。

本申请的第二方面提供了一种新词识别装置，该装置包括：输入模块，用于从所述信息检索系统的历史查询日志中获取单字串；处理模块，用于将所述单字串进行切分，生成候选词汇，所述候选词汇中包括至少两个单字；还用于从所述历史查询日志中获取与所述候选词汇相关的目标查询日志；所述处理模块还用于根据所述目标查询日志计算所述候选词汇的统计指标；判断所述候选词汇的统计指标是否满足预设规则；当所述候选词汇的统计指标满足预设规则时，识别所述候选词汇为新词，并将所述候选词汇存储至所述信息检索系统的词特征库中。该装置用于实现第一方面提供的新词识别方法。

本申请的第三方面提供了一种计算设备，包括处理器、存储器。该计算设备运行时能够实现第一方面提供的新词识别方法，用于实现第一方面提供的新词识别方法的程序代码可以保存在存储器中，并由处理器来执行。

本申请的第四方面提供了一种存储介质，该存储介质中存储的程序代码被执行时能够实现第一方面提供的新词识别方法。该程序代码由实现第一方面提供的新词识别方法的计算机指令构成。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的信息检索系统的组织结构示意图；

图2为本申请实施例提供的又一信息检索系统的组织结构示意图；

图3为本申请实施例提供的计算设备的组织结构示意图；

图4为本申请实施例提供的新词识别方法的流程示意图；

图5为本申请实施例提供的新词识别装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述。

贯穿本说明书，术语“单字串”指代由多个单字组成的字串。

贯穿本说明书，术语“候选词汇”指代由n个单字组成的待识别的词汇。

贯穿本说明书，术语“无边界语言”指代字符间没有用于划定界限的标点符号或空格的语言，常见的无边界语言包括中文、日文等。相应的，最常见的有边界语言包括英文。

本申请实施例所应用的信息检索系统的架构图

图1为信息检索系统200的一种实现方式，包括存储设备206、检索设备202构成。其中存储设备206中存储了信息检索系统进行检索时需要的数据，存储设备206可以通过通信网络204与检索设备202建立通信，存储设备206也可以直接设置在检索设备202中，通过输入输出单元2021与检索设备202建立通信。检索设备202中包括输入输出单元2021和处理单元2022，用户通过输入输出单元2021向检索设备202发送一个查询语句后，检索设备202根据该查询语句进行检索以返回给用户对应的检索结果，一般信息检索系统的检索结果通过一系列的文件展现给用户。如果用户通过通信网络204向检索设备202发送查询语句，则输入输出单元2021可以为网络接口，如果用户在检索设备202本地向检索设备202发送查询语句，则输入输出单元2021还可以为检索设备202的输入/输出(英文：input/output，缩写：I/O)接口。

图2为信息检索系统200的另一种实现方式，包括一个或多个检索设备202，还包括一个或多个存储设备206，各个检索设备202和各个存储设备206之间通过通信网络实现通信，信息检索系统200的文件库、索引文件库、历史查询语句、历史查询日志、词特征库等数据可以分布式部署于各个存储设备206中。一个或多个检索设备202可以组成分布式计算系统对查询语句进行处理。该信息检索系统200在待处理的查询语句的数量较大，信息检索系统200的负载较高时，能够将待处理任务分配至不同检索设备202上执行，以提升信息检索系统200的并行处理能力。

信息检索系统200一般周期性的更新其能够索引到的文件并将这些文件存储于文件库中，获取更新的文件后，信息检索系统200为各个文件分配ID并建立索引，常见的索引包括倒排索引(英文：inverted index)，如表1所示，倒排索引中记录了各个词所在的文件ID，记录索引的文件也称为索引文件。

词1	文件1	文件6
			词2	文件3	文件4
…	…	…
			词n	文件5	文件9

表1

检索设备202通过输入输出单元2021获取了查询语句后，处理单元2022将查询语句分为一系列的词，如果查询语句为无边界语言，则获取该一系列词的过程也称为分词，例如将“手机购物”分词为“手机”和“购物”，如果查询语句为英文，则该获取一系列词的过程中无需再对查询语句进行分词，直接根据查询语句中的空格来区别不同的词。接下来，将分词产生的一系列的词与索引文件进行匹配，并获取该查询语句在索引文件中匹配的各个文件的匹配情况，包括匹配的各个文件的评分或排序，最后将评分最高或排序最靠前的一定数量的文件返回给用户。

通过信息检索系统200的工作流程可以看出，信息检索系统200输出的检索结果的准确与否，很大程度上依赖于分词产生的一系列词的准确性，而目前，是基于部署于各个存储设备206中的词特征库实现分词的，对于词特征库中已经存储的词，能够准确分出，对于不断涌现的新词，比如网络新词、专业词汇等等，却无法准确分出，可见，分词的精度与词特征库的完备性息息相关，因此，新词的准确识别对于信息检索系统的性能很重要。

图1或图2中的检索设备202可以通过图3中的计算设备400实现。计算设备400的组织结构示意图如图3所示，包括处理器402、存储器404，还可以包括总线408、通信接口406，通信接口406可以为输入输出单元2021的一种实现方式，处理器402和存储器404可以为处理单元2022的一种实现方式。

其中，处理器402、存储器404和通信接口406可以通过总线408实现彼此之间的通信连接，也可以通过无线传输等其他手段实现通信。

存储器404可以包括易失性存储器(英文：volatile memory)，例如随机存取存储器(英文：random-access memory，缩写：RAM)；存储器也可以包括非易失性存储器(英文：non-volatile memory)，例如只读存储器(英文：read-only memory，缩写：ROM)，快闪存储器(英文：flash memory)，硬盘(英文：hard disk drive，缩写：HDD)或固态硬盘(英文：solid-state drive，缩写：SSD)；存储器404还可以包括上述种类的存储器的组合。计算设备400运行时，存储器404加载存储设备206中的历史查询语句、历史查询日志、词特征库等数据，以供处理器402使用。在通过软件实现本发明提供的技术方案时，用于实现本发明图4提供的新词识别方法的程序代码可以保存在存储器404中，并由处理器402来执行。

计算设备400通过通信接口406获取查询语句，当获取查询语句对应的检索结果后通过通信接口406返回给用户。

处理器402可以为中央处理器(英文：central processing unit，缩写：CPU)。处理器402读取所述存储器中的信息检索系统的历史查询日志，并从所述信息检索系统的历史查询日志中获取单字串之后，将所述单字串进行切分，生成候选词汇，所述候选词汇中包括至少两个单字；还用于从所述历史查询日志中获取与所述候选词汇相关的目标查询日志；还用于根据所述目标查询日志计算所述候选词汇的统计指标；判断所述候选词汇的统计指标是否满足预设规则；当所述候选词汇的统计指标满足预设规则时，识别所述候选词汇为新词，并将所述候选词汇存储至所述存储器存储的词特征库中。

通过获取信息检索系统的历史查询日志中的单字串，随后将单字串进行切分，生成候选词汇，并从信息检索系统的历史查询日志中获取与所述候选词汇相关的目标查询日志，最后根据所述目标查询日志识别所述当前候选词汇为新词，且识别所述候选词汇为新词后，将所述候选词汇存储至所述信息检索系统的词特征库中，可以高效识别出不断涌现的新词，完善词特征库，进而提高分词的精度，进而提高信息检索系统的检索速度和检索结果准确度。

本申请还提供了一种新词识别方法，图1、图2中的检索设备202以及图3中的计算设备400运行时执行该新词识别方法，其流程示意图如图4所示。

S101，从信息检索系统的历史查询日志中获取单字串。

信息检索系统的历史查询日志记录了用户与信息检索系统交互的所有信息，其中包括用户输入的历史查询语句的分词日志，在本实施例中，可以通过从分词日志中找到连续的预设个数的单字组成的字串作为单字词串。比如，用户输入的历史查询语句为“人艰不拆的真正含义”，分词日志中记录的是该历史查询语句被分成“人”、“艰”、“不”、“拆”、“的”、“真正”、“含义”这几个词，假设，上述预设个数为5，则“人艰不拆的”则可被认为是从信息检索系统的历史查询日志中获取的单字串，假设，上述预设个数为4，则“人艰不拆”及“艰不拆的”则可被认为是从信息检索系统的历史查询日志中获取的单字串，假设，上述预设个数为3，则“人艰不”、“艰不拆”及“不拆的”则可被认为是从信息检索系统的历史查询日志中获取的单字串，假设，上述预设个数为3，则“人艰”、“艰不”、“不拆”及“拆的”则可被认为是从信息检索系统的历史查询日志中获取的单字串。

需要说明的是，本实施例所述的信息检索系统的历史查询日志可能为一个也可能为多个，单字串可能为一个也可能为多个，从一个历史查询日志中可能获取一个单字串也可能获取多个单字串。

S102，将所述单字串进行切分，生成候选词汇，每个候选词汇中包括至少两个单字。

优选的，所述至少两个单字在所述单字串中相邻。

具体的，可以预先设定候选词汇的n-gram，也就是说，候选词汇由n个单字组成。以单字串为“人艰不拆”为例，假设n的取值为2，则将其进行切分生成的候选词汇有“人艰”、“艰不”及“不拆”，假设n的取值为3，则将其进行切分生成的候选词汇有“人艰不”及“艰不拆”，假设n的取值为4，则其进行切分生成的候选词汇有“人艰不拆”。

需要说明的是，当单字串有多个时，对每个单字串都可采用上述方式进行切分，生成候选词汇。每个单字串切分后生成的候选词汇可能为一个也可能为多个。

S103，从所述信息检索系统的历史查询日志中获取与当前候选词汇相关的目标查询日志。

在对单字串进行切分后生成的候选词汇中，选取其中任意一个作为当前候选词汇，然后从所述信息检索系统的历史查询日志中获取与当前候选词汇相关的目标查询日志。具体的，信息检索系统的历史查询日志中，包含有与当前候选词汇相关的文档信息的查询日志则可认为是与当前候选词汇相关的目标查询日志。

比如，当前候选词汇为AB，在关键词匹配阶段的查询日志里面有字A相关的文档信息，这里所说的字A相关的文档信息具体为字A所在的文档ID，字A在该文档中出现的位置、次数，以及字A所在文档的数目等信息，相应的，在关键词匹配阶段的查询日志里面也有字B相关的文档信息，这里所说的字B相关的文档信息具体为字B所在的文档ID，字B在该文档中出现的位置、次数，以及字B所在文档的数目等信息。在计算文档相关性阶段的查询日志里面有AB，*AB和/或AB*一起出现的文档信息，其中*代表某个单字或某个特定长度的字符，文档信息具体包括文档ID，文档内容和AB，*AB和/或AB*在相应文档中出现的位置、次数。则，上述有字A相关的文档信息的关键词匹配阶段的查询日志、有字B相关的文档信息的关键词匹配阶段的查询日志以及有AB，*AB和/或AB*一起出现的文档信息计算文档相关性阶段的查询日志即为与当前候选词汇相关的目标查询日志。

S104，根据所述目标查询日志计算所述当前候选词汇的统计指标。

需要说明的是，所述当前候选词汇的统计指标包括所述当前候选词汇的出现频率、凝固程度和自由程度中的一个或多个。

S105，判断所述候选词汇的统计指标是否满足预设规则，当所述候选词汇的统计指标满足预设规则时，执行S106，当所述候选词汇的统计指标不满足预设规则时，执行S107。

具体的判断方式参见以下详细描述。

S106，识别所述当前候选词汇为新词，并将所述当前候选词汇存储至所述信息检索系统的词特征库中。

S107，结束所述当前候选词汇的识别。

可选的，步骤S105中，如果所述目标查询日志的数量为一个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：判断所述候选词汇的各个统计指标是否大于对应的预设阈值；当所述候选词汇的各个统计指标均大于对应的预设阈值时，判断所述候选词汇的统计指标满足预设规则。

所述当前候选词汇的出现频率、凝固程度和自由程度对应的预设阈值分别为第一预设阈值、第二预设阈值和第三预设阈值。

比如，假设统计指标中只包括所述当前候选词汇的出现频率，则当所述当前词汇的出现频率的值大于所述第一预设阈值时，才判断所述至少一个统计指标满足预设规则。

比如，假设统计指标中包括所述当前候选词汇的出现频率和凝固程度，则当所述当前词汇的出现频率的值大于所述第一预设阈值且所述当前词汇的凝固程度大于所述第二预设阈值时，才判断所述至少一个统计指标满足预设规则。假设统计指标中包括所述当前候选词汇的出现频率、凝固程度和自由程度，则当所述当前词汇的出现频率的值大于所述第一预设阈值且所述当前词汇的凝固程度大于所述第二预设阈值且所述当前词汇的自由程度大于所述第三预设阈值时，才判断所述至少一个统计指标满足预设规则。

可选的，步骤S105中，如果所述目标查询日志的数量为一个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：计算所述候选词汇的各个统计指标的差值比，所述候选词汇的每个统计指标的差值比为：该统计指标与该统计指标对应的预设阈值的差值的绝对值与所述该统计指标对应的预设阈值的百分比；当所述候选词汇的各个统计指标的差值比均符合对应的预设标准时，判断所述候选词汇的统计指标满足预设规则。

比如，假设统计指标中包括所述当前候选词汇的出现频率和凝固程度，二者对应的预设标准为：当小于对应的预设阈值时，其对应的预设标准为不大于10％，当大于对应的预设阈值时，其对应的预设标准为不小于50％。当前候选词汇的出现频率的值小于第一预设阈值，且当前候选词汇的出现频率的差值比为5％(不大于10％)，当前候选词汇的凝固程度的值大于第二预设阈值，且当前候选词汇的凝固程度的差值比55％(不小于50％)，即判断所述候选词汇的统计指标满足预设规则。

由于一个候选词汇可能会出现在很多历史查询语句中，所以，所述目标查询日志的数量会有多个，当所述目标查询日志的数量为多个时，可以采用多种判断方式判断统计指标是否满足预设规则，具体请参见以下详细描述。

可选的，步骤S105中，如果所述目标查询日志的数量为多个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：

分别判断每个目标查询日志中所述判断所述候选词汇的统计指标是否满足预设规则，获得所述每个目标查询日志对应的判断结果；

当表示所满足预设规则的判断结果的数量与所述目标查询日志的数量之比大于预设比例，判断所述候选词汇的统计指标满足预设规则。

其中，判断每个目标查询日志中所述判断所述候选词汇的统计指标是否满足预设规则，具体可采用上述所述目标查询日志的数量为一个时对应的判断所述候选词汇的统计指标是否满足预设规则的方式进行判断。

分别计算每个目标查询日志的所述候选词汇的统计指标；

去除所述每个目标查询日志的所述候选词汇的统计指标中的异常值，获得所述每个目标查询日志的所述候选词汇的统计指标的正常值；

计算所述每个目标查询日志的所述候选词汇的统计指标的正常值的均值；

当所述每个目标查询日志的所述候选词汇的统计指标的正常值的均值大于所述对应的预设阈值时，判断所述候选词汇的统计指标满足预设规则。

在本实施例中，异常值可认为是震荡较大的数据，具体的，可先对所述多个目标查询日志的统计指标中包括的各个具体指标的值进行排序，当值的数量较少时，则可认为最大值和最小值是异常值，当值的数量较多时，则可认为前后百分之n的值是异常值，n的数值可根据具体的场景进行设定，一般取2.5或5。正常值的和与正常值的个数的商即为正常值的均值。

本实施例中，以每个目标查询日志的统计指标中只包括所述当前候选词汇的出现频率为例进行说明。所述当前候选词汇的出现频率对应的预设阈值为第一预设阈值。

假设有10个目标查询日志，分别计算获得的各个目标查询日志的统计指标中包括的当前候选词汇的出现频率的值从小到大排序为a0、a1、a2、a3、a4、a5、a6、a7、a8、a9，则去除a0和a9后获得所述多个目标查询日志的统计指标中包括的所述当前候选词汇的出现频率的正常值为a1、a2、a3、a4、a5、a6、a7、a8。则所述当前候选词汇的出现频率的正常值的均值a＝(a1+a2+a3+a4+a5+a6+a7+a8)/8，则当a大于所述第一预设阈值时，判断所述统计指标满足预设规则。

可选的，步骤S105中，如果所述目标查询日志的数量为多个，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：

分别计算每个目标查询日志的所述候选词汇的统计指标；

确定所述每个目标查询日志的所述候选词汇的统计指标中的异常值，并从所述每个目标查询日志中去除对应所述异常值的异常目标查询日志，获得正常目标查询日志；

计算所述正常目标查询日志的所述候选词汇的统计指标的均值；

当所述正常目标查询日志的所述候选词汇的统计指标的均值大于对应的预设阈值时，判断所述候选词汇的统计指标满足预设规则。

需要说明的是，目标查询日志的统计指标中包括的各个具体指标的值均为正常值时，该目标查询日志才为正常目标查询日志。假设，某一目标查询日志的统计指标包括的两个具体指标，如果其中一个具体指标的值为异常值，则该目标查询日志为异常目标查询日志。

本实施例中，以每个目标查询日志的统计指标中包括所述当前候选词汇的出现频率和凝固程度为例进行说明。所述当前候选词汇的出现频率对应的预设阈值为第一预设阈值，所述当前候选词汇的凝固程度对应的预设阈值为第二预设阈值。

假设有10个目标查询日志(目标查询日志1～目标查询日志10)，分别计算获得的各个目标查询日志的统计指标中包括的当前候选词汇的出现频率的值从小到大排序为a0、a1、a2、a3、a4、a5、a6、a7、a8、a9，最小值a0为异常值，a0对应目标查询日志1，分别计算获得的各个目标查询日志的统计指标中包括的当前候选词汇的凝固程度的值从小到大排序为b0、b1、b2、b3、b4、b5、b6、b7、b8、b9，最小值b0为异常值，b0对应目标查询日志5，则目标查询日志1和目标查询日志5为异常目标查询日志，目标查询日志5对应的当前候选词汇的出现频率的值a8，目标查询日志1对应的当前候选词汇的凝固程度的值为b5，则多个正常目标查询日志的统计指标中包括的当前候选词汇的出现频率的值的均值a＝(a1+a2+a3+a4+a5+a6+a7+a9)/8，多个正常目标查询日志的统计指标中包括的当前候选词汇的凝固程度的值的均值b＝(b1+b2+b3+b4+b6+b7+b8+b9)/8，则当a大于所述第一预设阈值且b大于所述第二预设阈值时，判断所述统计指标满足预设规则。

本申请中，通过获取信息检索系统的历史查询日志中的单字串，随后将单字串进行切分，生成候选词汇，并从信息检索系统的历史查询日志中获取与所述候选词汇相关的目标查询日志，最后根据所述目标查询日志识别所述候选词汇为新词，且识别所述候选词汇为新词后，将所述候选词汇存储至所述信息检索系统的词特征库中，可以高效识别出不断涌现的新词，完善词特征库，进而提高分词的精度，进而提高信息检索系统的检索速度和检索结果准确度。

新词一般都比较重要，与用户获得的查询结果的好坏有很大关联，因此，在采用上述方式识别出当前候选词汇为新词之后，我们可以根据包含用户行为数据的目标查询日志再次识别所述当前候选词汇是否为新词。这里所说的用户行为数据包括包含所述当前候选词汇的查询语句对应的用户满意点击的文件，文件被点击的次数、文件被索引的时间以及包含所述当前候选词汇的查询语句的增长率等数据。

如果从目标查询日志中过滤出包含用户行为数据的目标查询日志，则可根据包含用户行为数据的目标查询日志再次计算所述当前候选词汇的统计指标，并根据上述实施例所述的方法判断再次计算的统计指标是否满足预设规则，并根据判断结果最终确定所述当前候选词汇是否为新词。

具体的，如果再次确定所述当前候选词汇为新词，则最终确定所述当前候选词汇为新词。如果之前确定所述当前候选词汇为新词，但是本次确定所述当前候选词汇不为新词，则需要综合考虑本次根据包含用户行为数据的目标查询日志计算的所述当前候选词汇的统计指标与之前根据目标查询日志计算所述当前候选词汇的统计指标，如果某次计算的所述当前候选词汇的统计指标明显满足预设规则，比如远大于预设阈值，则以该次的判断结果为准。如果均不明显，则可通过求两次计算的当前候选词汇的统计指标的加权和，再根据该加权和最终确定所述当前候选词汇是否为新词。

本申请中，基于包含用户行为数据的目标查询日志再次识别所述当前候选词汇是否为新词，能够进一步提高识别精度。

本发明实施例还提供了新词识别装置800，该新词识别装置800可以通过图1或图2所示的检索设备202实现，还可以通过图3所示的计算设备400实现，还可以通过专用集成电路(英文：application-specific integrated circuit，缩写：ASIC)实现，或可编程逻辑器件(英文：programmable logic device，缩写：PLD)实现。上述PLD可以是复杂可编程逻辑器件(英文：complexprogrammable logic device，缩写：CPLD)，FPGA，通用阵列逻辑(英文：genericarray logic,缩写：GAL)或其任意组合。该新词识别装置800用于实现图4所示的新词识别方法。

新词识别装置800的组织结构示意图如图5所示，包括：输入模块802和处理模块804。处理模块804工作时，执行图4所示的新词识别方法的步骤S101至步骤S107。

输入模块802，用于从所述信息检索系统的历史查询日志中获取单字串，也即执行图4所示的新词识别方法的步骤S101。

处理模块804，用于将所述单字串进行切分，生成候选词汇，所述候选词汇中包括至少两个单字；还用于从所述历史查询日志中获取与所述候选词汇相关的目标查询日志；

处理模块804还用于根据所述目标查询日志计算所述候选词汇的统计指标；判断所述候选词汇的统计指标是否满足预设规则；当所述候选词汇的统计指标满足预设规则时，识别所述候选词汇为新词，并将所述候选词汇存储至所述信息检索系统的词特征库中。

本实施例提供的新词识别装置，获取了信息检索系统的历史查询日志中的单字串之后，将单字串进行切分，生成候选词汇，并从信息检索系统的历史查询日志中获取与所述候选词汇相关的目标查询日志，最后根据所述目标查询日志识别所述候选词汇为新词，且识别所述候选词汇为新词后，将所述候选词汇存储至所述信息检索系统的词特征库中。通过本实施例提供的方案，可以高效识别出不断涌现的新词，完善词特征库，提高分词的精度，进而提高信息检索系统的检索速度和检索结果准确度。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

结合本发明公开内容所描述的方法可以由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM、快闪存储器、ROM、可擦除可编程只读存储器(英文：erasable programmableread only memory，缩写：EPROM)、电可擦可编程只读存储器(英文：electricallyerasable programmable read only memory，缩写：EEPROM)、硬盘、光盘或者本领域熟知的任何其它形式的存储介质中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件或软件来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种新词识别方法，其特征在于，所述方法运用于信息检索系统中的检索设备，所述方法包括：

从所述信息检索系统的历史查询日志中获取单字串；

将所述单字串进行切分，生成候选词汇，所述候选词汇中包括至少两个单字；

从所述历史查询日志中获取与所述候选词汇相关的目标查询日志；

根据所述目标查询日志计算所述候选词汇的统计指标；

判断所述候选词汇的统计指标是否满足预设规则；

当所述候选词汇的统计指标满足预设规则时，识别所述候选词汇为新词，并将所述候选词汇存储至所述信息检索系统的词特征库中。

2.根据权利要求1所述的方法，其特征在于，所述目标查询日志的数量为一个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：

判断所述候选词汇的各个统计指标是否大于对应的预设阈值；

当所述候选词汇的各个统计指标均大于对应的预设阈值时，判断所述候选词汇的统计指标满足预设规则。

3.根据权利要求1所述的方法，其特征在于，所述目标查询日志的数量为一个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：

计算所述候选词汇的各个统计指标的差值比，所述候选词汇的每个统计指标的差值比为：该统计指标与该统计指标对应的预设阈值的差值的绝对值与所述该统计指标对应的预设阈值的百分比；

当所述候选词汇的各个统计指标的差值比均符合对应的预设标准时，判断所述候选词汇的统计指标满足预设规则。

4.根据权利要求1所述的方法，其特征在于，所述目标查询日志的数量为多个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述目标查询日志的数量为多个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：

分别计算每个目标查询日志的所述候选词汇的统计指标；

6.根据权利要求1所述的方法，其特征在于，所述目标查询日志的数量为多个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述判断所述候选词汇的统计指标是否满足预设规则，具体包括：

分别计算每个目标查询日志的所述候选词汇的统计指标；

7.根据权利要求1所述的方法，其特征在于，在所述识别所述候选词汇为新词之后，所述方法还包括：

根据包含用户行为数据的目标查询日志再次识别所述候选词汇是否为新词。

8.一种新词识别装置，其特征在于，包括：

输入模块，用于从信息检索系统的历史查询日志中获取单字串；

处理模块，用于将所述单字串进行切分，生成候选词汇，所述候选词汇中包括至少两个单字；还用于从所述历史查询日志中获取与所述候选词汇相关的目标查询日志；

所述处理模块还用于根据所述目标查询日志计算所述候选词汇的统计指标；判断所述候选词汇的统计指标是否满足预设规则；当所述候选词汇的统计指标满足预设规则时，识别所述候选词汇为新词，并将所述候选词汇存储至所述信息检索系统的词特征库中。

9.根据权利要求8所述的装置，其特征在于，所述目标查询日志的数量为一个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述处理模块具体用于：

10.根据权利要求8所述的装置，其特征在于，所述目标查询日志的数量为一个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述处理模块具体用于：

11.根据权利要求8所述的装置，其特征在于，所述目标查询日志的数量为多个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述处理模块具体用于：

当表示满足预设规则的判断结果的数量与所述目标查询日志的数量之比大于预设比例，判断所述候选词汇的统计指标满足预设规则。

12.根据权利要求8所述的装置，其特征在于，所述目标查询日志的数量为多个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述处理模块具体用于：

分别计算每个目标查询日志的所述候选词汇的统计指标；

13.根据权利要求8所述的装置，其特征在于，所述目标查询日志的数量为多个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述处理模块具体用于：

分别计算每个目标查询日志的所述候选词汇的统计指标；

14.根据权利要求8所述的装置，其特征在于，所述处理模块还用于：

在所述识别所述候选词汇为新词之后，根据包含用户行为数据的目标查询日志再次识别所述候选词汇是否为新词。

15.一种计算设备，其特征在于，包括处理器、存储器；

所述处理器读取所述存储器存储的历史查询日志，并从所述历史查询日志中获取单字串；

所述处理器用于读取所述存储器中的程序执行以下操作：将所述单字串进行切分，生成候选词汇，所述候选词汇中包括至少两个单字；还用于从所述历史查询日志中获取与所述候选词汇相关的目标查询日志；还用于根据所述目标查询日志计算所述候选词汇的统计指标；判断所述候选新词的统计指标是否满足预设规则；当所述候选新词的统计指标满足预设规则时，识别所述候选词汇为新词，并将所述候选词汇存储至所述存储器存储的词特征库中。

16.根据权利要求15所述的计算设备，其特征在于，所述目标查询日志的数量为一个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述处理器具体用于：

17.根据权利要求15所述的计算设备，其特征在于，所述目标查询日志的数量为一个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述处理器具体用于：

18.根据权利要求15所述的计算设备，其特征在于，所述目标查询日志的数量为多个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述处理器具体用于：

19.根据权利要求15所述的计算设备，其特征在于，所述目标查询日志的数量为多个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述处理器具体用于：

分别计算每个目标查询日志的所述候选词汇的统计指标；

20.根据权利要求15所述的计算设备，其特征在于，所述目标查询日志的数量为多个，所述候选词汇的统计指标包括所述候选词汇的出现频率、凝固程度和自由程度中的一个或多个，则，所述处理器具体用于：

分别计算每个目标查询日志的所述候选词汇的统计指标；

21.根据权利要求15所述的计算设备，其特征在于，所述处理器还用于：