CN112988690A

CN112988690A - 词典文件同步方法、装置、服务器及存储介质

Info

Publication number: CN112988690A
Application number: CN202110282155.9A
Authority: CN
Inventors: 徐霁; 刘磊
Original assignee: Guahao Net Hangzhou Technology Co Ltd
Current assignee: Guahao Net Hangzhou Technology Co Ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-18
Anticipated expiration: 2041-03-16
Also published as: CN112988690B

Abstract

本发明实施例公开了一种词典文件同步方法、装置、服务器及存储介质。该方法包括：当检测到预设位置存储的目标词典文件更新时，则对所述目标词典文件加锁处理，得到待读取目标词典文件；其中，所述目标词典文件是基于预先设置的分发服务中的文件同步子服务发送的；将所述待读取目标词典文件加载至各搜索引擎节点的分词器中，以在接收到分词指令时，基于所述分词器中的待读取词典文件进行分词处理。本发明实施例的技术方案，解决了目标词典生成的技术问题，实现了基于词典数据库中的数据变化，生成目标词典文件，并将目标词典文件同步至搜索引擎节点的技术，从而达到了目标词典文件的及时更新与同步的技术效果。

Description

词典文件同步方法、装置、服务器及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种词典文件同步方法、装置、服务器及存储介质。

背景技术

在搜索引擎中主要设置有词典，基于词典可以提取出文本中的关键词或者将文本划分为多个关键词。随着业务的更新，通常需要扩展词库，因此更新搜索引擎分词词库也称为一个基本需求。

现有技术中更新词库主要依托于词典文件，词典文件生成后一般放置在搜索引擎服务节点本地，需要用户手动触发加载或者重新启动后才能生效，参见图1。进一步的，目前多采用的为分布式搜索引擎，词典文件的生成以及更新单独分布在每台服务器上(参见图2)，当服务器的网络连接出现异常时，或者是当服务器中的词典文件在生成过程中存在异常时，出现各个服务器生成的词典文件存在不一致的情形，导致分词结果也不一致，从而存在用户体验较差的问题。

发明内容

本发明实施例提供了一种词典文件同步方法、装置、服务器及存储介质，将词典文件同步更新至各个分布式搜索引擎节点，从而实现词典文件同步以及分词结果相一致的技术效果。

第一方面，本发明实施例提供了一种词典文件同步方法，应用于分布式搜索引擎中，该方法包括：当检测到预设位置存储的目标词典文件更新时，则对所述目标词典文件加锁处理，得到待读取目标词典文件；其中，所述目标词典文件是基于预先设置的分发服务中的文件同步子服务发送的；

将所述待读取目标词典文件加载至各搜索引擎节点的分词器中，以在接收到分词指令时，基于所述分词器中的待读取词典文件进行分词处理。

第二方面，本发明实施例还提供了一种词典文件同步装置，该装置包括：

待读取目标词典文件得到模块，用于当检测到预设位置存储的目标词典文件更新时，则对所述目标词典文件加锁处理，得到待读取目标词典文件；其中，所述目标词典文件是基于预先设置的分发服务中的文件同步子服务发送的；

分词处理模块，用于将所述待读取目标词典文件加载至各搜索引擎节点的分词器中，以在接收到分词指令时，基于所述分词器中的待读取词典文件进行分词处理。

第三方面，本发明实施例还提供了一种服务器，该服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述程序被所述处理器执行，使得所述处理器实现如本发明任意实施例所提供的词典文件同步方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任意实施例所提供的词典文件同步方法。

本发明实施例的技术方案，通过在检测预设位置存储的目标词典文件发生了更新时，对目标词典文进行加锁处理，这样处理的好处在于避免多个线程对目标词典文件的其他操作，保证了目标词典文件的数据一致性。通过将待读取目标词典文件加载至各搜索引擎节点的分词器中，以在接收到分词指令时，基于分词器中的待读取词典文件进行分词处理，解决了现有技术中词典文件同步方法中需要手动加载词典文件，以及各服务器生成的词典文件不一致的技术问题，达到了各服务器生成的词典文件同步以及分词结果一致的技术效果。

附图说明

为了更加清楚地说明本发明示例性实施例的技术方案，下面对描述实施例中所需要用到的附图做一简单介绍。显然，所介绍的附图只是本发明所要描述的一部分实施例的附图，而不是全部的附图，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图得到其他的附图。

图1是现有技术中的一种词典文件同步方法示意图；

图2是现有技术中的一种词典文件同步方法示意图；

图3是本发明实施例一提供的一种词典文件同步方法流程示意图；

图4是本发明实施例二提供的一种词典文件同步方法流程示意图；

图5是本发明实施例三提供的一种词典文件同步方法流程示意图；

图6是本发明实施例四提供的一种词典文件同步方法流程示意图；

图7是本发明实施例五提供的一种优选的词典同步方法示意图；

图8是本发明实施例六提供的一种词典文件同步装置模块示意图；

图9是本发明实施例七提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图3是本发明实施例一提供的一种词典文件同步方法流程示意图，本实施例应用于分布式搜索引擎中，可适用于通过将词典文件同步更新至各个分布式搜索引擎节点，从而实现数据同步以及分词结果相一致的情况，该方法可以由词典文件同步装置来执行，词典文件同步装置可通过软件和/或硬件方式实现，该词典文件同步装置可集成于诸如计算机或者服务器中。

如图3所示，本实施例的方法包括：

S110、当检测到预设位置存储的目标词典文件更新时，则对目标词典文件加锁处理，得到待读取目标词典文件。

其中，分发服务可以是预先设置的服务，可以用于对数据(如，文件)进行分配以及发送等管理。文件同步子服务可以用于对文件进行同步管理。分发服务中可以包括一个或多个文件同步子服务。目标词典文件中可以包括多个词语，且词语之间通过预设分隔符(如，分号、换行符或空格符等)隔开。示例性的，目标词典文件中的词语可以包括乒乓球拍、网球拍以及篮球框等等。词典文件的编码方式可以是UTF-8编码。目标词典文件可以是基于预先设置的分发服务中的文件同步子服务发送的词典文件。目标词典文件可以是通用词典文件、机构词典文件、个人词典文件等等。

其中，目标词典文件的存储位置可以是预先设置的位置，可以用于存储目标词典文件。预先设置目标词典文件的存储位置好处在于便于对目标词典文件的统一管理。

其中，目标词典文件更新的原因在于：当业务发生变化时，会产生很多新词，因此需要对目标词典文件进行更新。目标词典文件更新可以包括对目标词典文件的替换或删除等操作。目标词典文件更新的好处在于：可以在目标词典文件中增加一些新词，进一步完善目标词典文件，从而提高分词的效率。

其中，锁的本质可以理解为内存中的一个整型数。锁的状态可以包括：空闲状态和上锁状态。对目标词典文件加锁处理可以理解为将目标词典文件对应的锁的状态修改为上锁状态。对目标词典文件加锁处理的好处在于：能够避免多个线程对目标词典文件的操作(如，写入)从而出现目标词典文件中数据错乱的问题。

具体的，将目标词典文件对应的锁的状态修改为上锁状态可以包括：判断目标词典文件对应的锁的状态是否为空闲状态，若目标词典文件对应的锁的状态是空闲状态时，则将目标词典文件对应的锁的状态修改为上锁状态，并展示目标词典文件上锁成功的提示信息；若目标词典文件对应的锁的状态为上锁状态时，则展示目标词典文件已处于上锁状态的提示信息。

其中，待读取目标词典文件可以是需要加载至搜索引擎节点的分词器中的词典文件，可以用于为各搜索引擎提供数据支撑，从而可以对文本数据进行分词处理。待读取目标词典文件与目标词典文件之间的关系可以是：在检测到目标词典文件对应的锁的状态为上锁状态时，将锁的状态为上锁状态的目标词典文件，作为待读取目标词典文件。

在一种实施例中，检测预设位置存储的目标词典文件更新的方式可以包括：预先设置检测时间间隔(如，0.1秒)，根据预先设置的检测时间间隔，检测预设位置存储的目标词典文件是否发生更新。

具体的，预先设置用于存储目标词典文件的位置。预先设置用于目标词典文件分发的服务，即，预先设置分发服务。预先设置检测时间间隔。在检测到预先设置的分发服务中的文件同步子服务发送目标词典文件时，将目标词典文件存储至预先设置的位置。根据预先设置的检测时间间隔，检测预先设置的位置存储的目标词典文件是否发生删除或替换。当检测到预先设置的位置所存储的目标词典文件发生删除或替换时，则确定目标词典文件对应的锁的状态。当检测到目标词典文件对应的锁的状态为空闲状态时，则将目标词典文件对应的锁的状态修改为上锁状态。当检测到目标词典文件对应的锁的状态为上锁状态时，则将锁的状态为上锁状态的目标词典文件，作为待读取目标词典文件，即，可以得到待读取目标词典文件。

需要说明的是，本发明实施例中对目标词典文件加锁处理的方式并非限定，只要能够实现对目标词典文件进行上锁处理即可。

S120、将待读取目标词典文件加载至各搜索引擎节点的分词器中，以在接收到分词指令时，基于分词器中的待读取词典文件进行分词处理。

其中，搜索引擎节点的个数可以是一个或多个。搜索引擎节点可以是基于分布式框架构建的搜索引擎节点。基于分布式框架构建搜索引擎节点的好处在于：便于扩展、可靠性高以及加快计算速度。分词器可以是，将用户输入的一段文本，分析成符合逻辑的一种工具。分词器可以用于切分词语。分词器的种类可以包括中文分词器(如，IKAnalyzer分词器)、英文分词器、其他语言的分词器等。不同的分词器提供的分词规则不同，从而导致分词结果不一样。搜索引擎节点中可以包括一种或多种分词器，分词器可以包括一个或多个待读取词典文件。需要说明的是，本发明实施例中对分词器的选择不做限定，只要能够实现分词处理即可。

其中，分词指令可以理解为用于：将指定文本输入至一个或多个分词器，以得到分词器对应输出的分词结果。可选地，当接收到用户输入用户触发文本分词的触发操作时，生成分词指令。具体可以是，当接收到在预设区域内用户输入预先设置的用于文本分词的触发操作时，则生成分词指令。其中，触发操作可以通过触发物理按钮或虚拟按键生成的。

示例性的，接收用户输入用于文本分词的分词指令，可以是，接收用户基于输入设备所输入的用于文本分词的命名，生成分词指令。其中，基于输入设备所输入的用于文本分词的命名，可以是用户通过物理输入设备(如，鼠标、手写设备和/或键盘等)或者触控设备(如，虚拟键盘和/或者手写区域等)等在设定输入框内输入预先设置的分词指令。可以理解的是，分词指令的具体表达形式可以根据实际需求进行设置，在此不做具体限定。

具体的，在得到待读取目标词典文件后，可以将待读取目标词典文件加载至各个搜索引擎节点的分词器中。在检测待读取目标词典文件加载至各个搜索引擎节点中的分词器中时，可以基于待读取目标词典文件加载完成的分词器进行分词处理。具体的，基于待读取目标词典文件加载完成的分词器进行分词处理可以是，在检测到用户通过物理输入设备或触控设备等在设定的输入框输入预先设置的分词指令时，接收分词指令。在接收到分词指令时，确定分词器的分词规则，根据分词器的分词规则以及分词器中的待读取词典文件，进行分词处理，以得到一个或多个词语。

示例性的，本文为上海自来水来自海上，通过分词处理，可以分为以下几个词项，如：上海、自来水、来自、海上。

本实施例的技术方案，通过在检测预设位置存储的目标词典文件发生了更新时，对目标词典文进行加锁处理，这样处理的好处在于避免多个线程对目标词典文件的其他操作，保证了目标词典文件的数据一致性。通过将待读取目标词典文件加载至各搜索引擎节点的分词器中，以在接收到分词指令时，基于分词器中的待读取词典文件进行分词处理，解决了现有技术中词典文件同步方法中需要手动加载词典文件，以及各服务器生成的词典文件不一致的技术问题，达到了各服务器生成的词典文件同步以及分词结果一致的技术效果。

实施例二

图4是本发明实施例二提供的一种词典文件同步方法流程示意图，在前述实施例的基础上，对实施例一进行了优化，其具体实施方式可以参见下述实施例。其中，与上述实施例相同或者相应的技术术语在此不再赘述。

如图4所示，本实施例的方法具体可包括：

S210、当检测到预设位置存储的目标词典文件更新时，则对目标词典文件加锁处理，得到待读取目标词典文件。

S220、将待读取目标词典文件加载至各搜索引擎节点的分词器中，以在接收到分词指令时，基于分词器中的待读取词典文件进行分词处理。

S230、当检测到词典数据库中的数据变化时，基于变化后的数据生成同步至搜索引擎节点的目标词典文件。

其中，数据集又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。词典数据库可以包括一个或多个数据集。词典数据库中的数据可以是数据集中的数据，也可以是存储在数据库中的数据。词典数据库可以用于存储数据(如，词语)。词典数据库中的数据变化至少可以包括以下一种情况：如，词典数据库中增加了数据、词典数据库中删除了数据以及词典数据库中修改了数据等。通过词典数据库可以生成目标词典文件。词典数据库中的发生变化的数据的数量可以是一个或多个。

在本实施例中，检测词典数据库中的数据变化的方式至少可以包括两种，第一种实施方式可以是：实时检测检测词典数据库中的数据是否发生变换。

第二种实施方式可以是，可以预先设置时间间隔(如，10秒)。根据预先设置的时间间隔，检测词典数据库中的数据是否发生变化。

具体的，根据实际需求，预先设置检测词典数据库中的数据变化的方式。根据预先设置的检测词典数据库中的数据变化的方式，检测词典数据库中的数据是否发生变化。在检测到数据发生变化时，即在检测到词典数据库中增加了数据时，或者是，在检测到词典数据库中删除了数据时，亦或者是，在检测词典数据中修改了数据时，可以确定发生变化的数据。当发生变化的数据确定完成时，则基于变化后的数据，可以生成同步至搜索引擎节点的目标词典文件。

示例性的，词典数据库中的数据包括：蓝天和白云。当检测词典数据库中的数据包括：蓝天、白云以及草地时，可以通过数据中包括蓝天、白云以及草地的词典数据库，生成同步至搜索引擎节点的目标词典文件。

S240、将目标词典文件发送至共享文件存储服务中，以使分发服务同步共享文件存储服务中的目标词典文件，并将目标词典文件同步至搜索引擎节点。

其中，共享文件存储服务可以是预先关键的服务，可以用于实现文件的存储与共享功能。共享文件存储服务中可以存储一个或多个目标词典文件。设置共享文件存储服务的好处在于：能够对生成的目标词典文件统一管理，以及可以降低分词结果的不一致。

其中，分发服务是预先设置的服务，可以用于同步共享文件存储服务中的目标词典文件，以及将目标文件同步至搜索引擎中。设置分发服务的好处在于缩短词典文件更新的延迟时间，避免词典文件生成后未及时重载，从而出现分词结果不一致的现象。

具体的，在检测成同步至搜索引擎节点的目标词典文件生成时，将生成的目标词典文件发送至共享文件存储服务中。在检测共享文件存储服务接收到目标词典文件时，将共享文件存储服务接收到的目标词典文件同步至分发服务中。在检测到分发服务对共享文件存储服务中的目标词典文件同步完成时，将分发服务中同步完成的目标词典文件同步至搜索引擎中。

为了提高分发服务同步共享文件存储服务中的目标词典文件的效率以及准确性，分发服务同步共享文件存储服务中的目标词典文件，可以包括：基于分发服务中的文件同步子服务确定目标词典文件和已发送词典文件的标识信息是否一致；其中，标识信息是基于词典文件的文件内容生成的信息；若否，则基于文件同步子服务将目标词典文件同步至分发服务中的文件网关。

其中，已发送词典文件可以理解为已发送至共享文件存储服务中的目标词典文件。标识信息可以是文件的md5信息。文件的md5信息可以是由一个或多个字母，以及一个或多个数字组成的128位散列值。文件的md5信息的生成可以是通过消息摘要算法(MessageDigest Algorithm MD5，MD5)生成的。

其中，文件同步子服务可以理解为用于同步文件的服务，可以用于确定目标词典文件与已发送词典文件的md5信息是否一致。文件网关可以基于对象存储为某种标准存储协议的文件存储服务。设置文件网关的好处在于：网关服务部署简便，同时提高本地存储设备与云存储的兼容性，以及提升访问速度。

其中，分发服务中可以包括：文件同步子服务和文件网关。分发服务中的文件同步子服务的数量可以是一个或多个。分发服务中的文件网关的数量可以是一个或多个。分发服务中的文件同步子服务和文件网关之间的对应关系可以是一对一，即，一个文件同步子服务对应一个文件网关。

其中，基于分发服务中的文件同步子服务确定目标词典文件和已发送词典文件的标识信息是否一致的方式可以包括：预先设置检测时间间隔，根据预先设置的检测时间间隔，基于分发服务中的文件同步子服务，确定目标词典文件和已发送词典文件的标识信息是否一致。这样处理的好处在于：避免过多资源(如，带宽)的占用。

具体的，在检测到目标词典文件发送至共享文件存储服务时，根据分发服务中的文件同步子服务，对目标词典文件和已发送词典文件的md5信息进行一致性比较，得到比较结果。当比较结果为不一致时，则通过文件同步子服务，将目标词典文件同步至与文件同步子服务对应的文件网关，从而实现将分发服务同步共享文件存储服务中的目标词典文件。

需要说明的是，以上标号仅仅是对本实施例步骤执行的顺序的示例，而并非限定。

本实施例的技术方案，通过当检测到词典数据库中的数据变化时，基于变化后的数据生成同步至搜索引擎节点的目标词典文件。通过将目标词典文件发送至共享文件存储服务中，以使分发服务同步共享文件存储服务中的目标词典文件，并将目标词典文件同步至搜索引擎节点，解决了目标词典生成的技术问题，实现了基于词典数据库中的数据变化，生成目标词典文件，并将目标词典文件同步至搜索引擎节点的技术，从而达到了目标词典文件的及时更新与同步的技术效果。

实施例三

图5是本发明实施例三提供的一种词典文件同步方法流程示意图，在前述实施例的基础上，可以对实施例一中的各个步骤进行详细阐述，其具体实施方式可以参见本实施例技术方案。其中，与上述实施例相同或者相应的技术术语在此不再赘述。

如图5所示，本实施例的方法具体可包括：

S310、基于全局监控线程确定目标词典文件与当前词典文件不一致时，则获取目标词典文件，并将目标词典文件存储至预设位置。

其中，线程是独立调度和分派的单独单位，可以单独执行任务。全局监控线程可以是预先在搜索引擎节点中创建的一个线程，可以用于监控目标词典文件与当前词典文件是否一致的任务。当前词典文件可以是搜索引擎节点中已存在的词典文件。目标词典文件可以是基于预先设置的分发服务中的文件同步子服务发送的词典文件。

其中，目标词典文件与当前词典文件不一致可以是目标词典文件与当前词典文件的标识信息不一致，即，目标词典文件与当前词典文件的md5信息不一致。确定目标词典文件与当前词典文件不一致的方式可以是：将目标词典文件的md5信息与当前词典文件的md5信息进行一致性比对。其中，一致性比对的方式可以通过字符串匹配算法(如，KMP算法)进行比对。

具体的，预先设置用于存储目标词典文件的位置。预先在搜索搜索引擎节点中创建的一个全局监控线程。根据预先创建的一个全局监控线程，对分发服务中的文件同步子服务发送的词典文件与搜索引擎节点中已存在的词典文件进行监控，得到监控结果。当监控结果为文件同步子服务发送的词典文件与搜索引擎节点中已存在的词典文件不一致时，即当监控结果为目标词典文件与当前词典文件不一致时，则获取文件同步子服务发送的词典文件。当获取到文件同步子服务发送的词典文件时，则根据预先设置用于存储目标词典文件的位置，将目标词典文件存储至预先设置的位置。

S320、将预设位置存储的目标词典文件加锁处理，得到待读取目标词典文件。

其中，对目标词典文件加锁处理的好处在于：能够避免多个线程对目标词典文件的操作(如，写入)从而出现目标词典文件中数据错乱的问题。

具体的，在检测到目标词典文件存储至预先设置的位置时，则确定目标词典文件对应的锁的状态。当检测到目标词典文件对应的锁的状态为空闲状态时，则将目标词典文件对应的锁的状态修改为上锁状态。当检测到目标词典文件对应的锁的状态为上锁状态时，则将锁的状态为上锁状态的目标词典文件，作为待读取目标词典文件，即，可以得到待读取目标词典文件。

S330、针对各搜索引擎节点，对待读取目标词典文件加读锁，并加载待读取目标词典文件至搜索引擎节点的分词器中。

其中，搜索引擎节点的个数可以是一个或多个。对待读取目标词典文件加读锁可以理解为将待读取目标词典文件对应的锁的状态修改为读锁状态。对待读取目标词典文件加读锁的目的可以是只允许一个搜索引擎节点对目标词典文件进行读取或加载的操作。这样处理的好处在于：能够避免多个搜索引擎节点同时加载目标词典文件时，出现资源消耗多大的问题。

具体的，在得到待读取目标词典文件，将待读取目标词典文件对应的锁的状态修改为读锁状态。在检测到待读取目标词典文件对应的锁的状态为读锁状态时，将待读取目标词典文件加载至搜索引擎节点的分词器中。

S340、当检测到加载完成时，释放与待读取目标词典对应的读锁。

其中，释放与待读取目标词典对应的读锁可以理解为，将待读取目标词典对应的读锁的锁状态修改为空闲状态。

具体的，在检测到搜索引擎节点的分词器中的目标词典文件加载完成时，将待读取目标词典对应的读锁的锁状态修改为空闲状态，即，释放与待读取目标词典对应的读锁。

S350、在接收到分词指令时，基于分词器中的待读取词典文件进行分词处理。

在接收到分词指令时，确定分词器的分词规则，根据分词器的分词规则以及分词器中的待读取词典文件，进行分词处理，以得到一个或多个词语。

本实施例的技术方案，通过基于全局监控线程确定目标词典文件与当前词典文件不一致时，则获取目标词典文件，并将目标词典文件存储至预设位置。通过将预设位置存储的目标词典文件加锁处理，得到待读取目标词典文件。针对各搜索引擎节点，对待读取目标词典文件加读锁，并加载待读取目标词典文件至搜索引擎节点的分词器中。当检测到加载完成时，释放与待读取目标词典对应的读锁。在接收到分词指令时，基于分词器中的待读取词典文件进行分词处理，解决了现有技术中词典文件同步方法中需要手动加载词典文件，以及各服务器生成的词典文件不一致的技术问题，达到了各服务器生成的词典文件同步以及分词结果一致的技术效果。

实施例四

图6是本发明实施例四提供的一种词典文件同步方法流程示意图，在前述实施例的基础上，对实施例一进行了优化，其具体实施方式可以参见下述实施例。其中，与上述实施例相同或者相应的技术术语在此不再赘述。

如图6所示，本实施例的方法具体可包括：

S410、当检测到预设位置存储的目标词典文件更新时，则对目标词典文件加锁处理，得到待读取目标词典文件。

S420、将待读取目标词典文件加载至各搜索引擎节点的分词器中，以在接收到分词指令时，基于分词器中的待读取词典文件进行分词处理。

S430、在检测到搜索引擎节点加载完成后，标记搜索引擎节点，并将搜索引擎节点的节点信息存储至共享文件存储服务中，以确定搜索引擎节点中的词典文件为更新后的目标词典文件。

其中，标记搜索引擎节点可以理解为对搜索引擎的节点进行标记。搜索引擎节点的节点信息可以是各搜索引擎节点的标记信息，可以用于判断搜索引擎节点是否加载完成。

为了便于对搜索引擎节点的节点信息的统一管理，可以在将搜索引擎节点的节点信息存储至共享文件存储服务中之前，预先设置存储搜索引擎节点的节点信息的存储位置。

具体的，预先在共享文件存储服务中设置节点信息的存储位置，即预先设置存储位置。在检测到待读取目标词典文件加载至搜索引擎节点中后，将加载完成的搜索引擎节点进行标记。在检测到搜索引擎节点标记完成时，生成搜索引擎节点的节点信息。当检测到搜索引擎节点的节点信息生成时，则可以确定待读取目标词典文件已加载至搜索引擎节点中，可以将搜索引擎节点的节点信息发送于共享文件存储服务。在检测到共享文件存储服务接收到搜索引擎节点的节点信息时，根据预先设置的存储位置，将搜索引擎节点的节点信息存储至预先设置的存储位置。当检测预先设置的存储位置中存储搜索引擎节点的节点信息时，则可以确定搜索引擎节点中的词典文件为更新后的目标词典文件。

S440、当检测到预设时长内加载未完成时，则生成日志信息。

其中，日志信息中包括搜索引擎节点的节点标识以及加载用时信息。其中，搜索引擎节点的节点标识可以用于确定搜索引擎节点是否加载完成。加载用时信息可以理解为加载待读取目标词典文件至搜索引擎节点的时间信息详情。加载用时信息可以包括开始加载待读取目标词典文件时的时间信息和确定待读取目标词典文件未加载成功时对应的时间信息。

具体的，预先设置用于加载目标词典文件的时长(如，1秒)。根据预先设置的时长，在检测到预先设置的时长内搜索引擎节点的分词器中目标词典文件未加载完成时，将待读取目标词典文件未加载至搜索引擎节点的节点标识以及加载用时信息进行记录。在检测到待读取目标词典文件未加载至搜索引擎节点的节点标识以及加载用时信息记录完成时，则生成日志信息。

S450、将日志信息存储至共享文件存储服务中，以根据共享文件存储服务中存储的日志信息生成反馈至目标客户端的预警信息。

其中，预警信息可以包括未加载完成的搜索引擎节点的节点信息，可以用于提示相关工作人员及时处理异常问题。预警信息的表现形式可以有多种，例如，声音形式、震动形式以及指示灯显示形式等。反馈至目标客户端的预警信息的方式可以是语音播放提示、客户端震动提示以及客户端指示灯闪烁或以预设颜色显示等等。

具体的，根据用户实际需求，预先设置预警信息的表现形式。在检测到日志信息生成时，将日志信息存储至共享文件存储服务中。在检测到共享文件存储服务中存储日志信息时，根据共享文件存储服务中存储的日志信息，将日志信息发送至目标客户端。当目标客户端接收到日志信息时，则根据预先设置的预警信息的表现形式，展示预警信息，以提示用户及时处理异常问题。

需要说明的，各个步骤的执行顺序并非限定。

本实施例的技术方案，通过在检测到搜索引擎节点加载完成后，标记搜索引擎节点，并将搜索引擎节点的节点信息存储至共享文件存储服务中，以确定搜索引擎节点中的词典文件为更新后的目标词典文件。通过当检测到预设时长内加载未完成时，则生成日志信息。将日志信息存储至共享文件存储服务中，以根据共享文件存储服务中存储的日志信息生成反馈至目标客户端的预警信息，达到词典文件的统一管理，减少了词典文件同步的延迟时间，以及提升了异常问题处理的准确性与实时性的技术效果。

实施例五

图7是本发明实施例五提供的一种优选的词典同步方法示意图，其具体实施方式可以参见本实施例技术方案。其中，与上述实施例相同或者相应的技术术语在此不再赘述。

本实施例的方法包括：词典文件的上传至共享文件存储服务、词典文件的同步至共享文件存储服务以及词典文件的加载至搜索引擎节点的过程。

为了对词典文件进行统一管理，将词典文件的上传至共享文件存储服务，具体的过程为：通过词典数据库生成词典文件，在词典文件生成时，比较生成词典文件与共享文件存储服务中的词典文件的md5信息是否不一致。当生成词典文件与共享文件存储服务中的词典文件的md5信息不一致时，则将生成的词典文件上传至共享文件存储服务中。

为了实现搜索引擎节点中的词典文件与生成的词典文件同步的效果，可以创建词典文件分发服务；词典文件的同步的过程为：在检测到词典文件存储至共享文件存储服务中时，则通过词典文件分发服务中的文件同步子服务确定本地词典文件和共享文件存储服务中的词典文件的md5信息是否不一致。若不一致时，则基于文件同步子服务将词典文件同步至词典文件分发服务中的文件网关中，也就是将词典文件同步至词典文件分发服务中。通过词典文件分发服务将词典文件上传搜索引擎节点，以使搜索引擎节点下载词典文件。

为了便于理解，本实施例以一个搜索引擎节点为例进行说明词典文件的加载至搜索引擎节点中，即，本实施例以搜索引擎节点的索引为索引1的搜索引擎节点为例。

具体的，在检测到词典文件分发服务将词典文件上传搜索引擎节点时，下载词典文件的md5信息至搜索引擎节点。通过搜索引擎节点中的全局词典监控下载线程，确定词典文件是否发生变更。当词典文件发生变更时，则对词典文件加锁处理。在检测词典文件加锁处理完成时，将词典文件进行下载，即下载最新词典。在检测到词典文件下载完成时，对词典文件解锁处理，释放词典文件的锁。

具体的，在检测到词典文件的锁释放完成时，将搜索引擎节点中的分词器模块初始化，生成文件监控线程。在检测到生成文件监控线程生成时，将词典文件进行初始化。在检测到词典文件初始化完成时，判断词典文件是否发生变更，得到判断结果。当判断结果为词典文件发生变更，则对词典文件进行加锁，并加载最新词典生成分词器。在检测到加载完成时，则将释放词典文件的锁，在检测到词典文件的锁释放完成时，则可以基于加载最新词典文件的搜索引擎节点的分词器进行分词处理。

本实施例的技术方案，通过词典文件的上传至共享文件存储服务、词典文件的同步至共享文件存储服务以及词典文件的加载至搜索引擎节点，解决了现有技术中词典文件同步方法中需要手动加载词典文件，以及各服务器生成的词典文件不一致的技术问题，达到了各服务器生成的词典文件同步以及分词结果一致的技术效果。

实施例六

图8是本发明实施例六提供的一种词典文件同步装置模块示意图，本发明提供了一种词典文件同步装置，该装置包括：待读取目标词典文件得到模块510和分词处理模块520。

其中，待读取目标词典文件得到模块510，用于当检测到预设位置存储的目标词典文件更新时，则对所述目标词典文件加锁处理，得到待读取目标词典文件；其中，所述目标词典文件是基于预先设置的分发服务中的文件同步子服务发送的；分词处理模块520，用于将所述待读取目标词典文件加载至各搜索引擎节点的分词器中，以在接收到分词指令时，基于所述分词器中的待读取词典文件进行分词处理。

本实施例的技术方案，通过待读取目标词典文件得到模块在检测预设位置存储的目标词典文件发生了更新时，对目标词典文进行加锁处理，这样处理的好处在于避免多个线程对目标词典文件的其他操作，保证了目标词典文件的数据一致性。通过分词处理模块将待读取目标词典文件加载至各搜索引擎节点的分词器中，以在接收到分词指令时，基于分词器中的待读取词典文件进行分词处理，解决了现有技术中词典文件同步方法中需要手动加载词典文件，以及各服务器生成的词典文件不一致的技术问题，达到了各服务器生成的词典文件同步以及分词结果一致的技术效果。

可选的，该装置还包括：搜索引擎节点同步模块，用于当检测到词典数据库中的数据变化时，基于变化后的数据生成同步至搜索引擎节点的目标词典文件；将所述目标词典文件发送至共享文件存储服务中，以使分发服务同步所述共享文件存储服务中的目标词典文件，并将所述目标词典文件同步至所述搜索引擎节点。

可选的，搜索引擎节点同步模块，用于基于所述分发服务中的文件同步子服务确定所述目标词典文件和已发送词典文件的标识信息是否一致；其中，所述标识信息是基于词典文件的文件内容生成的信息；若否，则基于所述文件同步子服务将所述目标词典文件同步至所述分发服务中的文件网关。

可选的，待读取目标词典文件得到模块510，用于基于全局监控线程确定目标词典文件与当前词典文件不一致时，则获取目标词典文件，并将所述目标词典文件存储至预设位置；将所述预设位置存储的目标词典文件加锁处理，得到待读取目标词典文件。

可选的，分词处理模块520，用于针对各搜索引擎节点，对所述待读取目标词典文件加读锁，并加载待读取目标词典文件至搜索引擎节点的分词器中，以及，当检测到加载完成时，释放与所述待读取目标词典对应的读锁。

可选的，该装置还包括：词典文件确定模块，用于在检测到搜索引擎节点加载完成后，标记所述搜索引擎节点，并将所述搜索引擎节点的节点信息存储至共享文件存储服务中，以确定所述搜索引擎节点中的词典文件为更新后的目标词典文件。

可选的，该装置还包括：预警信息反馈模块，用于当检测到预设时长内加载未完成时，则生成日志信息；所述日志信息中包括搜索引擎节点的节点标识以及加载用时信息；将所述日志信息存储至共享文件存储服务中，以根据所述共享文件存储服务中存储的日志信息生成反馈至目标客户端的预警信息。

上述装置可执行本发明任意实施例所提供的词典文件同步方法，具备执行词典文件同步方法相应的功能模块和有益效果。

值得注意的是，上述词典文件同步装置所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

实施例七

图9是本发明实施例七提供的一种服务器的结构示意图。图9示出了适于用来实现本发明任一实施方式的示例性服务器12的框图。图9显示的服务器12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。设备12典型的是承担配置信息的处理的服务器。

如图9所示，服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，存储器28，连接不同组件(包括存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

服务器12典型地包括多种计算机可读介质。这些介质可以是任何能够被服务器12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机装置可读介质，例如随机存取存储器(Random Access Memory，RAM)30和/或高速缓存存储器32。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory，CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品40，该程序产品40具有一组程序模块42，这些程序模块被配置以执行本发明各实施例的功能。程序产品40，可以存储在例如存储器28中，这样的程序模块42包括但不限于一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

服务器12也可以与一个或多个外部设备14(例如键盘、鼠标、摄像头等和显示器)通信，还可与一个或者多个使得用户能与该服务器12交互的设备通信，和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与服务器12的其它模块通信。应当明白，尽管图中未示出，可以结合服务器12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)装置、磁带驱动器以及数据备份存储装置等。

处理器16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如本发明上述实施例所提供的词典文件同步方法，该方法包括：

当检测到预设位置存储的目标词典文件更新时，则对所述目标词典文件加锁处理，得到待读取目标词典文件；其中，所述目标词典文件是基于预先设置的分发服务中的文件同步子服务发送的；

当然，本领域技术人员可以理解，处理器还可以实现本发明任一实施例所提供的词典文件同步方法的技术方案。

实施例八

本发明实施例八还提供一种计算机可读存储介质，其上存储有计算机程序，特征在于，该程序被处理器执行时，例如本发明上述实施例所提供的词典文件同步方法，该方法包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种词典文件同步方法，其特征在于，应用于分布式搜索引擎中，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

当检测到词典数据库中的数据变化时，基于变化后的数据生成同步至搜索引擎节点的目标词典文件；

将所述目标词典文件发送至共享文件存储服务中，以使分发服务同步所述共享文件存储服务中的目标词典文件，并将所述目标词典文件同步至所述搜索引擎节点。

3.根据权利要求2所述的方法，其特征在于，所述分发服务同步所述共享文件存储服务中的目标词典文件，包括：

基于所述分发服务中的文件同步子服务确定所述目标词典文件和已发送词典文件的标识信息是否一致；其中，所述标识信息是基于词典文件的文件内容生成的信息；

若否，则基于所述文件同步子服务将所述目标词典文件同步至所述分发服务中的文件网关。

4.根据权利要求1所述的方法，其特征在于，所述当检测到预设位置存储的目标词典文件更新时，则对所述目标词典文件加锁处理，得到待读取目标词典文件，包括：

基于全局监控线程确定目标词典文件与当前词典文件不一致时，则获取目标词典文件，并将所述目标词典文件存储至预设位置；

将所述预设位置存储的目标词典文件加锁处理，得到待读取目标词典文件。

5.根据权利要求1所述的方法，其特征在于，所述将所述待读取目标词典文件加载至各搜索引擎节点的分词器中，包括：

针对各搜索引擎节点，对所述待读取目标词典文件加读锁，并加载待读取目标词典文件至搜索引擎节点的分词器中，以及，当检测到加载完成时，释放与所述待读取目标词典对应的读锁。

6.根据权利要求1所述的方法，其特征在于，还包括：

在检测到搜索引擎节点加载完成后，标记所述搜索引擎节点，并将所述搜索引擎节点的节点信息存储至共享文件存储服务中，以确定所述搜索引擎节点中的词典文件为更新后的目标词典文件。

7.根据权利要求1所述的方法，其特征在于，还包括：

当检测到预设时长内加载未完成时，则生成日志信息；所述日志信息中包括搜索引擎节点的节点标识以及加载用时信息；

将所述日志信息存储至共享文件存储服务中，以根据所述共享文件存储服务中存储的日志信息生成反馈至目标客户端的预警信息。

8.一种词典文件同步装置，其特征在于，包括：

9.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述程序被所述处理器执行，使得所述处理器实现如权利要求1-7中任一所述的词典文件同步方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的词典文件同步方法。