CN111931491A

CN111931491A - 领域词典构建方法及装置

Info

Publication number: CN111931491A
Application number: CN202010820291.4A
Authority: CN
Inventors: 张文慧; 范晓东; 李羊; 唐伟佳
Original assignee: ICBC Technology Co Ltd
Current assignee: Industrial and Commercial Bank of China Ltd ICBC; ICBC Technology Co Ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-13
Anticipated expiration: 2040-08-14
Also published as: CN111931491B

Abstract

本申请实施例提供了一种领域词典构建方法及装置，涉及人工智能技术领域。所述方法包括：获取原始事务语料；对所述原始事务语料进行字符处理，获得待分词事务语料；对所述待分词事务语料进行n‑gram分词处理，得到该待分词事务语料的多个词片段；获取各个所述词片段的统计指标值，将统计指标值大于组合阈值的词片段作为过滤后词片段；对所述过滤后词片段进行切分处理，判断切分处理后得到的各个第一切分词是否均为完整词汇，若否，则将所述过滤后词片段作为第一领域词，以构建目标事务领域词典。本申请可以基于篇幅短、结构化存储且无标注的语料得到领域词，过程高效且准确，进而能够保证事务领域词典的可靠性。

Description

领域词典构建方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种领域词典构建方法及装置。

背景技术

领域词典是指特定领域特有的术语或表达方式的组合，传统领域词典构建方式基本上都是基于规则和统计来完成。一般方法为根据句型特点和词性特点结合语法规则，再配合TF-IDF(term frequency–inverse document frequency)统计值等进行筛选，然后在筛选词的基础上进行人工复检。这种方法的弊端是不同领域的句型特点和词性特点不一样，复用性不好，除此之外对语料篇幅也有一定的要求，一般来说更加适合篇幅较长的文档型语料。

引入词的向量表示之后，人们开始从有监督和无监督两个方面来探索构建领域词典的方法。有监督训练需要建立在大量标注好的领域词标签基础之上，和传统方式相比，其识别的准确率虽然提升了，但是需要付出大量的人力成本来做标签标注。

无监督方法是通过“种子词+词编码”，计算领域语料中的词和种子词之间的向量相似度，再加上词频排序等方式，从而可以挖掘出领域语料中的领域词。但是这种方式实现的前提是要先有一批该领域的领域种子词才行。对于以下几种情况，上述方法在实现上是有困难的，影响构建领域词典的准确性和效率：

(1)没有适合的文档型语料：在事务数据库中以结构化的方式存储的语料：缺乏文档型语料；(2)没有篇幅长的语料：在构成上以“办理事项”+“办理角度”作为主键来唯一确定一条语料，在有限的“办理角度”子集下，对应的答案内容表现出简短，不成句，且雷同的情况；(3)人工标注领域词困难：语料中内容涉及“办理事项”涵盖医疗、保险、金融和贸易等多个领域，人工进行领域词标注比较困难。

发明内容

针对现有技术中的问题，本申请提出了一种领域词典构建方法及装置，可以基于篇幅短、结构化存储且无标注的语料得到领域词，过程高效且准确，进而能够保证事务领域词典的可靠性。

为了解决上述技术问题，本申请提供以下技术方案：

第一方面，本申请提供一种领域词典构建方法，包括：

获取原始事务语料；

对所述原始事务语料进行字符处理，获得待分词事务语料；

对所述待分词事务语料进行n-gram分词处理，得到该待分词事务语料的多个词片段；

获取各个所述词片段的统计指标值，将统计指标值大于组合阈值的词片段作为过滤后词片段；

对所述过滤后词片段进行切分处理，判断切分处理后得到的各个第一切分词是否均为完整词汇，若否，则将所述过滤后词片段作为第一领域词，以构建目标事务领域词典。

进一步地，所述对所述原始事务语料进行字符处理，获得待分词事务语料，包括：将所述原始事务语料中的符号作为分隔符，应用该分隔符切分所述原始事务语料，获得所述待分词事务语料。

进一步地，所述获取各个所述词片段的统计指标值，包括：获取各个所述词片段的凝固度和第一词频；基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、左邻字个数以及每个左邻字词频，得到各个所述词片段的左自由度；基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、右邻字个数以及每个右邻字词频，得到各个所述词片段的右自由度；将各个所述词片段的凝固度、第一词频、左自由度和右自由度的总和作为各个所述词片段的统计指标值。

进一步地，在所述将所述过滤后词片段作为第一领域词之后，还包括：应用所述第一领域词对所述原始事务语料进行句子切分，获得第二切分词；对所述第二切分词和所述第一领域词进行回溯处理，将回溯处理的结果作为第二领域词，以构建目标事务领域词典。

第二方面，本申请提供一种领域词典构建装置，包括：

获取模块，用于获取原始事务语料；

字符处理模块，用于对所述原始事务语料进行字符处理，获得待分词事务语料；

分词处理模块，用于对所述待分词事务语料进行n-gram分词处理，得到该待分词事务语料的多个词片段；

阈值判断模块，用于获取各个所述词片段的统计指标值，将统计指标值大于组合阈值的词片段作为过滤后词片段；

第一构建模块，用于对所述过滤后词片段进行切分处理，判断切分处理后得到的各个第一切分词是否均为完整词汇，若否，则将所述过滤后词片段作为第一领域词，以构建目标事务领域词典。

进一步地，所述字符处理模块，包括：字符处理单元，用于将所述原始事务语料中的符号作为分隔符，应用该分隔符切分所述原始事务语料，获得所述待分词事务语料。

进一步地，所述阈值判断模块，包括：获取单元，用于获取各个所述词片段的凝固度和第一词频；获取左自由度单元，用于基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、左邻字个数以及每个左邻字词频，得到各个所述词片段的左自由度；获取右自由度单元，用于基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、右邻字个数以及每个右邻字词频，得到各个所述词片段的右自由度；获得指标值单元，用于将各个所述词片段的凝固度、第一词频、左自由度和右自由度的总和作为各个所述词片段的统计指标值。

进一步地，所述的领域词典构建装置，还包括：获得切分词模块，用于应用所述第一领域词对所述原始事务语料进行句子切分，获得第二切分词；第二构建模块，用于对所述第二切分词和所述第一领域词进行回溯处理，将回溯处理的结果作为第二领域词，以构建目标事务领域词典。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的领域词典构建方法。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述的领域词典构建方法。

由上述技术方案可知，本申请提供一种领域词典构建方法及装置。其中，该方法包括：获取原始事务语料；对所述原始事务语料进行字符处理，获得待分词事务语料；对所述待分词事务语料进行n-gram分词处理，得到该待分词事务语料的多个词片段；获取各个所述词片段的统计指标值，将统计指标值大于组合阈值的词片段作为过滤后词片段；对所述过滤后词片段进行切分处理，判断切分处理后得到的各个第一切分词是否均为完整词汇，若否，则将所述过滤后词片段作为第一领域词，以构建目标事务领域词典，可以基于篇幅短、结构化存储且无标注的语料得到领域词，过程高效且准确，进而能够保证事务领域词典的可靠性；具体地，能够解决现有领域词典构建方法不适用于语料篇幅少、结构化存储以及人工标注困难的事务领域的问题，1、确保在符号有含义情况下语料中的句子独立性。2、可应用于篇幅少且结构化的文本语料。3、能够提高邻字自由度指标计算的精度。4、能够提高构建的领域词库中词片段成词的精度。5、无需对领域词进行人工标注，能够提高效率，节省成本。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例中领域词典构建方法的流程示意图；

图2是本申请另一实施例中领域词典构建方法的流程示意图；

图3是本申请实施例中领域词典构建方法的步骤301至步骤304的流程示意图；

图4是本申请实施例中领域词典构建方法的步骤401和步骤402的流程示意图；

图5是本申请应用实例中领域词典构建方法的流程示意图；

图6是本申请应用实例中获得凝固值过程的流程示意图；

图7是本申请应用实例中获得自由度过程的流程示意图；

图8是本申请应用实例中过滤过程的流程示意图；

图9是本申请实施例中领域词典构建装置的结构示意图；

图10为本申请实施例的电子设备的系统构成示意框图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了解决语料篇幅短，涵盖业务范围广导致和当前领域词构建方法要求不匹配的问题，考虑从改变现有的领域词典构建方式出发，结合“新词发现”技术，提出一种领域词典构建方法及装置。“新词发现”是一种无监督的词提取方式，来源于网络文本的新词提取。该方式是从信息论的角度出发，以“信息熵最小化”的目的在句子的字之间相关性最低的地方进行切分，从而获取新词。这种方式不依赖已有的任何词库，仅根据词的共同特征，将语料中可能成词的片段提取出来，然后通过和已有词库进行比较就可以得到新词了，成词可以表示对应的词片段可以作为领域词，新词可以表示新增的领域词。本申请领域词典构建流程包含字符处理、词切分、指标计算、过滤、句子切分和回溯等。字符处理部分实现对句子中标点符号的过滤；词切分部分实现最大限度获取句子中的词片段；指标计算部分基于信息熵构建了凝固度和自由度两个用来判断是否成词的指标；过滤部分是对切分词片段的筛选；句子切分部分是以筛选出来的词片段作为边界重新对句子进行切分，然后通过回溯的方式找出重新切分后的词片段中的成词片段，能够很好的解决领域词构建方法和事务领域语料库之间不匹配的问题。

具体通过下述各个实施例进行说明。

如图1所示，本实施例提供一种执行主体是领域词典构建装置的领域词典构建方法，该领域词典构建装置包括但不限于服务器，该方法具体包含有如下内容：

步骤101：获取原始事务语料。

具体地，服务器可以从事务数据库中获取事务领域的语料，作为原始事务语料，该事务领域的语料可以以结构化的方式存储在事务数据库中；所述原始事务语料可以是包含有符号的中文语料；可以以“办理事项”+“办理角度”作为主键来唯一确定一条原始事务语料，事务领域中“办理事项”涵盖医疗、保险、金融和贸易等多个领域，由此可知，所述原始事务语料具有篇幅短且涵盖业务范围广的特点。

例如：所述原始事务语料A为：成品油零售经营资格审批---加油站原址改扩建审批。

步骤102：对所述原始事务语料进行字符处理，获得待分词事务语料。

其中，字符处理是针对原始事务语料中符号的处理，字符处理可以实现对原始事务语料中标点符号的过滤。对所述原始事务语料进行字符处理，可以获得多条待分割语料，所述待分词事务语料可以为去除标点符号后得到的事务语料。

例如：原始事务语料A对应的两个待分词事务语料为：成品油零售经营资格审批，加油站原址改扩建审批。

步骤103：对所述待分词事务语料进行n-gram分词处理，得到该待分词事务语料的多个词片段。

具体地，n-gram分词处理顺次将所述待分词事务语料中临近的n个汉字聚集起来，组成一个词片段，能够最大限度获取待分词事务语料的词片段，可以设置n的最大长度为5，n-gram分词处理得到的各个词片段的词长可以为2至5。

例如：待分词事务语料为：成品油零售经营资格审批；n为2时，可以得到以下10个词片段：成品、品油、油零、零售、售经、经营、营资、资格、格审和审批。

步骤104：获取各个所述词片段的统计指标值，将统计指标值大于组合阈值的词片段作为过滤后词片段。

具体地，所述统计指标值可以是所述词片段的凝固度、词频和自由度的总和，所述组合阈值可以是词频阈值、凝固度阈值和自由度阈值的总和。

步骤105：对所述过滤后词片段进行切分处理，判断切分处理后得到的各个第一切分词是否均为完整词汇，若否，则将所述过滤后词片段作为第一领域词，以构建目标事务领域词典。

具体地，可以对各个所述过滤后词片段分别进行切分处理，判断同一过滤后词片段对应的各个第一切分词是否均为完整词汇，若否，则将所述过滤后词片段作为领域词；在构建目标事务领域词典之后，所述目标事务领域词典可以被应用于机器翻译、信息检索、数据挖掘和文本分类等场景。切分处理后得到的各个第一切分词均为完整词汇可以表示所述过滤后词片段可以切分和/或任一所述第一切分词可以切分；所述对所述过滤后词片段进行切分处理，可以包括：

筛选出词长大于1且不超过词长阈值的过滤后词片段，作为第一过滤后词片段；作为优选，将该词长阈值设置为3；应用预设的分词工具对所述第一过滤后词片段进行切分，该分词工具可以是开源的中文分词工具，如结巴分词工具或HanLP中文分词工具等，词长可以是过滤后词片段中汉字的个数。筛选出词长超过所述词长阈值的过滤后词片段，作为第二过滤后词片段；将所述第二过滤后词片段切分成多个第二切分词，该第二切分词的词长大于1且不超过所述词长阈值。

由上述描述可知，本实施例提供的领域词典构建方法，涉及一种无监督的词提取方式，可以基于篇幅短、结构化存储且无标注的语料得到领域词，过程高效且准确，进而能够保证事务领域词典的可靠性。特别是在将统计指标值大于组合阈值的词片段作为过滤后词片段之后，按照对所述过滤后词片段进行切分处理，能够进一步提高过滤后词片段的可靠性，进一步地，还能够提高接下来应用事务领域词典进行文本识别或机器翻译的可靠性。

字符处理过程主要针对的是符号的处理，当原始语料为web文本时可以直接过滤符号的方式来处理文本中的符号，在web文本类型的文档中，对于符号使用的意义具有随机性，比如用符号来表示表情，像社交媒体中有大量这样的符号。但是对于有含义的符号，符号的加入可能会引入额外的信息，一般是对事项内容的补充和完善。如果采用“直接过滤符号”的方式，在计算自由度指标时，会给一些词片段增加不合理的邻字，举例来说，原始事务语料A：成品油零售经营资格审批---加油站原址改扩建审批，去符号之后变为：成品油零售经营资格审批加油站原址改扩建审批，对于“审批”这个词片段，会出现新的右邻字“加”，但是从原始事务语料A的表述来看“审批”是没有右邻字的。基于此，参见图2，在本申请一个实施例中，步骤102包括：

步骤201：将所述原始事务语料中的符号作为分隔符，应用该分隔符切分所述原始事务语料，获得所述待分词事务语料。

具体地，采取字符切分过滤的方法，将符号作为分隔符，对原始事务语料进行分割，能够保证符号对应的待分词事务语料和原始事务语料相互独立存在。所述符号可以是标点符号，常用符号为：“()”，“《》”，“——”和“、”等。

由上述描述可知，本实施例提供的领域词典构建方法，适用于事务领域，将所述原始事务语料中的符号作为分隔符，对所述原始事务语料进行切分处理，获得所述待分词事务语料，能够提高获取领域词的精度，进而能够保证事务领域词典的可靠性；具体地，可以避免在接下来获取自由度指标时，给一些词片段增加不合理的邻字，能够确保在符号有含义情况下，待分词事务语料的独立性。

参见图3，在本申请一个实施例中，步骤104中所述的获取各个所述词片段的统计指标值，包括：

步骤301：获取各个所述词片段的凝固度和第一词频。

具体地，扫描所有词片段，统计每个词片段出现的次数，记为词片段的第一词频；所述凝固度可以反映词片段中字与字之间的紧密程度。

凝固度的计算公式来源于信息论中的互信息，互信息是对两个事件X和Y的所有可能的情况的点互信息PMI的加权和。例如：词片段“abc”，其中“a”、“b”、“c”分别表示词片段“abc”中的一个汉字。以3-gram为例，所述词片段的凝固度计算公式为：

其中，使用log函数式是为了对不同量级词片段的凝固度的计算结果进行标准化，使其控制在0-1之间。

步骤302：基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、左邻字个数以及每个左邻字词频，得到各个所述词片段的左自由度。

1)具体地，自由度可以反映一个词片段能独立自由运用的程度，表示其是否可以灵活出现在不同的句子环境中，具体表现在是否具有丰富的左右邻字集合。自由度可以包括左自由度和右自由度。所述左邻字词频为一个左邻字在所述待分词事务语料中出现的次数。可以扫描所有词片段，统计每个词片段在待分词事务语料的中间位置出现的次数，记为词片段的第二词频，所述待分词事务语料的位置包括：起始位置、结束位置和中间位置；在信息论中，以信息熵来衡量，获取词片段左自由度的公式如下：

当词片段位于待分词事务语料的起始位置时是没有左邻字的，当词片段位于待分词事务语料的终止位置时是没有右邻字的，因此在公式中计算词片段出现总次数即词片段词频时，如果判断得到词片段出现在句子的起始或者终止位置，是不计入到总数中的。

步骤303：基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、右邻字个数以及每个右邻字词频，得到各个所述词片段的右自由度。

具体地，以与得到左自由度相同的方式，可以得到词片段的右自由度。

步骤304：将各个所述词片段的凝固度、第一词频、左自由度和右自由度的总和作为各个所述词片段的统计指标值。

具体地，将所述词片段的凝固度、第一词频、左自由度和右自由度的总和，作为该词片段的统计指标值。

由上述描述可知，本实施例提供的领域词典构建方法，在获取词片段的自由度时，既考虑邻字的数量情况，又考虑邻字的位置情况，能够提高自由度指标的精度，进而提高获取领域词的准确性。

参见图4，在本申请一个实施例中，在步骤105所述的将所述过滤后词片段作为第一领域词之后，还包括：

步骤401：应用所述第一领域词对所述原始事务语料进行句子切分，获得第二切分词。

具体地，计算原始事务语料中的每个字在第一领域词中出现的次数。只有当原始事务语料中某一个片段的词出现次数为0的时候，才进行切分，次数为0表示相关性弱。过滤掉句子切分后得到的切分词中字数为1的单字词。

例如，原始事务语料B为：事业单位变更登记，可以用一个0值的列表[0000000]来表示原始事务语料B的初始状态。通过判断切分处理后得到的各个第一切分词是否均为完整词汇，可以从各个过滤后词片段中筛选出多个第一领域词，作为n-gram词片段集，n-gram词片段集由2-gram词片段子集、3-gram词片段子集……n-gram词片段子集组成。判断“事业”这个切分词是否在2-gram词片段子集中，若是，则“事”对应位置+1；若否，则判断“事业单”这个切分词在不在3-gram词片段子集中，若是，则在“事业”对应位置分别+1，以此类推，若得到原始事务语料B对应的最终结果为[3445431]，状态从全为0变成了均大于1的状态，则无需对原始事务语料B进行切分，将原始事务语料B的整体作为一个第二切分词。

步骤402：对所述第二切分词和所述第一领域词进行回溯处理，将回溯处理的结果作为第二领域词，以构建目标事务领域词典。

具体地，获取词长不大于n且包含在n-gram词片段集的第二切分词，以及词长大于n且每个n字片段均在n-gram词片段集中的第二切分词，可以将这两种所述第二切分词作为第二领域词，应用所述第一领域词和/或第二领域词构建目标事务领域词典；还可以将这两种第二切分词与所述第一领域词进行去重合并，得到的结果作为第二领域词，应用第二领域词构建目标事务领域词典。

由上述描述可知，本实施例提供的领域词典构建方法，在确定各个第一切分词均为完整词汇之后，基于句子切分和回溯处理方式，应用所述过滤后词片段和原始事务语料得到第二领域词，能够进一步提高领域词的可靠性。

为了进一步说明本方案，本申请还提供一种领域词典构建方法的应用实例，(1)在字符处理部分：采用切分符号过滤方法。(2)在词切分部分：采用n-gram词分割方法。(3)在指标计算部分：内部凝固度阈值设置更加宽容，自由度指标计算考虑词片段是否在句子中的起始或者结束位置。(4)在过滤部分：在阈值过滤的基础之上再添加切分过滤作为辅助。(5)句子切分和回溯。参见图5，该方法具体描述如下：

S1：字符处理：采取“字符切分过滤”的方法，该方法就是将符号作为分隔符，对事务事项的句子进行分割。可以保证符号对应的内容可以和原始事项相互独立存在。

S2：词分割：为了可以获取到句子中所有的词片段，采用n-gram词切割，n设置的越大，可分割的词片段就越多。根据经验值，设置n的最大长度为5。

S3：指标计算：在指标计算部分除了通用的词频统计指标，即上述第一词频之外，还有凝固度和自由度。

(1)凝固度：对于不同的n-gram设定的凝固度阈值也是不同的。在一般的方法中，n越大，对应设置凝固度阈值也越大。这是因为在开放域文本进行“新词发现”，受长文本篇幅的影响，在n越大时，需要设置较高的凝固度阈值，以确保成词的可能性。事务领域的事项文本本身是从结构化的数据库中获取的，事项文本的内容所涵盖的业务广，但数量少。新词出现的频率低，成词的可能性高，因此n越大，对其n-gram词片段的凝固度阈值要越低也就是越宽容，说明该词片段越特殊，越能体现事务领域的事项特点。参见图6，获取凝固度的过程具体如下：

S11：词片段分割子集；S12词频统计；S13：凝固度；S14：阈值判断：n越大，甚至凝固度阈值越低。

(2)自由度：当词片段位于句子的起始位置时是没有左邻字的，当词片段位于句子的终止位置时是没有右邻字的，因此在计算词片段出现总次数时，如果判断词片段出现在句子的起始或者终止位置，是不计入到总数中的。参见图7，获取自由度的过程具体如下：

S31：词频统计：应用词片段进行词频统计；S32：词片段位置判断；S33：词频重新计算；S34：左邻字集合：获取左邻字集合；S35：左自由度：得到左自由度；S36：右邻字集合：获取右邻字集合；S37：右自由度：得到右自由度。

S4：过滤：过滤是指基于词片段的指标值的计算结果进行阈值过滤,参见图8，过滤过程包括：S51：指标值求和；S52：判断是否大于组合阈值，若是，则执行步骤S53，若否，则不成词；S53：判断词片段长度是否大于3，若否，则执行步骤S54；若是，则执行步骤S55；S54：分词工具切分，S54结束后，执行S57；S55：按照长度为2和3分割；S56：词分割子集，S56结束后，执行S54；S57：判断是否可以切分，若是，则成词，若否，则不成词。

采用基于组合阈值的过滤方式，对所有指标进行标准化之后，设定各个指标计算值的和的阈值标准，公式为：组合阈值＝词频阈值+凝固度阈值+自由度阈值。若仅基于组合阈值过滤存在的弊端是虽然某些词片段的指标组合值大于阈值，但是会因为个别指标值过低，而导致不成词。因此在阈值过滤方法的基础之上添加“切分过滤”。之所以可以这样做的是因为：

1)在事务领域中，其所谓的新词，其实是来自各个领域的专业名词，比如说金融领域的“信托公司”，医疗领域的“放射诊疗”等。2)在事务领域，更加侧重的是这些领域名字对应事项的办理，所以，常常会和办事类的词组合在一起，比如说“安全生产许可证核发”，“社会保险缴费”等。基于以上的这两个特点，就很好判断不成词的词片段了，也就是说对词片段再分词之后，对应的切分词是一个完整的词，可以使用分词工具判断切分词是不是完整的词。具体实现步骤为：

1)筛选出词长为2和3的词片段：使用分词工具对其进行切分，如果该词片段可以切分，则判断其不成词；反之，成词。

2)筛选出词长为大于3的词片段，预先设置n-gram切分处理中n为5，所以需要切分词长为4和5的词片段。当词片段abcd长度为4的时候，按照ab/cd的方式切分。只有当ab和cd都不可切分的时候，判定abcd成词；反之，abcd不成词。当词片段abcde长度为5的时候，按照abc/de或者ab/cde的方式切分。只要有一组切分方式中的切分词不可切分，则判定成词；反之，不成词。

S5：句子切分：句子切分就是基于步骤S4过滤出来的词片段对原始句子进行切分，等同于分词。

S6：回溯：回溯就是检查，如果切分词是一个小于等于n字的词，那么检测它在不在n-gram词片段集合中，不在就出局；如果它是一个大于n字的词，那个检测它每个n字片段是不是在n-gram词片段集合中，只要有一个片段不在，就出局。

S7：去重：通过以上步骤，获取得到两部分的词片段集合，一部分是通过过滤得到的，一部分是通过句子切分得到的，最后对这两部分的词片段进行去重合并即可得到领域词。

S8：人工核验：在步骤S7之后，可以对去重合并后的结果进行人工核验，以提高领域词的可靠性。

最终得到领域词库，即上述目标事务领域词典。

从软件层面来说，为了提高获取领域词的精度，进而保证事务领域词典的可靠性，本申请提供一种用于实现所述领域词典构建方法中全部或部分内容的领域词典构建装置的实施例，参见图9，所述领域词典构建装置具体包含有如下内容：

获取模块10，用于获取原始事务语料。

字符处理模块20，用于对所述原始事务语料进行字符处理，获得待分词事务语料。

分词处理模块30，用于对所述待分词事务语料进行n-gram分词处理，得到该待分词事务语料的多个词片段。

阈值判断模块40，用于获取各个所述词片段的统计指标值，将统计指标值大于组合阈值的词片段作为过滤后词片段。

第一构建模块50，用于对所述过滤后词片段进行切分处理，判断切分处理后得到的各个第一切分词是否均为完整词汇，若否，则将所述过滤后词片段作为第一领域词，以构建目标事务领域词典。

在本申请一个实施例中，所述字符处理模块，包括：

字符处理单元，用于将所述原始事务语料中的符号作为分隔符，应用该分隔符切分所述原始事务语料，获得所述待分词事务语料。

在本申请一个实施例中，所述阈值判断模块，包括：

获取单元，用于获取各个所述词片段的凝固度和第一词频。

获取左自由度单元，用于基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、左邻字个数以及每个左邻字词频，得到各个所述词片段的左自由度。

获取右自由度单元，用于基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、右邻字个数以及每个右邻字词频，得到各个所述词片段的右自由度。

获得指标值单元，用于将各个所述词片段的凝固度、第一词频、左自由度和右自由度的总和作为各个所述词片段的统计指标值。

在本申请一个实施例中，所述的领域词典构建装置，还包括：

获得切分词模块，用于应用所述第一领域词对所述原始事务语料进行句子切分，获得第二切分词。

第二构建模块，用于对所述第二切分词和所述第一领域词进行回溯处理，将回溯处理的结果作为第二领域词，以构建目标事务领域词典。

本说明书提供的领域词典构建装置的实施例具体可以用于执行上述领域词典构建方法的实施例的处理流程，其功能在此不再赘述，可以参照上述领域词典构建方法实施例的详细描述。

由上述描述可知，本申请提供的领域词典构建方法及装置，可以基于篇幅短、结构化存储且无标注的语料得到领域词，过程高效且准确，进而能够保证事务领域词典的可靠性；具体地，1、确保在符号有含义情况下语料中的句子独立性。2、可应用于篇幅少且结构化的文本语料。3、能够提高邻字自由度指标计算的精度。4、能够提高构建的领域词库中词片段成词的精度。5、无需对领域词进行人工标注，能够提高效率，节省成本。

从硬件层面来说，为了提高获取领域词的精度，进而保证事务领域词典的可靠性，本申请提供一种用于实现所述领域词典构建方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现所述领域词典构建装置以及用户终端等相关设备之间的信息传输；该电子设备可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该电子设备可以参照实施例用于实现所述领域词典构建方法的实施例及用于实现所述领域词典构建装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

图10为本申请实施例的电子设备9600的系统构成的示意框图。如图10所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图10是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在本申请一个或多个实施例中，领域词获取功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：

步骤101：获取原始事务语料。

从上述描述可知，本申请的实施例提供的电子设备，可以基于篇幅短、结构化存储且无标注的语料得到领域词，过程高效且准确，进而能够保证事务领域词典的可靠性。

在另一个实施方式中，领域词典构建装置可以与中央处理器9100分开配置，例如可以将领域词典构建装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现领域词获取功能。

如图10所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图10中所示的所有部件；此外，电子设备9600还可以包括图10中没有示出的部件，可以参考现有技术。

如图10所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

上述描述可知，本申请的实施例提供的电子设备，可以基于篇幅短、结构化存储且无标注的语料得到领域词，过程高效且准确，进而能够保证事务领域词典的可靠性。

本申请的实施例还提供能够实现上述实施例中的领域词典构建方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的领域词典构建方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤101：获取原始事务语料。

从上述描述可知，本申请实施例提供的计算机可读存储介质，可以基于篇幅短、结构化存储且无标注的语料得到领域词，过程高效且准确，进而能够保证事务领域词典的可靠性。

本申请中上述方法的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种领域词典构建方法，其特征在于，包括：

获取原始事务语料；

对所述原始事务语料进行字符处理，获得待分词事务语料；

2.根据权利要求1所述的领域词典构建方法，其特征在于，所述对所述原始事务语料进行字符处理，获得待分词事务语料，包括：

将所述原始事务语料中的符号作为分隔符，应用该分隔符切分所述原始事务语料，获得所述待分词事务语料。

3.根据权利要求1所述的领域词典构建方法，其特征在于，所述获取各个所述词片段的统计指标值，包括：

获取各个所述词片段的凝固度和第一词频；

基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、左邻字个数以及每个左邻字词频，得到各个所述词片段的左自由度；

基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、右邻字个数以及每个右邻字词频，得到各个所述词片段的右自由度；

将各个所述词片段的凝固度、第一词频、左自由度和右自由度的总和作为各个所述词片段的统计指标值。

4.根据权利要求1所述的领域词典构建方法，其特征在于，在所述将所述过滤后词片段作为第一领域词之后，还包括：

应用所述第一领域词对所述原始事务语料进行句子切分，获得第二切分词；

对所述第二切分词和所述第一领域词进行回溯处理，将回溯处理的结果作为第二领域词，以构建目标事务领域词典。

5.一种领域词典构建装置，其特征在于，包括：

获取模块，用于获取原始事务语料；

6.根据权利要求5所述的领域词典构建装置，其特征在于，所述字符处理模块，包括：

7.根据权利要求5所述的领域词典构建装置，其特征在于，所述阈值判断模块，包括：

获取单元，用于获取各个所述词片段的凝固度和第一词频；

获取左自由度单元，用于基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、左邻字个数以及每个左邻字词频，得到各个所述词片段的左自由度；

获取右自由度单元，用于基于各个所述词片段的第二词频、在所述待分词事务语料中的位置、右邻字个数以及每个右邻字词频，得到各个所述词片段的右自由度；

8.根据权利要求5所述的领域词典构建装置，其特征在于，还包括：

获得切分词模块，用于应用所述第一领域词对所述原始事务语料进行句子切分，获得第二切分词；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4任一项所述的领域词典构建方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现权利要求1至4任一项所述的领域词典构建方法。