CN109918658A

CN109918658A - 一种从文本中获取目标词汇的方法及系统

Info

Publication number: CN109918658A
Application number: CN201910152477.4A
Authority: CN
Inventors: 曾俊瑀; 张文斌; 贾显伏; 乔咏田; 邢毅帆
Original assignee: Yunfu Technology (beijing) Co Ltd
Current assignee: Yunfu Technology (beijing) Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-06-21
Anticipated expiration: 2039-02-28
Also published as: CN109918658B

Abstract

本发明公开的从文本中获取目标词汇的方法及系统，涉及数据处理技术领域，通过删除文本中的空白符号，将文本中的标点符号设置为空格符号，在文本的首部及尾部添加空格符号，设定文本片段的最大长度为K，根据最大长度K对文本进行分割，生成多个长度不大于K的文本片段，分别计算各个文本片段的聚合度、左熵及右熵，根据公式Score＝(left_entropy+right_entropy)×aggregation×frequence，分别计算各个文本片段的综合分数，选取综合分数大于设定阈值的文本片段，得到候选词汇，将候选词汇与通用词表进行对比，识别候选词汇与通用词表之间存在的不同的词汇并将该词汇作为目标词汇，提高了获取目标词汇的准确度及效率。

Description

一种从文本中获取目标词汇的方法及系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种从文本中获取目标词汇的方法及系统。

背景技术

在中文的自然语言处理中，对文本处理的第一步是分词，分词的重要基础就是词典。

现有的词典存在的一个重大缺陷就是词普遍老旧，未能及时收录新出现的词语，导致对一些新词汇进行切分时效果不佳。中文环境下每天都有大量的新词汇出现，例如网络新词、机构名、品牌名、人名、缩略词等等，这些新词汇的产生机制完全无规律可寻。因此，研发一套自动识别并收录新词汇的系统对分词工作非常重要。

目前新词汇的识别方法主要通过计算文本片段的左熵、右熵、聚合度、词频等属性以实现从大规模语料中识别出新词汇。但是在文本语料规模比较大的情况下对文本进行切分会产生巨量的文本片段，对每个文本片段都需要统计出左邻字集合及右邻字集合，进而计算出每个文本片段的左熵及右熵，整个计算过程要耗费非常多的时间。另外，在对文本预处理时会将文本中的标点符号删除，丢失了文本片段的位置信息导致识别准确度不高。

发明内容

为解决现有技术的不足，本发明实施例提供了一种从文本中获取目标词汇的方法及系统。

第一方面，本发明实施例提供了一种从文本中获取目标词汇的方法，该方法包括：

删除文本中的空白符号，其中，所述空白符号包括换行符；

将所述文本中的标点符号设置为空格符号；

在所述文本的首部及尾部添加空格符号；

设定文本片段的最大长度为K，根据所述最大长度K对所述文本进行分割，生成多个长度不大于K的文本片段；

分别计算各个文本片段的聚合度、左熵及右熵，其中，所述聚合度的计算公式分别为：

,其中，p(a₁)、p(a₁a₂)…p(a₁a₂...a_k)及p(a₁a₂...a_k)分别为文本片段a₁、a₁a₂…a₁a₂...a_k在文本中所占的比例；所述左熵及所述右熵的计算公式均为：其中，当entropy代表左熵时，假设当前文本片段左邻字构成的集合为D，将每个相同的字归为一类，总的类别数目为N，p_i为第i类文字所占的比例为(i＝1,2,……,N)；

根据公式

Score＝(left_entropy+right_entropy)×aggregation×frequence，分别计算各个文本片段的综合分数，其中，Score、left_entropy、right_entropy、aggregation及frequence分别代表各个文本片段的综合分数、左熵、右熵及在文本中的出现次数；

选取综合分数大于设定阈值的文本片段，得到候选词汇；

将所述候选词汇与通用词表进行对比，获取所述候选词汇与所述通用词表之间存在的不同的词汇并将所述词汇作为目标词汇。

进一步地，在分别设定文本片段的最大长度为K，根据所述长度对所述文本进行分割，生成多个长度不大于K的文本片段之后，所述方法还包括：

分别获取各个文本片段的包含数词的左邻字集合并统计所述左邻字集合的个数，若所述个数大于设定的阈值，则过滤掉所述文本片段。

进一步地，在分别计算各个文本片段的聚合度、左熵及右熵之后，所述方法还包括：

获取聚合度、左熵及右熵大于设定阈值的文本片段；

分别获取各个文本片段的左邻字集合及右邻字集合，判断所述左邻字集合及所述左邻字集合中是否存在停用词，若是，则过滤掉所述文本片段。

进一步地，分别计算各个文本片段的聚合度、左熵及右熵包括：

若两个或多个文本片段的首位字符相同，则确定所述两个或多个文本片段具有相同的左熵；

若两个或多个文本片段的末位字符相同，则确定所述两个或多个文本片段具有相同的右熵。

第二方面，本发明实施例提供了一种从文本中获取目标词汇的系统，该系统包括：

删除模块，用于删除文本中的空白符号，其中，所述空白符号包括换行符；

设置模块，用于将所述文本中的标点符号设置为空格符号；

添加模块，用于在所述文本的首部及尾部添加空格符号；

分割模块，用于根据所述最大长度K对所述文本进行分割，生成多个文本片段；

计算模块，用于分别计算各个文本片段的聚合度、左熵及右熵，其中，所述聚合度的计算公式分别为：

所述计算模块，还用于根据公式

选取模块，用于选取综合分数大于设定阈值的文本片段，得到候选词汇；

对比模块，用于将所述候选词汇与通用词表进行对比，获取所述候选词汇与所述通用词表之间存在的不同的词汇并将所述词汇作为目标词汇。

进一步地，所述系统还包括：

进一步地，所述过滤模块还用于：

获取聚合度、左熵及右熵大于设定阈值的文本片段；

进一步地，所述计算模块还包括：

确定单元，用于确定两个或多个文本片段具有相同的左熵或右熵。

本发明实施例提供的从文本中获取目标词汇的方法及系统，具有以下有益效果：

(1)通过对文本语料进行预处理，规范了文本语料的格式，提高了获取目标词汇的准确度；

(2)只需统计不超过设定长度的文本片段的左邻字集合、右邻字集合，且只需计算不超过设定长度的文本片段的左熵、右熵及综合分数，提高了获取目标词汇的效率。

附图说明

图1是本发明实施例提供的从文本中获取目标词汇的方法流程示意图；

图2是本发明实施例提供的从文本中获取目标词汇的系统结构图。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

参照图1，本发明实施例提供的从文本中获取目标词汇的方法包括以下步骤：

S101，删除文本中的空白符号，其中，所述空白符号包括换行符。

S102，将所述文本中的标点符号设置为空格符号并在所述文本的首部及尾部添加空格符号。

作为一个具体的实施例，标点符号可以根据目标词汇发现任务的具体需求来保留相应的符号。例如，对军事武器词的目标词汇进行识别时，目标词汇中经常会出现“歼-20”中的“-”，因此‘-’就需要保留下来。

一般来说，位于标点符号旁边的文本片段的成词概率往往会更高，我们可以把标点符号都替换为空格，然后把空格和空格的出现次数计入文本片段的左/右邻字集合中，有利于提高文本片段的左/右熵的准确度。

同样地，位于文本开头和结尾的文本片段的成词概率也会比较高，但是位于文本开头的文本片段没有左邻字，位于文本结尾的文本片段也没有右邻字。如果直接认为这些文本片段不存在左/右邻字就会降低这些文本片段的左/右熵的准确度，因此，当文本片段的左/右邻字不存在时，把左/右邻字也等同为一个空格并计入文本片段的左/右邻字集合中，这样也可以提高文本片段的左/右熵的准确度。

S103，设定文本片段的最大长度为K，根据最大长度K对所述文本进行分割，生成多个长度不大于K的文本片段。

作为一个具体的实施例，一般认定至少两个字才能成词，以最大词长等于4为例，对文本从头到尾进行分割出，得到包括长度为1、2、3、4的多个文本片段。

进一步地，对于一个简单的文本“周杰伦的歌”，在限定最大词长为4的情况下分割的多个文本片段为'周'、'周杰'、'周杰伦'、'周杰伦的'、'杰'、'杰伦'、'杰伦的'、'杰伦的歌'、'伦'、'伦的'、'伦的歌'、'的'、'的歌'及'歌'。

S104，分别计算各个文本片段的聚合度、左熵及右熵，其中，所述聚合度的计算公式分别为：

,其中，p(a₁)、p(a₁a₂)…p(a₁a₂...a_k)及p(a₁a₂...a_k)分别为文本片段a₁、a₁a₂…a₁a₂...a_k在文本中所占的比例；所述左熵及所述右熵的计算公式均为：其中，当entropy代表左熵时，假设当前文本片段左邻字构成的集合为D，将每个相同的字归为一类，总的类别数目为N，p_i为第i类文字所占的比例为(i＝1,2,……,N)。

S105，根据公式

Score＝(left_entropy+right_entropy)×aggregation×frequence，分别计算各个文本片段的综合分数，其中，Score、left_entropy、right_entropy、aggregation及frequence分别代表各个文本片段的综合分数、左熵、右熵及在文本中的出现次数。

S106，选取综合分数大于设定阈值的文本片段，得到候选词汇。

作为一个具体的实施例，可以选取综合分数不小于80的文本片段作为候选词汇。

S107，将所述候选词汇与通用词表进行对比，获取所述候选词汇与所述通用词表之间存在的不同的词汇并将所述词汇作为目标词汇。

作为一个具体的实施例，在中文环境下，存在一类特殊的文本片段，它的内部聚合度很高，左右两侧有丰富的邻字集合，出现频次也很高，但其并不是一个完整的词，而是一类特殊的badcase。例如‘亿美元’、‘万个’、‘句话’等，这类候选词汇各项指标分数都很高，会通过层层过滤出现在最终结果中。一般这类候选词汇的左侧经常会是‘一’、‘二’、‘三’等数词，如果判断候选词汇的左邻字集合中有大量的数词，就可以认为这个候选词汇是一个badcase，从而将该候选词汇过滤掉。

可选地，在分别计算各个文本片段的聚合度、左熵及右熵之后，所述方法还包括：

获取聚合度、左熵及右熵大于设定阈值的文本片段；

可选地，分别计算各个文本片段的聚合度、左熵及右熵包括：

若两个或多个文本片段的末位字符相同，则确定所述两个或多个文本片段具有相同的左熵。

作为一个具体的实施例，认定文本片段'周'、'周杰'、'周杰伦'具有相同的左熵，认定'周杰伦的'、'杰伦的'、'伦的'具有相同的右熵，在计算左熵或右熵时，只需计算'周'的左熵，便可得知'周杰'、'周杰伦'的左熵。

作为一个具体的实施例，经过多次测试发现，在限定文本片段的最大词长为4的情况下只统计二元文本片段的左邻字集合及右邻字集合，不仅可以大幅降低程序的运行时间，同时也能保证发现新词结果的准确率。

参照图2，本发明实施例提供的从文本中获取目标词汇的系统包括删除模块、设置模块、添加模块、分割模块、计算模块、选取模块及对比模块，其中：

设置模块，用于将所述文本中的标点符号设置为空格符号；

添加模块，用于在所述文本的首部及尾部添加空格符号；

分割模块，用于根据最大长度K对所述文本进行分割，生成多个文本片段；

计算模块，还用于根据公式

可选地，所述系统还包括：

可选地，所述过滤模块还用于：

获取聚合度、左熵及右熵大于设定阈值的文本片段；

可选地，所述计算模块还包括：

本发明实施例提供的从文本中获取目标词汇的方法及系统，通过删除文本中的空白符号，将文本中的标点符号设置为空格符号，在文本的首部及尾部添加空格符号，设定文本片段的最大长度为K，根据最大长度K对所述文本进行分割，生成多个长度不大于K的文本片段，分别计算各个文本片段的聚合度、左熵及右熵，根据公式Score＝(left_entropy+right_entropy)×aggregation×frequence，分别计算各个文本片段的综合分数，选取综合分数大于设定阈值的文本片段，得到候选词汇，将候选词汇与通用词表进行对比，识别候选词汇与通用词表之间存在的不同的词汇并将该词汇作为目标词汇，提高了获取目标词汇的准确度及效率。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种从文本中获取目标词汇的方法，其特征在于，包括：

删除文本中的空白符号，其中，所述空白符号包括换行符；

将所述文本中的标点符号设置为空格符号；

在所述文本的首部及尾部添加空格符号；

其中，p(a₁)、p(a₁a₂)…p(a₁a₂...a_k)及p(a₁a₂...a_k)分别为文本片段a₁、a₁a₂…a₁a₂...a_k在文本中所占的比例；所述左熵及所述右熵的计算公式均为：其中，当entropy代表左熵时，假设当前文本片段左邻字构成的集合为D，将每个相同的字归为一类，总的类别数目为N，p_i为第i类文字所占的比例为(i＝1,2,……,N)；

根据公式

Score＝(left_entropy+right_entropy)×aggregation×frequence，分别计算各个文本片段的综合分数，Score、left_entropy、right_entropy、aggregation及frequence分别代表各个文本片段的综合分数、左熵、右熵及各个文本片段在文本中的出现次数；

选取综合分数大于设定阈值的文本片段，得到候选词汇；

将所述候选词汇与通用词表进行对比，识别所述候选词汇与所述通用词表之间存在的不同的词汇并将所述词汇作为目标词汇。

2.根据权利要求1所述的从文本中获取目标词汇的方法，其特征在于，在分别设定文本片段的最大长度为K，根据所述长度对所述文本进行分割，生成多个长度不大于K的文本片段之后，所述方法还包括：

3.根据权利要求1所述的从文本中获取目标词汇的方法，其特征在于，在分别计算各个文本片段的聚合度、左熵及右熵之后，所述方法还包括：

识别聚合度、左熵及右熵大于设定阈值的文本片段；

4.根据权利要求1所述的从文本中获取目标词汇的方法，其特征在于，分别计算各个文本片段的聚合度、左熵及右熵包括：

5.一种从文本中获取目标词汇的系统，其特征在于，包括：

设置模块，用于将所述文本中的标点符号设置为空格符号；

添加模块，用于在所述文本的首部及尾部添加空格符号；

计算模块，用于分分别计算各个文本片段的聚合度、左熵及右熵，其中，所述聚合度的计算公式分别为：

所述计算模块，还用于根据公式

Score＝(left_entropy+right_entropy)×aggregation×frequence，分别计算各个文本片段的综合分数，其中，Score、left_entropy、right_entropy、aggregation及frequence分别代表各个文本片段的综合分数、左熵、右熵及各个文本片段在文本中的出现次数；

对比模块，用于将所述候选词汇与通用词表进行对比，识别所述候选词汇与所述通用词表之间存在的不同的词汇并将所述词汇作为目标词汇。

6.根据权利要求5所述的从文本中获取目标词汇的系统，其特征在于，所述系统还包括：

7.根据权利要求6所述的从文本中获取目标词汇的系统，其特征在于，所述过滤模块还用于：

识别聚合度、左熵及右熵大于设定阈值的文本片段；

8.根据权利要求5所述的从文本中获取目标词汇的系统，其特征在于，所述计算模块还包括：