CN110807322A

CN110807322A - 基于信息熵识别新词的方法、装置、服务器及存储介质

Info

Publication number: CN110807322A
Application number: CN201910885192.1A
Authority: CN
Inventors: 陈婷婷
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2020-02-18
Anticipated expiration: 2039-09-19
Also published as: WO2021051600A1; CN110807322B

Abstract

本发明涉及大数据技术领域，公开一种基于信息熵识别新词的方法，包括：获取待处理文本中的目标短语，将目标短语划分为第一分词和第二分词，并分别读取第一分词的信息和第二分词的信息，获取第一分词的右搭配词和所述第二分词的左搭配词，并统计第一分词与所述右搭配词的共现词频以及所述第二分词与左搭配词的共现词频；通过预置概率公式和通过预置信息熵公式，计算出第一分词的右信息熵和第二分词的左信息熵；在第一分词的右信息熵和第二分词的左信息熵均小于第一预置阈值时，确定目标短语为新词。本发明还公开了一种装置、服务器及存储介质。通过对短语进行分词来计算信息熵值，获取待处理文本中新词的不确定性，从而识别出新词，提高了识别率。

Description

基于信息熵识别新词的方法、装置、服务器及存储介质

技术领域

本发明涉及大数据技术领域，尤其涉及一种基于信息熵识别新词的方法、装置、服务器及计算机可读存储介质。

背景技术

对于文章中出现的新词及关键词短语，进行初分词时分词系统不易识别，于是将他们分开，如“机器/学习”。但是，在文章中其作为一个整体，分开将会导致歧义或者语义不完整，这会影响到对新闻等文章的关键词提取结果的准确性。

目前比较流行的中文分词系统，如nlpir分词系统，尽管基于信息熵添加了新词识别功能，但对于多个分词与分词短语或者新词同时出现的情况，仍然不能实现较好的分词效果。例如，文本中机器学习为一个新词或者关键词短语，但是文本中同时也出现了多个独立的机器与学习这两个分词。目前的分词系统不能对短语进行分词识别，从而识别不出多个分词和分词短语中的新词，导致识别率低。

发明内容

本发明的主要目的在于提供一种基于信息熵识别新词的方法，旨在解决现有技术目前的分词系统不能对短语进行分词，从而识别不出多个分词和分词短语中的新词，导致识别率低的技术问题。

为实现上述目的，本发明提供一种基于信息熵识别新词的方法，所述基于信息熵识别新词的方法包括：

获取待处理文本中的目标短语，将所述目标短语划分为第一分词和第二分词，并分别读取所述第一分词的信息和所述第二分词的信息；

基于所述第一分词的信息和所述第二分词的信息，获取所述第一分词的右搭配词和所述第二分词的左搭配词，并统计所述第一分词与所述右搭配词的共现词频以及所述第二分词与所述左搭配词的共现词频；

通过预置概率公式、所述第一分词与所述右搭配词的共现词频以及所述第二分词与所述左搭配词的共现词频，计算出所述第一分词与所述右搭配词的共现概率值和所述第二分词与所述左搭配词的共现概率值；

通过预置信息熵公式、所述第一分词与所述右搭配词的共现概率值和所述第二分词与所述左搭配词的共现概率值，计算出所述第一分词的右信息熵和所述第二分词的左信息熵；

在所述第一分词的右信息熵和所述第二分词的左信息熵均小于第一预置阈值时，确定所述目标短语为新词。

可选的，所述获取待处理文本中的目标短语，将所述目标短语划分为第一分词和第二分词，并分别读取所述第一分词的信息和所述第二分词的信息，包括：

获取待处理文本中的目标短语，调取中文分词系统中的分词属性判断所述目标短语是否为新词；

当判定所述短语不是新词时，启动所述中文分词系统中的中文分词序列将所述短语分为第一分词和第二分词，并获取所述第一分词的名称信息以及所述第二分词的名称信息，其中，所述第一分词和第二分词组合成所述目标短语。

可选的，所述基于所述第一分词的信息和所述第二分词的信息，获取所述第一分词的右搭配词和所述第二分词的左搭配词，并统计所述第一分词与所述右搭配词的共现词频以及所述第二分词与所述左搭配词的共现词频，包括：

将所述第一分词的名称信息和所述第二分词的名称信息作为索引条件，获取所述第一分词在所述待处理文本中的位置、第一词频以及所述第二分词在所述待处理文本中的位置和第二词频；

基于所述第一分词在所述待处理文本中的位置和所述第二分词在所述待处理文本中的位置，获取所述第一分词的右搭配词和所述第二分词的左搭配词，并分别统计所述第一分词与所述右搭配词的共现词频和所述第二分词与所述左搭配词的共现词频。

可选的，所述通过预置概率公式，计算出所述第一分词与所述右搭配词的共现和所述第二分词与所述左搭配词的共现概率值，包括：

在获取到第一分词与所述右搭配词和所述第二分词与所述左搭配词的共现词频，调取预置概率公式；

通过分别将所述第一分词与所述右搭配词的共现词频、所述第一词频以及所述第二分词与所述左搭配词的共现词频和所述第二词频代入到所述预置概率计算公式中，得到所述第一分词与所述右搭配词的共现概率值和所述第二分词与所述左搭配词的共现概率值。

可选的，所述通过预置信息熵公式、所述第一分词与所述右搭配词的共现概率值和所述第二分词与所述左搭配词的共现概率值，计算出所述第一分词的右信息熵或所述第二分词的左信息熵，包括：

在获取所述第一分词与所述右搭配词的共现概率值和所述第二分词与所述左搭配词的共现概率值，调取预置信息熵公式；

通过分别将所述第一分词与所述右搭配词的共现概率值和所述第二分词与所述左搭配词的共现概率值代入到所述预置信息熵公式中，计算出所述第一分词的右信息熵或所述第二分词的左信息熵。

可选的，在所述第一分词的右信息熵和所述第二分词的左信息熵均小于第一预置阈值时，确定所述目标短语为新词，包括：

当提取到所述第一预置阈值为0.9时，判断所述第一分词的右信息熵和所述第二分词的左信息熵是否小于0.9；

当所述第一分词的右信息熵和所述第二分词的左信息熵小于均所述第一预置阈值0.9时，确定所述目标短语为新词。

可选的，所述在第一分词的右信息熵和所述第二分词的左信息熵均小于或等于第一预置阈值时，确定所述目标短语为新词之后，还包括：

当所述第一分词的右信息熵和/或所述第二分词的左信息熵大于或等于所述第一预置阈值0.9时，获取所述目标短语在所述待处理文本中的共现词频；

在所述目标短语在所述待处理文本中的共现词频大于第二预置阈值5时，确定所述目标短语为新词。

此外，为实现上述目的，本发明还提供一种基于信息熵识别新词的装置，所述基于信息熵识别新词的装置包括：

读取单元，用于获取待处理文本中的目标短语，将所述目标短语划分为第一分词和第二分词，并分别读取所述第一分词的信息和所述第二分词的信息；

统计单元，用于基于所述第一分词的信息和所述第二分词的信息，获取所述第一分词的右搭配词和所述第二分词的左搭配词，并统计所述第一分词与所述右搭配词的共现词频以及所述第二分词与所述左搭配词的共现词频；

第一计算单元，用于通过预置概率公式、所述第一分词与所述右搭配词的共现词频以及所述第二分词与所述左搭配词的共现词频，计算出所述第一分词与所述右搭配词的共现概率值和所述第二分词与所述左搭配词的共现概率值；

第二计算单元，用于通过预置信息熵公式、所述第一分词与所述右搭配词的共现概率值和所述第二分词与所述左搭配词的共现概率值，计算出所述第一分词的右信息熵和所述第二分词的左信息熵；

第一确定单元，在所述第一分词的右信息熵和所述第二分词的左信息熵均小于第一预置阈值时，确定所述目标短语为新词。

可选的，所述读取单元具体用于：

可选的，所述统计单元具体用于：

基于所述第一分词在所述待处理文本中的位置和所述第二分词在所述待处理文本中的位置，获取所述第一分词的右搭配词和所述第二分词的左搭配词，并分别统计所述第一分词与所述右搭配词的共现词频和所述第二分词与所述左搭配词的共现词频的共现词频。

可选的，所述第一计算单元具体用于：

在获取到第一分词与所述右搭配词和所述第二分词与所述左搭配词的共现词频，调取所述预置概率公式；

可选的，所述第二计算单元具体用于：

可选的，所述第一确定单元具体用于：

在所述第一分词的右信息熵和所述第二分词的左信息熵小于均所述第一预置阈值0.9时，确定所述目标短语为新词。

可选的，所述基于信息熵识别新词的装置，还包括：

获取单元，用于当所述第一分词的右信息熵和/或所述第二分词的左信息熵大于或等于所述第一预置阈值0.9时，获取所述目标短语在所述待处理文本中的共现词频；

第二确定单元，用于在所述目标短语在所述待处理文本中的共现词频大于第二预置阈值5时，确定所述目标短语为新词。

此外，为实现上述目的，本发明还提供一种服务器，所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于信息熵识别新词程序，所述基于信息熵识别新词程序被所述处理器执行时实现如上发明所述的基于信息熵识别新词的方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于信息熵识别新词程序，所述基于信息熵识别新词程序被处理器执行时实现如上发明所述的基于信息熵识别新词的方法的步骤。

本发明实施例提出的一种基于信息熵识别新词的方法、装置、服务器及计算机可读存储介质，通过获取待处理文本中的目标短语，将所述目标短语划分为第一分词和第二分词，并分别读取所述第一分词的信息和所述第二分词的信息；基于所述第一分词的信息和所述第二分词的信息，获取所述第一分词的右搭配词和所述第二分词的左搭配词，并统计所述第一分词与所述右搭配词的共现词频以及所述第二分词与所述左搭配词的共现词频；通过预置概率公式、所述第一分词与所述右搭配词的共现词频以及所述第二分词与所述左搭配词的共现词频，计算出所述第一分词与所述右搭配词的共现概率值和所述第二分词与所述左搭配词的共现概率值；通过预置信息熵公式、所述第一分词与所述右搭配词的共现概率值和所述第二分词与所述左搭配词的共现概率值，计算出所述第一分词的右信息熵和所述第二分词的左信息熵；在所述第一分词的右信息熵和所述第二分词的左信息熵均小于第一预置阈值时，确定所述目标短语为新词，实现了通过对短语进行分词来计算信息熵值，获取待处理文本中新词的不确定性，从而识别出新词，提高了识别率

附图说明

图1为本发明实施例方案涉及的硬件运行环境的服务器结构示意图；

图2为本发明基于信息熵识别新词的方法的第一实施例的流程示意图；

图3为本发明基于信息熵识别新词的方法的第二实施例的流程示意图；

图4为本发明基于信息熵识别新词的方法的第三实施例的流程示意图；

图5为本发明基于信息熵识别新词的方法的第四实施例的流程示意图；

图6为本发明基于信息熵识别新词的方法的第五实施例的流程示意图；

图7为本发明基于信息熵识别新词的方法的第六实施例的流程示意图；

图8为本发明基于信息熵识别新词的方法的第七实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例的主要解决方案是：通过获取待处理文本中的目标短语，将目标短语划分为第一分词和第二分词，并分别读取第一分词的信息和第二分词的信息；基于第一分词的信息和第二分词的信息，获取第一分词的右搭配词和第二分词的左搭配词，并统计第一分词与右搭配词的共现词频以及第二分词与左搭配词的共现词频；通过预置概率公式、第一分词与右搭配词的共现词频以及第二分词与左搭配词的共现词频，计算出第一分词与右搭配词的共现概率值和第二分词与左搭配词的共现概率值；通过预置信息熵公式、第一分词与右搭配词的共现概率值和第二分词与左搭配词的共现概率值，计算出第一分词的右信息熵和第二分词的左信息熵；在第一分词的右信息熵和第二分词的左信息熵均小于第一预置阈值时，确定目标短语为新词。

由于现有技术仅目前的分词系统不能对短语进行分词，从而识别不出多个分词和分词短语中的新词，导致识别率低的技术问题。

本发明提供一种解决方案，通过对短语进行切分来计算分词的信息熵值，以此判定待处理文本中短语的不确定性，从而识别出新词，提高了识别率。

如图1所示，图1为本发明实施例方案涉及的硬件运行环境的服务器结构示意图。

本发明实施例终端为服务器。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于信息熵识别新词程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的基于信息熵识别新词程序，并执行以下操作：

获取待处理文本中的目标短语，将目标短语划分为第一分词和第二分词，并分别读取第一分词的信息和第二分词的信息；

基于第一分词的信息和第二分词的信息，获取第一分词的右搭配词和第二分词的左搭配词，并统计第一分词与右搭配词的共现词频以及第二分词与左搭配词的共现词频；

通过预置概率公式、第一分词与右搭配词的共现词频以及第二分词与左搭配词的共现词频，计算出第一分词与右搭配词的共现概率值和第二分词与左搭配词的共现概率值；

通过预置信息熵公式、第一分词与右搭配词的共现概率值和第二分词与左搭配词的共现概率值，计算出第一分词的右信息熵和第二分词的左信息熵；

在第一分词的右信息熵和第二分词的左信息熵均小于第一预置阈值时，确定目标短语为新词。

进一步地，处理器1001可以调用存储器1005中存储的基于信息熵识别新词程序，还执行以下操作：

获取待处理文本中的目标短语，调取中文分词系统中的分词属性判断目标短语是否为新词；

当判定目标短语不是新词时，启动中文分词系统中的中文分词序列将短语分为第一分词和第二分词，并获取第一分词的名称信息以及第二分词的名称信息，其中，第一分词和第二分词组合成目标短语。

将第一分词的名称信息和第二分词的名称信息作为索引条件，获取第一分词在待处理文本中的位置、第一词频以及第二分词在所述待处理文本中的位置和第二词频；

基于第一分词在待处理文本中的位置和第二分词在待处理文本中的位置，获取第一分词的右搭配词和第二分词的左搭配词，并分别统计第一分词与右搭配词的共现词频和第二分词与左搭配词的共现词频。

在获取到第一分词与右搭配词的共现词频和第二分词与左搭配词的共现词频，调取预置概率公式；

通过分别将第一分词与右搭配词的共现词频、所述第一词频以及和第二分词与左搭配词的共现词频和所述第二词频代入到预置概率计算公式中，得到第一分词与右搭配词的共现概率值和第二分词与左搭配词的共现概率值。

在获取第一分词与右搭配词的共现概率值和第二分词与左搭配词的共现概率值，调取预置信息熵公式；

通过分别将第一分词与右搭配词的共现概率值和第二分词与左搭配词的共现概率值代入到预置信息熵公式中，计算出第一分词的右信息熵或第二分词的左信息熵。

当提取到第一预置阈值为0.9时，判断第一分词的右信息熵和第二分词的左信息熵是否小于0.9；

在第一分词的右信息熵和第二分词的左信息熵小于均第一预置阈值0.9时，确定目标短语为新词。

当第一分词的右信息熵和/或第二分词的左信息熵大于或等于第一预置阈值0.9时，获取目标短语在待处理文本中的共现词频；

在目标短语在待处理文本中的共现词频大于第二预置阈值5时，确定目标短语为新词。

参照图2，本发明为基于信息熵识别新词的方法的第一实施例，所述基于信息熵识别新词的方法包括：

步骤S10，获取待处理文本中的目标短语，将目标短语划分为第一分词和第二分词，并分别读取第一分词的信息和第二分词的信息；

服务器获取待处理文本中的目标短语，例如，服务器调取预置的字符识别软件对该待处理文本进行识别，获取待处理文本中的所有字符，其中，字符包括数字、字母以及中英文等组成的短语。服务器在获取到目标短语时，调取中文分词系统将该短语进行划分为第一分词和第二分词，其中，中文分词系统不仅仅将短语划分为第一分词和第二分词，也可以划分为第一分词、第二分词、第三分词等，并获取第一分词的词性、属性、名称、词频等信息。

步骤S20，基于第一分词的信息和第二分词的信息，获取第一分词的右搭配词和第二分词的左搭配词，并统计第一分词与右搭配词的共现词频以及第二分词与左搭配词的共现词频；

服务器在分别获取到第一分词和第二分词的信息时，获取第一分词的右搭配词和第二分词的左搭配词。具体为服务器在获取到第一分词的名称信息时，将第一分词的名称信息作为搜索条件，获取到第一分词在待处理文本中出现的位置，将第一分词的右边的第一个分词作为第一分词的右搭配词，其中，右搭配词可以是标点符号、空格、介词、动词等，但第一分词为动词时，右搭配词不能是名词，且第一分词与右搭配词的共现词频大于1，其中右搭配词至少为一个；在获取到第二分词的名称信息时，同样，将第二分词的名称信息作为搜索条件，获取第二分词在待处理文本中出现的位置，将第二分词左边的第一个分词作为该第二分词的左搭配词，其中，左搭配词可以是标点符号、空格、介词、名词等，但左搭配词为名词时第二分词不能是动词，且第二分词与左搭配词的共现词频大于1，其中左搭配词至少为一个，并分别获取第一分词与右搭配词共同出现的词频和第二分词与左搭配词共同出现的词频，中间不能够出现其它的分词。

步骤S30，通过预置概率公式、第一分词与右搭配词的共现词频以及第二分词与左搭配词的共现词频，计算出第一分词与右搭配词的共现概率值和第二分词与左搭配词的共现概率值；

服务器在获取到第一分词与右搭配词的共现词频和第二分词与左搭配词的共现词频时，调取预置概率计算公式，分别计算出第一分词与右搭配词的共现概率值以及第二分词与左搭配词的共现概率值，具体实施为，将获取到的第一分词的词频和第二分词的词频分别作为整个事件的总值，将第一分词与右搭配词的共现词频作为分子除以第一分词的词频，其中，第一分词的词频包括第一分词与右搭配词的共现词频和该短语的词频(短语包括第一分词)以及第一分词与其它分词出现的词频，得到该第一分词与右搭配词的共现概率值；将第二分词与左搭配词的共现词频作为分子除以第二分词的词频，其中，第二分词的词频包括第二分词与左搭配词的共现词频和短语的词频(短语包括第二分词)以及第二分词与其它分词出现的词频，得到该第二分词与左搭配词的共现概率值。

步骤S40，通过预置信息熵公式、第一分词与右搭配词的共现概率值和第二分词与左搭配词的共现概率值，计算出第一分词的右信息熵和第二分词的左信息熵；

服务器在获取到第一分词与右搭配词的共现概率值和第二分词与左搭配词的共现概率值时，调取预置信息熵公式。将第一分词与右搭配次的共现概率值代入到该预置信息熵中，通过计算得到第一分词的右信息熵；同时，将第二分词与左搭配词的共现概率值带入到预置信息熵公式中，通过计算得到第二分词的左信息熵。

步骤S50，在第一分词的右信息熵和第二分词的左信息熵均小于第一预置阈值时，确定目标短语为新词

服务器在获取到第一分词的右信息熵和第二分词的左信息熵时，判断该第一分词的右信息熵和第二分词的左信息熵是否小于第一预置阈值。当第一分词的右信息熵和第二分词的左信息熵小于第一预置阈值时，判定该目标短语为新词，具体的实施方式为，在获取到第一分词的右信息熵或第二分词的左信息熵时，调取小于第一预置阈值的数据库，将该第一分词右信息熵或第二分词的左信息熵与该数据库中的数据进行匹配，当匹配成功时，则该第一分词右信息熵或第二分词的左信息熵小于第一预置阈值，确定目标短语为新词。

在本实施例中，通过将目标短语分为第一分词和第二分词，分别读取第一分词和第二分词在文本中的信息，获取到第一分词的右搭配词和第二分词的左搭配词，并统计第一分词与右搭配词的共现词频和第二分词与左搭配词的共现词频，通过预置概率公式，获取第一分词与右搭配词的共现概率值和第二分词与左搭配词的共现概率值，通过预置信息熵公式，计算得到第一分词的右信息熵和第二分词的左信息熵，在第一分词的右信息熵和第二分词的左信息熵小于第一预置阈值时，判定该短语为新词，通过对短语进行切分来计算分词的信息熵值，以此判定待处理文本中短语的不确定性，从而识别出新词，提高了识别率。

进一步的，参照图3，图3为本发明基于信息熵识别新词的方法提供的第二实施例，基于上述图2所示的实施例，步骤S10包括:

步骤S11，获取待处理文本中的目标短语，调取中文分词系统中的分词属性判断目标短语是否为新词；

步骤S12，当判定短语不是新词时，调取中文分词系统中的中文分词序列将短语分为第一分词和第二分词，并获取第一分词的名称信息以及第二分词的名称信息，其中，第一分词和第二分词组合成目标短语。

服务器在获取到待处理文本中的目标短语时，调取中文分词系统中的分词属性判断该短语是否为新词。中文分词系统(Chinese Word Segmentation)指的是将一个汉字字符序列切分成一个一个单独的词。中文分词是文本挖掘的基础，对于输入的一段中文，成功的进行中文分词，可以达到自动识别语句含义的效果。把所有的词都存入中文分词系统中，扫描带处理的文本，查找所有可能的词，然后看哪个词可以作为输出。如：待处理文本:我是学生；词:我/是/学生。中文分词系统中的记载了不同短语的属性，服务器在该中文分析系统中没有查找到该短语的属性时，判定该短语不是新词。服务器在判定该短语不是新词时，启动中文分词系统对该短语进行分词，中文分词系统基于中文分词序列将该短语进行划分为第一分词和第二分词并分别获取到第一分词和第二分词的名称信息，也可以根据短语划分为多个分词，不仅限与第一分词和第二分词，其中，第一分词和第二分词组成短语，且第一分词与第二分词之间没有其他字符，更无标点符号。

在本实施例中，服务器在获取到待处理文本中的目标短语时，调取中文分词系统中的分词属性判断该短语是否为新词，当判定该短语不是新词时，调取中文分词系统中的中文分词系列将目标短语分为第一分词和第二分词，并分别读取第一分词的名称信息和第二分词的名称信息，先通过中文分词系统的分词属性对目标短语进行判定，在通过中文分词系统的中文分词系列对目标短语进行分词，提高识别新词的效率。

参照图4，图4为本发明基于信息熵识别新词的方法提供的第三实施例，基于上述图2所示的实施例，步骤S20，包括:

步骤S21，将第一分词的名称信息和第二分词的名称信息作为索引条件，获取第一分词在所述待处理文本中的位置、第一词频以及第二分词在所述待处理文本中的位置和第二词频；

步骤S22，基于第一分词在所述待处理文本中的位置和第二分词在待处理文本中的位置，获取第一分词的右搭配词和第二分词的左搭配词，并分别统计第一分词与所述右搭配词的共现词频和第二分词与所述左搭配词的共现词频。

服务器在获取到第一分词和第二分词的名称信息时，分别将第一分词的名称信息和第二分词的名称信息作为搜索条件在待处理文本中进行搜索，在待处理文本中搜索到与第一分词的名称信息相同的分词时，获取第一分词在待处理文本中的位置，例如，通过在待处理文本中进行显示，显示的方式可以用亮度、颜色等进行标记，再识别亮度或颜色等标记获取到第一分词在待处理文本中的位置时，将第一分词的右边的第一个词作为第一分词的右搭配词，并记录待处理文本中第一分词与右搭配词的共现词频N₁。在待处理文本中搜索到与第二分词的名称信息相同的分词时，在待处理文本中进行显示，显示的方式可以用亮度、颜色等进行标记，获取该第二分词的左搭配词并记录待处理文本中第二分词与左搭配词的共现词频N₂。

在本实施例中，服务器在获取到第一分词的名称信息和第二分词的名称信息时，将第一分词的名称信息和第二分词的名称信息作为索引，获取第一分词在待处理文本中的位置和词频以及第二分词在待处理文本中的位置和词频，基于第一分词的位置和第二分词的位置，获取第一分词的右搭配词和第二分词的左搭配词，并分别统计第一分词与右搭配词的共现词频和第二分词与左搭配词的共现词频，从而快速的获取第一分词的右搭配词和词频以及第二分词的左搭配词和词频。

参照图5，图5为本发明基于信息熵识别新词的方法提供的第四实施例，基于上述图2所示的实施例，步骤S30包括:

步骤S31，在获取到第一分词与所述右搭配词的共现词频和第二分词与左搭配词的共现词频，调取预置概率公式；

步骤S32，通过分别将第一分词与右搭配词的共现词频、所述第一词频以及和第二分词与左搭配词的共现词频和所述第二词频代入到预置概率计算公式中，得到第一分词与所述右搭配词的共现概率值和第二分词与左搭配词的共现概率值。

服务器在获取到第一分词与右搭配词的共现词频N₁和第二分词与左搭配词的共现词频N₂，调取预置概率计算公式P(N_x)＝N_x÷N，将获取到的第一分词与右搭配词的共现词频N₁以及第一分词的词频带入到预置概率计算公式中，通过计算得到第一分词与右搭配词的共现概率值P₁。N_x为第一分词与右搭配词的共现词频N₁，N为第一分词的第一词频，第一分词的第一词频包括目标短语的词频、第一分词与右搭配词的词频以及第一分词与其它右搭配词的词频。将获取到的第二分词与左搭配词的共现词频和第二分词的词频N₂代入到预置概率计算公式中，通过计算得到第二分词与左搭配词的共现概率值P₂。N_x第二分词与右搭配词的共现词频N₂，N为第二分词的第二词频，第二分词的词频包括目标短语的词频、第二分词与右搭配词的词频以及第二分词与其它右搭配词的词频。

在本实施例中，服务器在获取到第一分词与右搭配词的共现词频和第二分词与左搭配词的共现词频，通过预置概率公式，获取第一分词与右搭配词的概率值以及第二分词与左搭配词的概率值，通过概率计算公式得到第一分词与右搭配词在待处理文本中出现的概率和第二分词与左搭配词在待处理文本中出现的概率。

参照图6，图6为本发明基于信息熵识别新词的方法提供的第五实施例，基于上述图2所示的实施例，步骤S40包括:

步骤S41，在获取第一分词与右搭配词的共现概率值P₁和第二分词与左搭配词的共现概率值，调取预置信息熵公式；

步骤S42，通过分别将第一分词与右搭配词的共现概率值和第二分词与左搭配词的共现概率值代入到预置信息熵公式中，计算出第一分词的右信息熵或第二分词的左信息熵。

服务器在获取到第一分词与右搭配词的共现概率值P₁和第二分词与左搭配词的共现概率值P₂时，调取预置信息熵公式

其中，i为1，将获取到第一分词与右搭配词的共现概率值P₁代入到预置信息熵公式中，通过计算得到第一分词的右搭配词的信息熵值；将获取到第二分词与左搭配词的共现概率值P₂代入到预置信息熵公式中，通过计算得到第二分词的左搭配词的信息熵值。

在本实施例中，服务器在获取到第一分词与右搭配词的共现概率值P₁代入到预置信息熵公式中，通过计算得到第一分词的右搭配词的信息熵值；将获取到第二分词与左搭配词的共现概率值P₂代入到预置信息熵公式中，通过计算得到第二分词的左搭配词的信息熵值，通过预置信息熵公式计算出第一分词的右搭配词的信息熵值和第二分词的左搭配词的信息熵值。

参照图7，图7为本发明基于信息熵识别新词的方法提供的第六实施例，基于上述图2所示的实施例，步骤S50包括:

步骤S51，当提取到第一预置阈值为0.9时，判断第一分词的右信息熵和第二分词的左信息熵是否小于0.9；

步骤S52，在第一分词的右信息熵和第二分词的左信息熵小于均第一预置阈值0.9时，确定目标短语为新词。

当服务器计算得到第一分词的右信息熵和第二分词的左信息熵，获取第一预置阈值0.9，判断第一分词的右信息熵或第二分词的左信息熵是否小于第一预置阈值0.9，当第一分词的右信息熵或第二分词的左信息熵小于第一预置阈值0.9时，确定该目标短语为新词。例如，当获取到的第一分词的右信息熵为0.91，第二分词的左信息熵为0.92时，服务器判定目标短语为新词。

在本实施例中，服务器在获取到第一分词的右信息熵和第二分词的左信息熵时，判断第一分词的右信息熵或第二分词的左信息熵是否小于第一预置阈值0.9，在第一分词的右信息熵或第二分词的左信息熵小于第一预置阈值0.9时，确定该目标短语为新词，通过基于信息熵的不确定性，获取信息熵的值来确定对应的短语为新词。

参照图8，图8为本发明基于信息熵识别新词的方法提供的第七实施例，基于上述图7所示的实施例，步骤S51之后，还包括:

步骤S60，当第一分词的右信息熵和/或第二分词的左信息熵大于或等于第一预置阈值0.9时，获取目标短语在待处理文本中的共现词频；

步骤S70，在目标短语在待处理文本中的共现词频大于第二预置阈值5时，确定目标短语为新词。

当第一分词的右信息熵和/或第二分词的左信息熵大于或等于第一预置阈值0.9时，服务器获取第一分词和第二分词在待处理文本中的共现词频，中线词频为第一分词和第二分词在待处理文本中处于相邻，且中间无字符、无标点符号，即就是目标短语，例如，当获取到的第一分词的右信息熵为0.91，第二分词的左信息熵为0.8时，服务器判定目标短语不是新词；当获取到的第一分词的右信息熵为0.81，第二分词的左信息熵为0.82时，服务器判定目标短语不是新词。服务器获取第一分词和第二分词在待处理文本中的共现词频的方式很多，例如，通过在待处理文本中显示第一分词和第二分词，记录第一分词与第二分词相邻的词频，或者，将短语作为搜索条件在该待处理文本中进行搜索，得到短语的词频，其中短语的词频为第一分词和第二分词的共现词频。当获取到第一分词和第二分词的共现词频大于第二预置阈值5时，确定该短语为新词。

在本实施例中，服务器在判定第一分词的右信息熵或第二分词的左信息熵大于或等于第一预置阈值0.9时，获取第一分词和第二分词的共现词频，在第一分词和第二分词的共现词频大于第二预置阈值5时，服务器判定目标短语为新词，通过第一分词和第二分词在待处理文本中共同出现的次数来判定目标短语为新词，避免漏掉待处理文本中的新词。

此外，本发明实施例还提出一种服务器，所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于信息熵识别新词程序，所述基于信息熵识别新词程序被所述处理器执行时实现如上实施例的基于信息熵识别新词的方法的步骤。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有基于信息熵识别新词程序，所述基于信息熵识别新词程序被处理器执行时实现如上实施例的基于信息熵识别新词的方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于信息熵识别新词的方法，其特征在于，所述基于信息熵识别新词的方法包括：

2.如权利要求1所述的基于信息熵识别新词的方法，其特征在于，所述获取待处理文本中的目标短语，将所述目标短语划分为第一分词和第二分词，并分别读取所述第一分词的信息和所述第二分词的信息，包括：

当判定所述短语不是新词时，调取所述中文分词系统中的中文分词序列将所述目标短语分为第一分词和第二分词，并获取所述第一分词的名称信息以及所述第二分词的名称信息，其中，所述第一分词和第二分词组合成所述目标短语。

3.如权利要求2所述的基于信息熵识别新词的方法，其特征在于，所述基于所述第一分词的信息和所述第二分词的信息，获取所述第一分词的右搭配词和所述第二分词的左搭配词，并统计所述第一分词与所述右搭配词的共现词频以及所述第二分词与所述左搭配词的共现词频，包括：

4.如权利要求3所述的基于信息熵识别新词的方法，其特征在于，所述通过预置概率公式，计算出所述第一分词与所述右搭配词的共现和所述第二分词与所述左搭配词的共现概率值，包括：

在获取到第一分词与所述右搭配词的共现词频和所述第二分词与所述左搭配词的共现词频，调取预置概率公式；

5.如权利要求4所述的基于信息熵识别新词的方法，其特征在于，所述通过预置信息熵公式、所述第一分词与所述右搭配词的共现概率值和所述第二分词与所述左搭配词的共现概率值，计算出所述第一分词的右信息熵或所述第二分词的左信息熵，包括：

6.如权利要求1-5中任意一项所述的基于信息熵识别新词的方法，其特征在于，在所述第一分词的右信息熵和所述第二分词的左信息熵均小于第一预置阈值时，确定所述目标短语为新词，包括：

7.如权利要求6所述的基于信息熵识别新词的方法，其特征在于，所述在第一分词的右信息熵和所述第二分词的左信息熵均小于或等于第一预置阈值时，确定所述目标短语为新词之后，还包括：

8.一种基于信息熵识别新词的装置，其特征在于，所述基于信息熵识别新词的装置包括：

读取段元，用于获取待处理文本中的目标短语，将所述目标短语划分为第一分词和第二分词，并分别读取所述第一分词的信息和所述第二分词的信息；

9.一种服务器，其特征在于，所述服务器包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于信息熵识别新词程序，所述基于信息熵识别新词程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于信息熵识别新词的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有基于信息熵识别新词程序，所述基于信息熵识别新词程序被处理器执行时实现如权利要求1至7中任一项所述的基于信息熵识别新词的方法的步骤。