CN109858010A

CN109858010A - 领域新词识别方法、装置、计算机设备和存储介质

Info

Publication number: CN109858010A
Application number: CN201811416747.XA
Authority: CN
Inventors: 张依; 汪伟; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-26
Filing date: 2018-11-26
Publication date: 2019-06-07
Anticipated expiration: 2038-11-26
Also published as: CN109858010B

Abstract

本申请涉及大数据领域，提供了一种领域新词识别方法、装置、计算机设备和存储介质。方法包括：将获取的目标语句以组成字为单位进行拆分，获取目标语句各组成字的字向量，将字向量输入预设的领域专有词序列标注模型，获得目标语句各组成字的序列标识，筛选目标语句中携带领域专有词标识的目标词汇，当获取的目标词汇的自由度和凝固度均满足预设阈值范围时，确定目标词汇为领域新词。通过预设的领域专有词序列标注模型对目标语句进行序列标识标注，得到携带领域专有词标识的目标词汇，过滤了其他领域的专有词，确保获得的目标词汇的适用的专业领域，并通过获取目标词汇的自由度和凝固度，确定目标词汇可以成词，从而实现专业领域新词的准确识别。

Description

领域新词识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及大数据技术领域，特别是涉及一种领域新词识别方法、装置、计算机设备和存储介质。

背景技术

随着社会文化的发展变化，新词语不断产生，自然语言处理技术被不断地运用于各个专业领域，专业领域包含有大量领域词语，领域新词是指某一领域相关的文本所特有的，通用词典所不包含的词。领域新词识别技术在自然语言处理中有着广泛的应用。对于提高领域文本在信息检索、信息抽取、本体构建、文本分类聚类等应用中的精度都有着重要的作用。

在新词识别的任务中，传统的方法是通过词频，自由度来识别新词，筛选进入词库，但是，传统的方法对专业领域新词识别的适用性不强。

发明内容

基于此，有必要针对上述技术问题，提供一种能够适用于专业领域的领域新词识别方法、装置、计算机设备和存储介质。

一种领域新词识别方法，所述方法包括：

将获取的目标语句以组成字为单位进行拆分，获取所述目标语句各组成字的字向量；

将所述目标语句各组成字的字向量输入预设的领域专有词序列标注模型，获得所述目标语句各组成字的序列标识；

根据所述序列标识，筛选所述目标语句中携带领域专有词标识的目标词汇；

获取所述目标词汇的自由度和凝固度，当所述自由度满足预设自由度阈值范围且所述凝固度满足预设凝固度阈值范围时，确定所述目标词汇为领域新词。

在其中一个实施例中，所述将所述目标语句各组成字的字向量输入预设的领域专有词序列标注模型，获得携带有领域专有词标识的目标词汇之前，还包括：

获取包含领域专有词的样本语料；

根据预设的领域词典，对所述样本语料进行序列标注，获得多个携带有序列标识的训练样本；

将所述训练样本以组成字为单位进行拆分，获取所述训练样本各组成字的字向量；

获取初始序列标注模型，根据所述训练样本的序列标识和所述各组成字的字向量，对所述初始序列标注模型进行训练，得到所述预设的领域专有词序列标注模型。

在其中一个实施例中，所述根据预设的领域词典，对所述样本语料进行序列标注，获得多个携带有序列标识的训练样本包括：

根据预设的领域词典，识别所述样本预料中的领域专有词；

根据所述领域专有词，对所述样本语料进行BIO序列标注；

将携带有BIO标识的样本语料作为训练样本。

在其中一个实施例中，所述根据预设的领域词典，对所述样本语料进行序列标注，获得多个携带有序列标识的训练样本之前，还包括：

获取包含基础词汇的领域基础词典；

根据所述领域基础词典，遍历预设领域语料库，获取领域扩充词汇；

根据所述领域基础词典和所述领域扩充词汇，构建所述预设的领域词典。

在其中一个实施例中，所述获取所述目标词汇的自由度和凝固度，当所述自由度满足预设自由度阈值范围且所述凝固度满足预设凝固度阈值范围时，确定所述目标词汇为领域新词之后，还包括：

将所述目标词汇更新至所述领域词典。

在其中一个实施例中，所述将获取的目标语句以组成字为单位进行拆分，获取所述目标语句各组成字的字向量之前，还包括：

遍历目标领域的数据资源库，获取满足预设数据要求的目标文本集合；

将所述目标文本集合以完整语句为单位进行拆分，获得目标语句。

在其中一个实施例中，所述将获取的目标语句以组成字为单位进行拆分，获取所述目标语句各组成字的字向量包括：

将获取的目标语句以组成字为单位进行拆分，确定每个字的one-hot向量；

对所述one-hot向量进行降维处理，获取所述目标语句各组成字的字向量。

一种领域新词识别装置，所述装置包括：

字向量获取模块，用于将获取的目标语句以组成字为单位进行拆分，获取所述目标语句各组成字的字向量；

序列标注模块，用于将所述目标语句各组成字的字向量输入预设的领域专有词序列标注模型，获得所述目标语句各组成字的序列标识；

目标词汇筛选模块，用于根据所述序列标识，筛选所述目标语句中携带领域专有词标识的目标词汇；

领域新词确定模块，用于获取所述目标词汇的自由度和凝固度，当所述自由度满足预设自由度阈值范围且所述凝固度满足预设凝固度阈值范围时，确定所述目标词汇为领域新词。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述领域新词识别方法、装置、计算机设备和存储介质，通过将目标语句进行组成字拆分，获取各组成字的字向量，将字向量输入预设的领域专有词序列标注模型，获得各组成字的序列标识，筛选出目标语句中携带领域专有词标识的目标词汇，当自由度和凝固度均满足对应的预设阈值范围时，判定目标词汇可以成词，从而确定目标词汇为领域新词。整个过程中，通过预设的领域专有词序列标注模型对目标语句进行序列标识标注，得到携带领域专有词标识的目标词汇，过滤了其他领域的专有词，确保获得的目标词汇的适用的专业领域，并通过获取目标词汇的自由度和凝固度，确定目标词汇可以成词，从而实现专业领域新词的准确识别。

附图说明

图1为一个实施例中领域新词识别方法的应用场景图；

图2为一个实施例中领域新词识别方法的流程示意图；

图3为另一个实施例中领域新词识别方法的流程示意图；

图4为一个实施例图3中步骤S130的子步骤流程示意图；

图5为一个实施例中领域新词识别装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的领域新词识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104通过网络进行通信。服务器104获取目标语句，将获取的目标语句以组成字为单位进行拆分，获取目标语句各组成字的字向量，将目标语句各组成字的字向量输入预设的领域专有词序列标注模型，获得目标语句各组成字的序列标识，根据序列标识，筛选目标语句中携带领域专有词标识的目标词汇，获取目标词汇的自由度和凝固度，当自由度满足预设自由度阈值范围且凝固度满足预设凝固度阈值范围时，确定目标词汇为领域新词，并将新领域新词推送至终端102，其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种领域新词识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S200，将获取的目标语句以组成字为单位进行拆分，获取目标语句各组成字的字向量。

目标语句是指包含指定的专业领域的相关内容的完整语句文本，目标语句可以通过网络爬虫算法获取该专业领域的相关舆情文本，以专业领域为金融领域为例，通过网路爬虫算法获取金融新闻平台的相关新闻，将获取的新闻文本以完整语句为单位进行拆分，获得目标语句，还可以直接将新闻文本的标题作为目标语句。组成字拆分是指将目标语句拆分为单个的字的过程，将目标语句进行组成字拆分并进行字向量的训练，字向量的训练方法与词向量的训练方法相似，在实施例中，可通过Google的Word2vec等工具来训练得到目标语句的各组成字的字向量，字向量具有良好的语义特性，用于表征各组成字所具有的特征，包括但不限于各组成字的特征、类别特征、重要度特征等，字向量每一维的值代表一个具有一定的语义和语法上解释的特征。

步骤S300，将目标语句各组成字的字向量输入预设的领域专有词序列标注模型，获得目标语句各组成字的序列标识。

预设的领域专有词序列标注模型是指用于根据输入目标语句的各字向量进行特征提取，识别目标语句中的领域专有词，以识别出的领域专有词为依据，对目标语句进行序列标注的模型。在实施例中，领域专有词序列标注模型可以是Bi-LSTM+CRF模型，Bi-LSTM+CRF模型包括三层，第一层为输入层，输入目标语句的各个字对应的字向量，第二层为Bi-LSTM层，将输入句子的字向量作为Bi-LSTM的各个时间步的双向输入，再将正向LSTM输出的隐状态序列与反向LSTM输出的隐状态序列按位置进行拼接，得到完整的隐状态序列，通过接入一个线性层，将隐状态向量进行映射，从而得到每个字的分类到标注集的每个标签的分值，多个分值可以组成矩阵，用于提取的句子特征，第三层是CRF层，进行句子级的序列标注，根据字向量，上下文向量和已经标注好的包含目标词的标注集，确定目标句子各组成字的序列标识。

步骤S400，根据序列标识，筛选目标语句中携带领域专有词标识的目标词汇。

序列标识包括领域专有词开头标识、领域专有词标识以及不属于领域专有词标识，在实施例中，可以通过BIO标注的方式对目标句子各组成字的序列标识，将每个元素标注为“B”或“I”或“O”，其中，“B”表示此该字为领域专有词的开头，“I”表示该字为领域专有词的中间，“O”表示不属于领域专有词。通过识别带有“B”和“I”标注的字向量，即可筛选得到目标语句中携带领域专有词标识的目标词汇。

步骤S500，获取目标词汇的自由度和凝固度，当自由度满足预设自由度阈值范围且凝固度满足预设凝固度阈值范围时，确定目标词汇为领域新词。

词语的凝固度又称聚合度，是用来衡量多个字组成的词语的共现的标准，例如“金融”会和“危机”出现在一起，因为“金融危机”这个词的聚合度很高，假设该词语为C，首先计算该词语出现的概率P(C)，然后尝试C的所有可能的二切分，即分为左半部分Cl和右半部分Cr并计算P(Cl)和P(Cr)，计算所有二切分方案中，P(C)/(P(Cl)×P(Cr))的最小值，取对数之后即可作为凝固度的衡量，词语的自由度是指该词语在各种语句中的灵活运用程度，根据凝固度的衡量，可以识别出类似“金融危机”这样的词语但是“融危机”、“金融危”这两个词语的聚合度也很高，但是它们却不应该成为有效的词语。可以用熵来衡量一个词语的自由度。假设一个词语一共出现了N次，其左边共出现过n个汉字，每个汉字依次出现N1，N2，……，Nn次，则满足N＝N1+N2+……+Nn，因此可以计算该词语左边各个汉字出现的概率，并根据熵公式计算左邻熵。熵越小则自由度越低，例如“融危机”的左邻熵接近于0，因为“金”字的概率几乎为1；熵越大则自由度越高，表示用词搭配越混乱、越自由、越多样。因为“融危机”的左邻熵很小，而右邻熵则相对较大，将一个词语左邻熵和右邻熵中较小者作为自由度。通过设定自由度和凝固度的预设阈值范围，判断目标词汇是否成词，当自由度满足预设自由度阈值范围且凝固度满足预设凝固度阈值范围时，确定目标词汇为领域新词。

在实施例中，凝固度的计算公式表示为：

其中，表示为长度为m的字符串。表示为词出现的概率。

自由度的计算公式表示为：

上述领域新词识别方法，通过将目标语句进行组成字拆分，获取各组成字的字向量，将字向量输入预设的领域专有词序列标注模型，获得各组成字的序列标识，筛选出目标语句中携带领域专有词标识的目标词汇，当自由度和凝固度均满足对应的预设阈值范围时，判定目标词汇可以成词，从而确定目标词汇为领域新词。整个过程中，通过预设的领域专有词序列标注模型对目标语句进行序列标识标注，得到携带领域专有词标识的目标词汇，过滤了其他领域的专有词，确保获得的目标词汇的适用的专业领域，并通过获取目标词汇的自由度和凝固度，确定目标词汇可以成词，从而实现专业领域新词的准确识别。

在一个实施例中，如图3所示，步骤S200，将目标语句各组成字的字向量输入预设的领域专有词序列标注模型，获得携带有领域专有词标识的目标词汇之前，还包括：

步骤S120，获取包含领域专有词的样本语料。

步骤S130，根据预设的领域词典，对样本语料进行序列标注，获得多个携带有序列标识的训练样本。

步骤S140，将训练样本以组成字为单位进行拆分，获取训练样本各组成字的字向量。

步骤S150，获取初始序列标注模型，根据训练样本的序列标识和各组成字的字向量，对初始序列标注模型进行训练，得到预设的领域专有词序列标注模型。

样本语料是指包含有已知的领域专有词的语句集合，领域词典是指特定的专业领域的定制词典，包括该专业领域的相关概念词、以及对应的全称和简称等。在专业领域中，可以在分词中完整切分出来。初始序列标注模型是指自然语言处理中常用的语言数据处理模型，例如隐马尔可夫模型，条件随机场模型以及Bi-LSTM+CRF模型等，在实施例中，初始序列标注模型为Bi-LSTM+CRF模型。根据领域词典，可识别出样本语料中的领域专有词，并对样本语料进行序列标注，使样本语料各语句中的领域专有词携带有领域专有词标识，样本语料中的多个语句构成训练样本，将训练样本进行组成字拆分，通过字向量训练工具，获得训练样本各组成字的字向量。以训练样本的序列标识和各组成字的字向量为依据，对初始序列标注模型进行训练，获得领域专有词序列标注模型，用于对输入语句进行序列标注，以识别语句中的领域专有词。在实施例中，领域专有词序列标注模型可以根据所需的专业领域通过预先训练的方式进行预设。

在一个实施例中，如图4所示，步骤S130，根据预设的领域词典，对样本语料进行序列标注，获得多个携带有序列标识的训练样本包括：

步骤S132，根据预设的领域词典，识别样本预料中的领域专有词。

步骤S134，根据领域专有词，对样本语料进行BIO序列标注。

步骤S136，将携带有BIO标识的样本语料作为训练样本。

通过BIO序列标注，将样本语料标记为领域专有词的序列标签，将每个元素标注为“B”或“I”或“O”，其中，“B”表示此该字为领域专有词的开头，“I”表示该字为领域专有词的中间，“O”表示不属于领域专有词。针对“一线金融开放必然会带来金融风险？”，预设的领域词典中识别到的领域专有词为“金融开放”和“金融风险”，那么对该语句进行标注结果为“一/O线/O金/B融/I开/I放/I必/O然/O会/O带/O来/O金/B融/I风/I险/I？”在其他实施例中，还可以根据需要事先对预设的领域词典进行筛选，以提高序列标注的有效性，例如根据需要过滤领域词典中的领域基础词，进行领域专有词的标注，例如，经过筛选，上述例句中，“金融风险”这一词汇属于领域基础词，则，对应识别得到的领域专有词只有“金融开放”，对该语句进行标注结果为“一/O线/O金/B融/I开/I放/I必/O然/O会/O带/O来/O金/O融/O风/O险/O？”对样本语料中的各语句完成序列标注，将携带有BIO标识的样本语料作为训练样本，用于进行领域专有词序列标注模型的训练。

在一个实施例中，步骤S300，根据预设的领域词典，对样本语料进行序列标注，获得多个携带有序列标识的训练样本之前，还包括：

步骤S260，获取包含基础词汇的领域基础词典。

步骤S270，根据领域基础词典，遍历预设领域语料库，获取领域扩充词汇。

步骤S280，根据领域基础词典和领域扩充词汇，构建预设的领域词典。

领域基础词典是指包含有特定的专业领域的基础词汇集合，领域基础词典中的词汇多为双字节词，例如金融领域的“债券”“股票”等，领域语料库是指包含有特定的专业领域各类数据信息的综合文本，包括新闻之类的舆情文本，各大企业的官方网站数据等，领域语料库的数据可从已有的数据库中获取，还可以通过网络爬虫算法等从网页实时获取得到，以领域基础词典为依据，遍历预设领域语料库，可以获取与领域基础词汇相关的扩充词，例如以同义词形式出现的扩充词，以及通过多个领域基础词复合而成的扩充词，通过统计各扩充词的词频，筛选出满足预设要求的扩充词汇，根据领域基础词典中的领域基础词和筛选后的扩充词汇，构建得到领域词典。

在一个实施例中，步骤S500，获取目标词汇的自由度和凝固度，当自由度满足预设自由度阈值范围且凝固度满足预设凝固度阈值范围时，确定目标词汇为领域新词之后，还包括：

步骤S520，将目标词汇更新至领域词典。

当确定目标词汇为领域新词时，将目标词汇更新至领域词典，根据设定的周期，获取新的目标语句，对领域新词进行识别发现，可以累积新的领域新词，便于实现对该专业领域的行情分析，特别是对于该专业领域的舆情文本的分析。在实施例中，以金融行业每周的新词识别为例，采用网络爬虫算法，抓取每周的金融行业相关数据信息，按照设定需求对抓取的数据信息进行初步筛选，如网页虚假消息的过滤等，并将筛选的数据信息按句子进行拆分，得到该周期内的目标语句。

在一个实施例中，步骤S200，将获取的目标语句以组成字为单位进行拆分，获取目标语句各组成字的字向量之前，还包括：

步骤S180，遍历目标领域的数据资源库，获取满足预设数据要求的目标文本集合。

步骤S190，将目标文本集合以完整语句为单位进行拆分，获得目标语句。

目标领域是指需要应用的特定专业领域，如金融领域等，目标领域的数据资源库是指包含该特定专业领域的相关数据库，包括服务器中存储器中存储的相关数据，以及从各网络平台实时获取的相关数据。预设数据要求包括但不限于数据类型为文字，数据格式为文本等，从而过滤掉图片，表格等不利于分析的数据，将获取的目标文本以标点符号如句号、问号以及感叹号等作为拆分节点，进行完整语句的拆分，获得目标语句。

在一个实施例中，步骤S200，将获取的目标语句以组成字为单位进行拆分，获取目标语句各组成字的字向量包括：

步骤S220，将获取的目标语句以组成字为单位进行拆分，确定每个字的one-hot向量。

步骤S240，对one-hot向量进行降维处理，获取目标语句各组成字的字向量。

one-hot向量是指以将字以稠密向量的方式进行表达的处理方法，每个字中的单个特征只有1位处于状态1，其他的都是0，将一个含有N个字的语句进行字的拆分，并确定每个字的one-hot向量，具体来说，把每个语句的词表示为一个长向量，这个向量的维度是词表大小，向量中只有一个维度的值为1，其余维度为0，这个维度就代表了当前的字，例如，金[0，0，0，1，0，……]，融[0，0，0，0，1，……]，相当于给每个字分配一个id，字向量是分布式表示，将字表示成一个定长的连续的稠密向量，表征字与字的关联关系，能够包含更多信息，并且每一维都有特定的含义。根据预先完成的字训练矩阵，将采用one-hot向量表示的字进行降维处理，得到字向量。

下面通过金融领域的一个应用实例对本方案进行说明：

以“一线金融开放必然会带来金融风险？”作为目标语句，首先，对该目标语句以组成字为单位进行拆分，利用Word2vec作为字向量训练工具，根据目标语句中的各组成字的上下文关系，把各组成字的关系映射到同一坐标系下，构成了一个矩阵，矩阵反映了各组成字的关系，通过矩阵得到该目标语句各组成字的字向量。将目标语句各组成字的字向量输入预设的领域专有词序列标注模型，领域专有词序列标注模型对输入的字向量进行BIO标注，将领域专有词进行领域专有词标识的标注，例如，提取的为“金融开放”该词，那么对该目标语句进行标注结果为“一/O线/O金/B融/I开/I放/I必/O然/O会/O带/O来/O金/O融/O风/O险/O？”输出目标语句各组成字的序列标识，根据输出的序列标识，筛选出携带有领域专有词标识即“/B”和“/I”的组成字作为目标词汇，即“金融开放”。遍历预设的语料库，计算“金融开放”这一目标词的自由度和凝固度，通过比较计算结果与设定的自由度阈值范围和凝固度阈值范围，判断目标词汇“金融开放”是否成词。当自由度均凝固度满足预设阈值范围时，确定目标词汇“金融开放”为领域新词，并将目标词汇“金融开放”更新至领域词典，实现准确有效的专业领域新词识别。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种领域新词识别装置，包括：

字向量获取模块200，用于将获取的目标语句以组成字为单位进行拆分，获取目标语句各组成字的字向量；

序列标注模块300，用于将目标语句各组成字的字向量输入预设的领域专有词序列标注模型，获得目标语句各组成字的序列标识；

目标词汇筛选模块400，用于根据序列标识，筛选目标语句中携带领域专有词标识的目标词汇；

领域新词确定模块500，用于获取目标词汇的自由度和凝固度，当自由度满足预设自由度阈值范围且凝固度满足预设凝固度阈值范围时，确定目标词汇为领域新词。

在一个实施例中，领域新词识别装置还包括领域专有词序列标注模型训练模块，用于获取包含领域专有词的样本语料，根据预设的领域词典，对样本语料进行序列标注，获得多个携带有序列标识的训练样本，将训练样本以组成字为单位进行拆分，获取训练样本各组成字的字向量，获取初始序列标注模型，根据训练样本的序列标识和各组成字的字向量，对初始序列标注模型进行训练，得到预设的领域专有词序列标注模型。

在一个实施例中，领域专有词序列标注模型训练模块，还用于根据预设的领域词典，识别样本预料中的领域专有词，根据领域专有词，对样本语料进行BIO序列标注，将携带有BIO标识的样本语料作为训练样本。

在其中一个实施例中，领域新词识别装置还包括目标语句获取模块，用于遍历目标领域的数据资源库，获取满足预设数据要求的目标文本集合，将目标文本集合以完整语句为单位进行拆分，获得目标语句。

在一个实施例中，领域新词识别装置还包括领域词典构建模块，用于获取包含基础词汇的领域基础词典，根据领域基础词典，遍历预设领域语料库，获取领域扩充词汇，根据领域基础词典和领域扩充词汇，构建预设的领域词典。

在一个实施例中，领域新词识别装置还包括领域词典更新模块，用于将目标词汇更新至领域词典。

在一个实施例中，字向量获取模块200，还用于将获取的目标语句以组成字为单位进行拆分，确定每个字的one-hot向量，对one-hot向量进行降维处理，获取目标语句各组成字的字向量。

上述领域新词识别装置，通过将目标语句进行组成字拆分，获取各组成字的字向量，将字向量输入预设的领域专有词序列标注模型，获得各组成字的序列标识，筛选出目标语句中携带领域专有词标识的目标词汇，当自由度和凝固度均满足对应的预设阈值范围时，判定目标词汇可以成词，从而确定目标词汇为领域新词。整个过程中，通过预设的领域专有词序列标注模型对目标语句进行序列标识标注，得到携带领域专有词标识的目标词汇，过滤了其他领域的专有词，确保获得的目标词汇的适用的专业领域，并通过获取目标词汇的自由度和凝固度，确定目标词汇可以成词，从而实现专业领域新词的准确识别。

关于领域新词识别装置的具体限定可以参见上文中对于领域新词识别方法的限定，在此不再赘述。上述领域新词识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种领域新词识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

将获取的目标语句以组成字为单位进行拆分，获取目标语句各组成字的字向量；

将目标语句各组成字的字向量输入预设的领域专有词序列标注模型，获得目标语句各组成字的序列标识；

根据序列标识，筛选目标语句中携带领域专有词标识的目标词汇；

获取目标词汇的自由度和凝固度，当自由度满足预设自由度阈值范围且凝固度满足预设凝固度阈值范围时，确定目标词汇为领域新词。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

获取包含领域专有词的样本语料；

根据预设的领域词典，对样本语料进行序列标注，获得多个携带有序列标识的训练样本；

将训练样本以组成字为单位进行拆分，获取训练样本各组成字的字向量；

获取初始序列标注模型，根据训练样本的序列标识和各组成字的字向量，对初始序列标注模型进行训练，得到预设的领域专有词序列标注模型。

根据预设的领域词典，识别样本预料中的领域专有词；

根据领域专有词，对样本语料进行BIO序列标注；

将携带有BIO标识的样本语料作为训练样本。

获取包含基础词汇的领域基础词典；

根据领域基础词典，遍历预设领域语料库，获取领域扩充词汇；

根据领域基础词典和领域扩充词汇，构建预设的领域词典。

将目标词汇更新至领域词典。

将目标文本集合以完整语句为单位进行拆分，获得目标语句。

对one-hot向量进行降维处理，获取目标语句各组成字的字向量。

上述用于实现领域新词识别方法的计算机设备，通过将目标语句进行组成字拆分，获取各组成字的字向量，将字向量输入预设的领域专有词序列标注模型，获得各组成字的序列标识，筛选出目标语句中携带领域专有词标识的目标词汇，当自由度和凝固度均满足对应的预设阈值范围时，判定目标词汇可以成词，从而确定目标词汇为领域新词。整个过程中，通过预设的领域专有词序列标注模型对目标语句进行序列标识标注，得到携带领域专有词标识的目标词汇，过滤了其他领域的专有词，确保获得的目标词汇的适用的专业领域，并通过获取目标词汇的自由度和凝固度，确定目标词汇可以成词，从而实现专业领域新词的准确识别。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取包含领域专有词的样本语料；

根据预设的领域词典，识别样本预料中的领域专有词；

根据领域专有词，对样本语料进行BIO序列标注；

将携带有BIO标识的样本语料作为训练样本。

获取包含基础词汇的领域基础词典；

根据领域基础词典和领域扩充词汇，构建预设的领域词典。

将目标词汇更新至领域词典。

上述用于实现领域新词识别方法的计算机可读存储介质，通过将目标语句进行组成字拆分，获取各组成字的字向量，将字向量输入预设的领域专有词序列标注模型，获得各组成字的序列标识，筛选出目标语句中携带领域专有词标识的目标词汇，当自由度和凝固度均满足对应的预设阈值范围时，判定目标词汇可以成词，从而确定目标词汇为领域新词。整个过程中，通过预设的领域专有词序列标注模型对目标语句进行序列标识标注，得到携带领域专有词标识的目标词汇，过滤了其他领域的专有词，确保获得的目标词汇的适用的专业领域，并通过获取目标词汇的自由度和凝固度，确定目标词汇可以成词，从而实现专业领域新词的准确识别。

本领域普通技术人员可以理解实现上述实施例领域新词识别方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种领域新词识别方法，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标语句各组成字的字向量输入预设的领域专有词序列标注模型，获得携带有领域专有词标识的目标词汇之前，还包括：

获取包含领域专有词的样本语料；

3.根据权利要求2所述的方法，其特征在于，所述根据预设的领域词典，对所述样本语料进行序列标注，获得多个携带有序列标识的训练样本包括：

根据预设的领域词典，识别所述样本预料中的领域专有词；

根据所述领域专有词，对所述样本语料进行BIO序列标注；

将携带有BIO标识的样本语料作为训练样本。

4.根据权利要求2所述的方法，其特征在于，所述根据预设的领域词典，对所述样本语料进行序列标注，获得多个携带有序列标识的训练样本之前，还包括：

获取包含基础词汇的领域基础词典；

5.根据权利要求4所述的方法，其特征在于，所述获取所述目标词汇的自由度和凝固度，当所述自由度满足预设自由度阈值范围且所述凝固度满足预设凝固度阈值范围时，确定所述目标词汇为领域新词之后，还包括：

将所述目标词汇更新至所述领域词典。

6.根据权利要求1所述的方法，其特征在于，所述将获取的目标语句以组成字为单位进行拆分，获取所述目标语句各组成字的字向量之前，还包括：

7.根据权利要求1所述的方法，其特征在于，所述将获取的目标语句以组成字为单位进行拆分，获取所述目标语句各组成字的字向量包括：

8.一种领域新词识别装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。