CN109284397A

CN109284397A - 一种领域词典的构建方法、装置、设备及存储介质

Info

Publication number: CN109284397A
Application number: CN201811133186.2A
Authority: CN
Inventors: 李坚强; 颜果开; 傅向华; 李赛玲
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-09-27
Filing date: 2018-09-27
Publication date: 2019-01-29
Also published as: WO2020062770A1

Abstract

本发明适用自然语言处理技术领域，提供了一种领域词典的构建方法、装置、设备及存储介质，该方法包括：对选取的通用语料库和领域语料库分别进行词向量模型训练，获得对应的通用词向量空间模型和领域词向量空间模型，计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与初始领域种子词典中种子词向量的词语语义相似度，根据计算得到的词语语义相似度，选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展，得到对应的领域词典，通过新词发现算法对领域词典中的未成词词汇进行筛除，以完成领域词典的构建，从而扩大了领域词典的词汇量，且提高了领域词典中领域词汇的准确度，进而提高领域词典的准确率。

Description

一种领域词典的构建方法、装置、设备及存储介质

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种领域词典的构建方法、装置、设备及存储介质。

背景技术

随着科技和社会的不断进步，语言也在不断地发生着变化，特别是近年来，新理论、新概念、新材料、新技术、新工艺不断涌现，与之同步产生的新的领域词汇层出不穷。领域词汇集中体现和负载了一个学科领域的核心知识，词汇的变化在一定程度上反映了一个学科领域的发展变化，领域词汇对于了解、把握一个学科领域的发展现状、未来趋向等具有重要的理论和现实意义，随着自然语言处理应用领域的不断扩展，对于领域词汇词典的需求也越来越迫切。

现有的基于词向量的领域词典构建算法是单一的利用网络上的通用语料或者领域语料，直接通过中文分词工具得到分词语料后构建的通用词向量模型或者领域词向量模型，然后再计算通用词向量模型或者领域词向量模型中词语之间的语义相似度，以构建领域词典。然而，上述通用词向量模型没有考虑到在限定领域的领域词典构建对领域语料的依赖问题，而领域词向量模型也没有考虑到限定域语料不足的问题，同时，上述基于词向量的领域词典构建算法没有考虑到中文分词工具在限定域领域不能对领域词汇或者新词等未知词进行正确分词等问题，从而导致获得的领域词典空间不足、领域词汇不准确等问题。

发明内容

本发明的目的在于提供一种领域词典的构建方法、装置、设备及存储介质，旨在解决由于现有技术无法提供一种有效的领域词典构建方法，导致领域词典中领域词汇量不足、且领域词汇不准确的问题。

一方面，本发明提供了一种领域词典的构建方法，所述方法包括下述步骤：

对选取的通用语料库和领域语料库分别进行词向量模型训练，获得对应的通用词向量空间模型和领域词向量空间模型；

计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度；

根据计算得到的所述词语语义相似度，选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展，得到对应的领域词典；

通过新词发现算法对所述领域词典中的未成词词汇进行筛除，以完成所述领域词典的构建。

优选地，计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度的步骤，包括：

通过预设的向量余弦相似度公式计算所述通用词向量和所述领域词向量与所述种子词向量的词语语义相似度，所述向量余弦相似度公式为其中，V₁为所述通用词向量或者所述领域词向量，V₂为所述种子词向量，S(V₁,V₂)为所述词语语义相似度。

优选地，选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展的步骤，包括：

当计算得到的所述词语语义相似度大于预设的领域关键词阈值时，将所述词语语义相似度对应的通用词向量或者领域词向量添加到所述初始领域种子词典中，以对所述初始领域种子词典进行扩展。

优选地，通过新词发现算法对所述领域词典中的未成词词汇进行筛除的步骤之前，所述方法还包括：

判断当前迭代次数是否达到预设的交叉迭代次数；

是则，跳转到通过新词发现算法对所述领域词典中的未成词词汇进行筛除的步骤的步骤；

否则，将所述当前迭代次数增加1次，且将所述领域词典设置为所述初始领域种子词典，并跳转到计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度的步骤。

另一方面，本发明提供了一种领域词典的构建装置，所述装置包括：

模型训练单元，用于对选取的通用语料库和领域语料库分别进行词向量模型训练，获得对应的通用词向量空间模型和领域词向量空间模型；

相似度计算单元，用于计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度；

词典扩展单元，用于根据计算得到的所述词语语义相似度，选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展，得到对应的领域词典；以及

未成词筛除单元，用于通过新词发现算法对所述领域词典中的未成词词汇进行筛除，以完成所述领域词典的构建。

优选地，所述相似度计算单元包括：

相似度计算子单元，用于通过预设的向量余弦相似度公式计算所述通用词向量和所述领域词向量与所述种子词向量的词语语义相似度，所述向量余弦相似度公式为其中，V₁为所述通用词向量或者所述领域词向量，V₂为所述种子词向量，S(V₁,V₂)为所述词语语义相似度。

优选地，所述词典扩展单元包括：

词典扩展子单元，用于当计算得到的所述词语语义相似度大于预设的领域关键词阈值时，将所述词语语义相似度对应的通用词向量或者领域词向量添加到所述初始领域种子词典中，以对所述初始领域种子词典进行扩展。

优选地，所述装置还包括：

迭代次数判断单元，用于判断当前迭代次数是否达到预设的交叉迭代次数，是则，触发所述未成词筛除单元执行通过新词发现算法对所述领域词典中的未成词词汇进行筛除，否则，将所述当前迭代次数增加1次，且将所述领域词典设置为所述初始领域种子词典，并触发所述相似度计算单元执行计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度。

另一方面，本发明还提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述领域词典的构建方法所述的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述领域词典的构建方法所述的步骤。

本发明对选取的通用语料库和领域语料库分别进行词向量模型训练，获得对应的通用词向量空间模型和领域词向量空间模型，计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度，根据计算得到的词语语义相似度，选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展，得到对应的领域词典，通过新词发现算法对领域词典中的未成词词汇进行筛除，以完成领域词典的构建，从而扩大了领域词典的词汇量，且提高了领域词典中领域词汇的准确度，进而提高领域词典的准确率。

附图说明

图1是本发明实施例一提供的领域词典的构建方法的实现流程图；

图2是本发明实施例二提供的领域词典的构建方法的实现流程图；

图3是本发明实施例三提供的领域词典的构建装置的结构示意图；

图4是本发明实施例四提供的领域词典的构建装置的结构示意图；以及

图5是本发明实施例五提供的计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的领域词典的构建方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，对选取的通用语料库和领域语料库分别进行词向量模型训练，获得对应的通用词向量空间模型和领域词向量空间模型。

本发明实施例适用于计算设备，例如，个人计算机、服务器等。本发明实施例中选取的通用语料库和领域语料库是相对关系而非绝对关系，通用语料库是相对于领域语料库的一层抽象或者上位概念，并非一定是大而全的一套语料，例如，若要构建一套医疗领域词典，则选取大而全的一套通用语料(例如，维基百科中文语料)和医疗领域语料(例如，母婴领域问答语料)来共同完成；若只要构建一套中药领域词典，则医疗领域语料应被视为通用语料，再结合中药领域语料进行中药领域词典的构建。

在本发明实施例中，优选地，通过Skip-Gram模型对选取的通用语料库和领域语料库分别进行词向量模型训练，从而降低词向量模型训练的复杂度，且提高词向量模型训练的准确度，使得获得的词向量对应的词汇更能反映真实的文本含义。

在步骤S102中，计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度。

在本发明实施例中，计算通用词向量空间模型中的每个通用词向量与预设的初始领域种子词典中每个种子词向量的词语语义相似度，且计算领域词向量空间模型中的每个领域词向量与初始领域种子词典中每个种子词向量的词语语义相似度，其中，初始领域种子词典由一个或多个领域种子词组成，种子词向量为初始领域种子词典中对应的领域种子词的向量表示。

在本发明实施例中，在计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度之前，优选地，将待创建的领域词典所属的领域划分成数量个不同的类别，根据每个类别创建一个领域种子词，由类别对应的领域种子词构成初始领域种子词典，从而为通用词向量和领域词向量的词语语义相似度计算提供对照样本。

作为示例地，若待创建医疗领域词典，则通过选取的母婴领域问答语料并结合医疗疾病分类情况，将问答语料划分成五个不同的类别，再利用每个类别的标签，创建一个只包含这些类别的关键字/词的初始医疗领域种子词典。

在本发明实施例中，优选地，通过预设的向量余弦相似度公式计算通用词向量和领域词向量与种子词向量的词语语义相似度，向量余弦相似度公式为其中，V₁为通用词向量或者领域词向量，V₂为种子词向量，S(V₁,V₂)为词语语义相似度，从而提高词语语义相似度计算的精确度和准确性。

在步骤S103中，根据计算得到的词语语义相似度，选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展，得到对应的领域词典。

在本发明实施例中，根据计算得到的词语语义相似度，在通用词向量空间模型或者领域词向量空间模型中选取与种子词向量语义相近或者相同的通用词向量或者领域词向量，并将选取出的通用词向量或者领域词向量转换为对应的通用词汇或者领域词汇，再将该通用词汇或者领域词汇添加到初始领域种子词典中，以对初始领域种子词典进行扩展，根据扩展的初始领域种子词典，得到对应的领域词典。

在本发明实施例中，优选地，当计算得到的词语语义相似度大于预设的领域关键词阈值时，将该词语语义相似度对应的通用词向量或者领域词向量添加到初始领域种子词典中，以对初始领域种子词典进行扩展，从而提高领域词汇的准确性。

在步骤S104中，通过新词发现算法对领域词典中的未成词词汇进行筛除，以完成领域词典的构建。

在本发明实施例中，在通过新词发现算法对领域词典中的未成词词汇进行筛除时，优选地，首先对领域词典中的词汇进行预处理，过滤掉领域词典中的数字、英文字母、标点符号、英文单词、人名、停用词、以及禁用词等非领域词汇，然后，计算预处理后的领域词典中两个相邻词汇对应的词向量的互信息值，生成候选新词集，之后，再利用左右邻接熵对候选新词集进行过滤，得到新词集和被过滤掉的未成词词汇集合，最后，从预处理后的领域词典中将未成词词汇集合部分筛除掉，以完成领域词典的构建，从而提高领域词典的准确性。

在本发明实施例中，对通用语料库和领域语料库分别进行词向量模型训练，获得对应的通用词向量空间模型和领域词向量空间模型，计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与初始领域种子词典中种子词向量的词语语义相似度，根据计算得到的词语语义相似度，选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展，得到对应的领域词典，通过新词发现算法对领域词典中的未成词词汇进行筛除，以完成领域词典的构建，从而扩大了领域词典的词汇量，且提高了领域词典中领域词汇的准确度，进而提高领域词典的准确率。

实施例二：

图2示出了本发明实施例二提供的领域词典的构建方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S201中，对选取的通用语料库和领域语料库分别进行词向量模型训练，获得对应的通用词向量空间模型和领域词向量空间模型。

在步骤S202中，计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度。

在步骤S203中，根据计算得到的词语语义相似度，选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展，得到对应的领域词典。

在本发明实施例中，步骤S201-步骤S203的具体实施方式可参考实施例一的步骤S101-步骤S103的描述，在此不再赘述。

在步骤S204中，判断当前迭代次数是否达到预设的交叉迭代次数，是则，执行步骤S206，否则，执行步骤S205。

在步骤S205中，将当前迭代次数增加1次，且将领域词典设置为初始领域种子词典。

在本发明实施例中，当当前迭代次数未达到预设的交叉迭代次数时，将当前迭代次数增加1次，且将领域词典设置为初始领域种子词典，以将当前迭代得到的领域词典作为下一次领域种子词拓展的输入，并跳转到步骤S202，继续在通用词向量空间模型和领域词向量空间模型中执行词语语义相似度计算，以扩展初始领域种子词典。

在步骤S206中，通过新词发现算法对领域词典中的未成词词汇进行筛除，以完成领域词典的构建。

在本发明实施例中，步骤S206的具体实施方式可参考实施例一的步骤S104的描述，在此不再赘述。

在本发明实施例中，对选取的通用语料库和领域语料库分别进行词向量模型训练，得到通用词向量空间模型和领域词向量空间模型，通过在通用词向量空间模型和领域词向量空间模型上进行多次交叉迭代计算初始领域种子词典中每个种子词向量的词语语义相似度，来对初始领域种子词典的种子词进行扩展，从而提高得到的领域词典中领域词汇的准确度，以及扩大了领域词典中的词汇量，再通过新词发现算法对领域词典中的未成词词汇进行筛除，以完成领域词典的构建，从而提高领域词典的准确率。

实施例三：

图3示出了本发明实施例三提供的领域词典的构建装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

模型训练单元31，用于对选取的通用语料库和领域语料库分别进行词向量模型训练，获得对应的通用词向量空间模型和领域词向量空间模型。

相似度计算单元32，用于计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度。

词典扩展单元33，用于根据计算得到的词语语义相似度，选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展，得到对应的领域词典。

未成词筛除单元34，用于通过新词发现算法对领域词典中的未成词词汇进行筛除，以完成领域词典的构建。

在本发明实施例中，领域词典的构建装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

实施例四：

图4示出了本发明实施例四提供的领域词典的构建装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

模型训练单元41，用于对选取的通用语料库和领域语料库分别进行词向量模型训练，获得对应的通用词向量空间模型和领域词向量空间模型；

相似度计算单元42，用于计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度；

词典扩展单元43，用于根据计算得到的词语语义相似度，选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展，得到对应的领域词典；

迭代次数判断单元44，用于判断当前迭代次数是否达到预设的交叉迭代次数，是则，触发未成词筛除单元45执行通过新词发现算法对领域词典中的未成词词汇进行筛除，否则，将当前迭代次数增加1次，且将领域词典设置为初始领域种子词典，并触发相似度计算单元42执行计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度；以及

未成词筛除单元45，用于通过新词发现算法对领域词典中的未成词词汇进行筛除，以完成领域词典的构建。

优选地，相似度计算单元42包括：

相似度计算子单元421，用于通过预设的向量余弦相似度公式计算通用词向量和领域词向量与种子词向量的词语语义相似度，向量余弦相似度公式为其中，V₁为通用词向量或者领域词向量，V₂为种子词向量，S(V₁,V₂)为词语语义相似度。

优选地，词典扩展单元43包括：

词典扩展子单元431，用于当计算得到的词语语义相似度大于预设的领域关键词阈值时，将词语语义相似度对应的通用词向量或者领域词向量添加到初始领域种子词典中，以对初始领域种子词典进行扩展。

在本发明实施例中，领域词典的构建装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。各单元的具体实施方式可参考上述方法实施例的描述，在此不再赘述。

实施例五：

图5示出了本发明实施例五提供的计算设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的计算设备5包括处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。该处理器50执行计算机程序52时实现上述领域词典的构建方法实施例中的步骤，例如图1所示的步骤S101至S104。或者，处理器50执行计算机程序52时实现上述各装置实施例中各单元的功能，例如图3所示单元31至34的功能。

在本发明实施例中，对选取的通用语料库和领域语料库分别进行词向量模型训练，获得对应的通用词向量空间模型和领域词向量空间模型，计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度，根据计算得到的词语语义相似度，选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展，得到对应的领域词典，通过新词发现算法对领域词典中的未成词词汇进行筛除，以完成领域词典的构建，从而扩大了领域词典的词汇量，且提高了领域词典中领域词汇的准确度，进而提高领域词典的准确率。

本发明实施例的计算设备可以为个人计算机、服务器。该计算设备5中处理器50执行计算机程序52时实现领域词典的构建方法时实现的步骤可参考前述方法实施例的描述，在此不再赘述。

实施例六：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述领域词典的构建方法实施例中的步骤，例如，图1所示的步骤S101至S104。或者，该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能，例如图3所示单元31至34的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种领域词典的构建方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度的步骤，包括：

3.如权利要求1所述的方法，其特征在于，选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展的步骤，包括：

4.如权利要求1所述的方法，其特征在于，通过新词发现算法对所述领域词典中的未成词词汇进行筛除的步骤之前，所述方法还包括：

判断当前迭代次数是否达到预设的交叉迭代次数；

5.一种领域词典的构建装置，其特征在于，所述装置包括：

6.如权利要求5所述的装置，其特征在于，所述相似度计算单元包括：

7.如权利要求5所述的装置，其特征在于，所述词典扩展单元包括：

8.如权利要求5所述的装置，其特征在于，所述装置还包括：

9.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。