CN109284397A - 一种领域词典的构建方法、装置、设备及存储介质 - Google Patents
一种领域词典的构建方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN109284397A CN109284397A CN201811133186.2A CN201811133186A CN109284397A CN 109284397 A CN109284397 A CN 109284397A CN 201811133186 A CN201811133186 A CN 201811133186A CN 109284397 A CN109284397 A CN 109284397A
- Authority
- CN
- China
- Prior art keywords
- field
- term vector
- word
- vector
- seed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明适用自然语言处理技术领域,提供了一种领域词典的构建方法、装置、设备及存储介质,该方法包括:对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型,计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与初始领域种子词典中种子词向量的词语语义相似度,根据计算得到的词语语义相似度,选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展,得到对应的领域词典,通过新词发现算法对领域词典中的未成词词汇进行筛除,以完成领域词典的构建,从而扩大了领域词典的词汇量,且提高了领域词典中领域词汇的准确度,进而提高领域词典的准确率。
Description
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种领域词典的构建方法、装置、设备及存储介质。
背景技术
随着科技和社会的不断进步,语言也在不断地发生着变化,特别是近年来,新理论、新概念、新材料、新技术、新工艺不断涌现,与之同步产生的新的领域词汇层出不穷。领域词汇集中体现和负载了一个学科领域的核心知识,词汇的变化在一定程度上反映了一个学科领域的发展变化,领域词汇对于了解、把握一个学科领域的发展现状、未来趋向等具有重要的理论和现实意义,随着自然语言处理应用领域的不断扩展,对于领域词汇词典的需求也越来越迫切。
现有的基于词向量的领域词典构建算法是单一的利用网络上的通用语料或者领域语料,直接通过中文分词工具得到分词语料后构建的通用词向量模型或者领域词向量模型,然后再计算通用词向量模型或者领域词向量模型中词语之间的语义相似度,以构建领域词典。然而,上述通用词向量模型没有考虑到在限定领域的领域词典构建对领域语料的依赖问题,而领域词向量模型也没有考虑到限定域语料不足的问题,同时,上述基于词向量的领域词典构建算法没有考虑到中文分词工具在限定域领域不能对领域词汇或者新词等未知词进行正确分词等问题,从而导致获得的领域词典空间不足、领域词汇不准确等问题。
发明内容
本发明的目的在于提供一种领域词典的构建方法、装置、设备及存储介质,旨在解决由于现有技术无法提供一种有效的领域词典构建方法,导致领域词典中领域词汇量不足、且领域词汇不准确的问题。
一方面,本发明提供了一种领域词典的构建方法,所述方法包括下述步骤:
对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型;
计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度;
根据计算得到的所述词语语义相似度,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展,得到对应的领域词典;
通过新词发现算法对所述领域词典中的未成词词汇进行筛除,以完成所述领域词典的构建。
优选地,计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度的步骤,包括:
通过预设的向量余弦相似度公式计算所述通用词向量和所述领域词向量与所述种子词向量的词语语义相似度,所述向量余弦相似度公式为其中,V1为所述通用词向量或者所述领域词向量,V2为所述种子词向量,S(V1,V2)为所述词语语义相似度。
优选地,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展的步骤,包括:
当计算得到的所述词语语义相似度大于预设的领域关键词阈值时,将所述词语语义相似度对应的通用词向量或者领域词向量添加到所述初始领域种子词典中,以对所述初始领域种子词典进行扩展。
优选地,通过新词发现算法对所述领域词典中的未成词词汇进行筛除的步骤之前,所述方法还包括:
判断当前迭代次数是否达到预设的交叉迭代次数;
是则,跳转到通过新词发现算法对所述领域词典中的未成词词汇进行筛除的步骤的步骤;
否则,将所述当前迭代次数增加1次,且将所述领域词典设置为所述初始领域种子词典,并跳转到计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度的步骤。
另一方面,本发明提供了一种领域词典的构建装置,所述装置包括:
模型训练单元,用于对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型;
相似度计算单元,用于计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度;
词典扩展单元,用于根据计算得到的所述词语语义相似度,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展,得到对应的领域词典;以及
未成词筛除单元,用于通过新词发现算法对所述领域词典中的未成词词汇进行筛除,以完成所述领域词典的构建。
优选地,所述相似度计算单元包括:
相似度计算子单元,用于通过预设的向量余弦相似度公式计算所述通用词向量和所述领域词向量与所述种子词向量的词语语义相似度,所述向量余弦相似度公式为其中,V1为所述通用词向量或者所述领域词向量,V2为所述种子词向量,S(V1,V2)为所述词语语义相似度。
优选地,所述词典扩展单元包括:
词典扩展子单元,用于当计算得到的所述词语语义相似度大于预设的领域关键词阈值时,将所述词语语义相似度对应的通用词向量或者领域词向量添加到所述初始领域种子词典中,以对所述初始领域种子词典进行扩展。
优选地,所述装置还包括:
迭代次数判断单元,用于判断当前迭代次数是否达到预设的交叉迭代次数,是则,触发所述未成词筛除单元执行通过新词发现算法对所述领域词典中的未成词词汇进行筛除,否则,将所述当前迭代次数增加1次,且将所述领域词典设置为所述初始领域种子词典,并触发所述相似度计算单元执行计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度。
另一方面,本发明还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述领域词典的构建方法所述的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述领域词典的构建方法所述的步骤。
本发明对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型,计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度,根据计算得到的词语语义相似度,选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展,得到对应的领域词典,通过新词发现算法对领域词典中的未成词词汇进行筛除,以完成领域词典的构建,从而扩大了领域词典的词汇量,且提高了领域词典中领域词汇的准确度,进而提高领域词典的准确率。
附图说明
图1是本发明实施例一提供的领域词典的构建方法的实现流程图;
图2是本发明实施例二提供的领域词典的构建方法的实现流程图;
图3是本发明实施例三提供的领域词典的构建装置的结构示意图;
图4是本发明实施例四提供的领域词典的构建装置的结构示意图;以及
图5是本发明实施例五提供的计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的领域词典的构建方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型。
本发明实施例适用于计算设备,例如,个人计算机、服务器等。本发明实施例中选取的通用语料库和领域语料库是相对关系而非绝对关系,通用语料库是相对于领域语料库的一层抽象或者上位概念,并非一定是大而全的一套语料,例如,若要构建一套医疗领域词典,则选取大而全的一套通用语料(例如,维基百科中文语料)和医疗领域语料(例如,母婴领域问答语料)来共同完成;若只要构建一套中药领域词典,则医疗领域语料应被视为通用语料,再结合中药领域语料进行中药领域词典的构建。
在本发明实施例中,优选地,通过Skip-Gram模型对选取的通用语料库和领域语料库分别进行词向量模型训练,从而降低词向量模型训练的复杂度,且提高词向量模型训练的准确度,使得获得的词向量对应的词汇更能反映真实的文本含义。
在步骤S102中,计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度。
在本发明实施例中,计算通用词向量空间模型中的每个通用词向量与预设的初始领域种子词典中每个种子词向量的词语语义相似度,且计算领域词向量空间模型中的每个领域词向量与初始领域种子词典中每个种子词向量的词语语义相似度,其中,初始领域种子词典由一个或多个领域种子词组成,种子词向量为初始领域种子词典中对应的领域种子词的向量表示。
在本发明实施例中,在计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度之前,优选地,将待创建的领域词典所属的领域划分成数量个不同的类别,根据每个类别创建一个领域种子词,由类别对应的领域种子词构成初始领域种子词典,从而为通用词向量和领域词向量的词语语义相似度计算提供对照样本。
作为示例地,若待创建医疗领域词典,则通过选取的母婴领域问答语料并结合医疗疾病分类情况,将问答语料划分成五个不同的类别,再利用每个类别的标签,创建一个只包含这些类别的关键字/词的初始医疗领域种子词典。
在本发明实施例中,优选地,通过预设的向量余弦相似度公式计算通用词向量和领域词向量与种子词向量的词语语义相似度,向量余弦相似度公式为其中,V1为通用词向量或者领域词向量,V2为种子词向量,S(V1,V2)为词语语义相似度,从而提高词语语义相似度计算的精确度和准确性。
在步骤S103中,根据计算得到的词语语义相似度,选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展,得到对应的领域词典。
在本发明实施例中,根据计算得到的词语语义相似度,在通用词向量空间模型或者领域词向量空间模型中选取与种子词向量语义相近或者相同的通用词向量或者领域词向量,并将选取出的通用词向量或者领域词向量转换为对应的通用词汇或者领域词汇,再将该通用词汇或者领域词汇添加到初始领域种子词典中,以对初始领域种子词典进行扩展,根据扩展的初始领域种子词典,得到对应的领域词典。
在本发明实施例中,优选地,当计算得到的词语语义相似度大于预设的领域关键词阈值时,将该词语语义相似度对应的通用词向量或者领域词向量添加到初始领域种子词典中,以对初始领域种子词典进行扩展,从而提高领域词汇的准确性。
在步骤S104中,通过新词发现算法对领域词典中的未成词词汇进行筛除,以完成领域词典的构建。
在本发明实施例中,在通过新词发现算法对领域词典中的未成词词汇进行筛除时,优选地,首先对领域词典中的词汇进行预处理,过滤掉领域词典中的数字、英文字母、标点符号、英文单词、人名、停用词、以及禁用词等非领域词汇,然后,计算预处理后的领域词典中两个相邻词汇对应的词向量的互信息值,生成候选新词集,之后,再利用左右邻接熵对候选新词集进行过滤,得到新词集和被过滤掉的未成词词汇集合,最后,从预处理后的领域词典中将未成词词汇集合部分筛除掉,以完成领域词典的构建,从而提高领域词典的准确性。
在本发明实施例中,对通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型,计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与初始领域种子词典中种子词向量的词语语义相似度,根据计算得到的词语语义相似度,选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展,得到对应的领域词典,通过新词发现算法对领域词典中的未成词词汇进行筛除,以完成领域词典的构建,从而扩大了领域词典的词汇量,且提高了领域词典中领域词汇的准确度,进而提高领域词典的准确率。
实施例二:
图2示出了本发明实施例二提供的领域词典的构建方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S201中,对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型。
在步骤S202中,计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度。
在步骤S203中,根据计算得到的词语语义相似度,选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展,得到对应的领域词典。
在本发明实施例中,步骤S201-步骤S203的具体实施方式可参考实施例一的步骤S101-步骤S103的描述,在此不再赘述。
在步骤S204中,判断当前迭代次数是否达到预设的交叉迭代次数,是则,执行步骤S206,否则,执行步骤S205。
在步骤S205中,将当前迭代次数增加1次,且将领域词典设置为初始领域种子词典。
在本发明实施例中,当当前迭代次数未达到预设的交叉迭代次数时,将当前迭代次数增加1次,且将领域词典设置为初始领域种子词典,以将当前迭代得到的领域词典作为下一次领域种子词拓展的输入,并跳转到步骤S202,继续在通用词向量空间模型和领域词向量空间模型中执行词语语义相似度计算,以扩展初始领域种子词典。
在步骤S206中,通过新词发现算法对领域词典中的未成词词汇进行筛除,以完成领域词典的构建。
在本发明实施例中,步骤S206的具体实施方式可参考实施例一的步骤S104的描述,在此不再赘述。
在本发明实施例中,对选取的通用语料库和领域语料库分别进行词向量模型训练,得到通用词向量空间模型和领域词向量空间模型,通过在通用词向量空间模型和领域词向量空间模型上进行多次交叉迭代计算初始领域种子词典中每个种子词向量的词语语义相似度,来对初始领域种子词典的种子词进行扩展,从而提高得到的领域词典中领域词汇的准确度,以及扩大了领域词典中的词汇量,再通过新词发现算法对领域词典中的未成词词汇进行筛除,以完成领域词典的构建,从而提高领域词典的准确率。
实施例三:
图3示出了本发明实施例三提供的领域词典的构建装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
模型训练单元31,用于对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型。
本发明实施例适用于计算设备,例如,个人计算机、服务器等。本发明实施例中选取的通用语料库和领域语料库是相对关系而非绝对关系,通用语料库是相对于领域语料库的一层抽象或者上位概念,并非一定是大而全的一套语料,例如,若要构建一套医疗领域词典,则选取大而全的一套通用语料(例如,维基百科中文语料)和医疗领域语料(例如,母婴领域问答语料)来共同完成;若只要构建一套中药领域词典,则医疗领域语料应被视为通用语料,再结合中药领域语料进行中药领域词典的构建。
在本发明实施例中,优选地,通过Skip-Gram模型对选取的通用语料库和领域语料库分别进行词向量模型训练,从而降低词向量模型训练的复杂度,且提高词向量模型训练的准确度,使得获得的词向量对应的词汇更能反映真实的文本含义。
相似度计算单元32,用于计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度。
在本发明实施例中,计算通用词向量空间模型中的每个通用词向量与预设的初始领域种子词典中每个种子词向量的词语语义相似度,且计算领域词向量空间模型中的每个领域词向量与初始领域种子词典中每个种子词向量的词语语义相似度,其中,初始领域种子词典由一个或多个领域种子词组成,种子词向量为初始领域种子词典中对应的领域种子词的向量表示。
在本发明实施例中,在计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度之前,优选地,将待创建的领域词典所属的领域划分成数量个不同的类别,根据每个类别创建一个领域种子词,由类别对应的领域种子词构成初始领域种子词典,从而为通用词向量和领域词向量的词语语义相似度计算提供对照样本。
作为示例地,若待创建医疗领域词典,则通过选取的母婴领域问答语料并结合医疗疾病分类情况,将问答语料划分成五个不同的类别,再利用每个类别的标签,创建一个只包含这些类别的关键字/词的初始医疗领域种子词典。
在本发明实施例中,优选地,通过预设的向量余弦相似度公式计算通用词向量和领域词向量与种子词向量的词语语义相似度,向量余弦相似度公式为其中,V1为通用词向量或者领域词向量,V2为种子词向量,S(V1,V2)为词语语义相似度,从而提高词语语义相似度计算的精确度和准确性。
词典扩展单元33,用于根据计算得到的词语语义相似度,选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展,得到对应的领域词典。
在本发明实施例中,根据计算得到的词语语义相似度,在通用词向量空间模型或者领域词向量空间模型中选取与种子词向量语义相近或者相同的通用词向量或者领域词向量,并将选取出的通用词向量或者领域词向量转换为对应的通用词汇或者领域词汇,再将该通用词汇或者领域词汇添加到初始领域种子词典中,以对初始领域种子词典进行扩展,根据扩展的初始领域种子词典,得到对应的领域词典。
在本发明实施例中,优选地,当计算得到的词语语义相似度大于预设的领域关键词阈值时,将该词语语义相似度对应的通用词向量或者领域词向量添加到初始领域种子词典中,以对初始领域种子词典进行扩展,从而提高领域词汇的准确性。
未成词筛除单元34,用于通过新词发现算法对领域词典中的未成词词汇进行筛除,以完成领域词典的构建。
在本发明实施例中,在通过新词发现算法对领域词典中的未成词词汇进行筛除时,优选地,首先对领域词典中的词汇进行预处理,过滤掉领域词典中的数字、英文字母、标点符号、英文单词、人名、停用词、以及禁用词等非领域词汇,然后,计算预处理后的领域词典中两个相邻词汇对应的词向量的互信息值,生成候选新词集,之后,再利用左右邻接熵对候选新词集进行过滤,得到新词集和被过滤掉的未成词词汇集合,最后,从预处理后的领域词典中将未成词词汇集合部分筛除掉,以完成领域词典的构建,从而提高领域词典的准确性。
在本发明实施例中,领域词典的构建装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例四:
图4示出了本发明实施例四提供的领域词典的构建装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
模型训练单元41,用于对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型;
相似度计算单元42,用于计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度;
词典扩展单元43,用于根据计算得到的词语语义相似度,选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展,得到对应的领域词典;
迭代次数判断单元44,用于判断当前迭代次数是否达到预设的交叉迭代次数,是则,触发未成词筛除单元45执行通过新词发现算法对领域词典中的未成词词汇进行筛除,否则,将当前迭代次数增加1次,且将领域词典设置为初始领域种子词典,并触发相似度计算单元42执行计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度;以及
未成词筛除单元45,用于通过新词发现算法对领域词典中的未成词词汇进行筛除,以完成领域词典的构建。
优选地,相似度计算单元42包括:
相似度计算子单元421,用于通过预设的向量余弦相似度公式计算通用词向量和领域词向量与种子词向量的词语语义相似度,向量余弦相似度公式为其中,V1为通用词向量或者领域词向量,V2为种子词向量,S(V1,V2)为词语语义相似度。
优选地,词典扩展单元43包括:
词典扩展子单元431,用于当计算得到的词语语义相似度大于预设的领域关键词阈值时,将词语语义相似度对应的通用词向量或者领域词向量添加到初始领域种子词典中,以对初始领域种子词典进行扩展。
在本发明实施例中,领域词典的构建装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。各单元的具体实施方式可参考上述方法实施例的描述,在此不再赘述。
实施例五:
图5示出了本发明实施例五提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的计算设备5包括处理器50、存储器51以及存储在存储器51中并可在处理器50上运行的计算机程序52。该处理器50执行计算机程序52时实现上述领域词典的构建方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,处理器50执行计算机程序52时实现上述各装置实施例中各单元的功能,例如图3所示单元31至34的功能。
在本发明实施例中,对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型,计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度,根据计算得到的词语语义相似度,选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展,得到对应的领域词典,通过新词发现算法对领域词典中的未成词词汇进行筛除,以完成领域词典的构建,从而扩大了领域词典的词汇量,且提高了领域词典中领域词汇的准确度,进而提高领域词典的准确率。
本发明实施例的计算设备可以为个人计算机、服务器。该计算设备5中处理器50执行计算机程序52时实现领域词典的构建方法时实现的步骤可参考前述方法实施例的描述,在此不再赘述。
实施例六:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述领域词典的构建方法实施例中的步骤,例如,图1所示的步骤S101至S104。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图3所示单元31至34的功能。
在本发明实施例中,对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型,计算通用词向量空间模型和领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度,根据计算得到的词语语义相似度,选取对应的通用词向量或者领域词向量对初始领域种子词典进行扩展,得到对应的领域词典,通过新词发现算法对领域词典中的未成词词汇进行筛除,以完成领域词典的构建,从而扩大了领域词典的词汇量,且提高了领域词典中领域词汇的准确度,进而提高领域词典的准确率。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种领域词典的构建方法,其特征在于,所述方法包括下述步骤:
对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型;
计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度;
根据计算得到的所述词语语义相似度,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展,得到对应的领域词典;
通过新词发现算法对所述领域词典中的未成词词汇进行筛除,以完成所述领域词典的构建。
2.如权利要求1所述的方法,其特征在于,计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度的步骤,包括:
通过预设的向量余弦相似度公式计算所述通用词向量和所述领域词向量与所述种子词向量的词语语义相似度,所述向量余弦相似度公式为其中,V1为所述通用词向量或者所述领域词向量,V2为所述种子词向量,S(V1,V2)为所述词语语义相似度。
3.如权利要求1所述的方法,其特征在于,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展的步骤,包括:
当计算得到的所述词语语义相似度大于预设的领域关键词阈值时,将所述词语语义相似度对应的通用词向量或者领域词向量添加到所述初始领域种子词典中,以对所述初始领域种子词典进行扩展。
4.如权利要求1所述的方法,其特征在于,通过新词发现算法对所述领域词典中的未成词词汇进行筛除的步骤之前,所述方法还包括:
判断当前迭代次数是否达到预设的交叉迭代次数;
是则,跳转到通过新词发现算法对所述领域词典中的未成词词汇进行筛除的步骤的步骤;
否则,将所述当前迭代次数增加1次,且将所述领域词典设置为所述初始领域种子词典,并跳转到计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度的步骤。
5.一种领域词典的构建装置,其特征在于,所述装置包括:
模型训练单元,用于对选取的通用语料库和领域语料库分别进行词向量模型训练,获得对应的通用词向量空间模型和领域词向量空间模型;
相似度计算单元,用于计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度;
词典扩展单元,用于根据计算得到的所述词语语义相似度,选取对应的通用词向量或者领域词向量对所述初始领域种子词典进行扩展,得到对应的领域词典;以及
未成词筛除单元,用于通过新词发现算法对所述领域词典中的未成词词汇进行筛除,以完成所述领域词典的构建。
6.如权利要求5所述的装置,其特征在于,所述相似度计算单元包括:
相似度计算子单元,用于通过预设的向量余弦相似度公式计算所述通用词向量和所述领域词向量与所述种子词向量的词语语义相似度,所述向量余弦相似度公式为其中,V1为所述通用词向量或者所述领域词向量,V2为所述种子词向量,S(V1,V2)为所述词语语义相似度。
7.如权利要求5所述的装置,其特征在于,所述词典扩展单元包括:
词典扩展子单元,用于当计算得到的所述词语语义相似度大于预设的领域关键词阈值时,将所述词语语义相似度对应的通用词向量或者领域词向量添加到所述初始领域种子词典中,以对所述初始领域种子词典进行扩展。
8.如权利要求5所述的装置,其特征在于,所述装置还包括:
迭代次数判断单元,用于判断当前迭代次数是否达到预设的交叉迭代次数,是则,触发所述未成词筛除单元执行通过新词发现算法对所述领域词典中的未成词词汇进行筛除,否则,将所述当前迭代次数增加1次,且将所述领域词典设置为所述初始领域种子词典,并触发所述相似度计算单元执行计算所述通用词向量空间模型和所述领域词向量空间模型中对应的通用词向量和领域词向量与预设的初始领域种子词典中种子词向量的词语语义相似度。
9.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811133186.2A CN109284397A (zh) | 2018-09-27 | 2018-09-27 | 一种领域词典的构建方法、装置、设备及存储介质 |
PCT/CN2019/075956 WO2020062770A1 (zh) | 2018-09-27 | 2019-02-22 | 一种领域词典的构建方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811133186.2A CN109284397A (zh) | 2018-09-27 | 2018-09-27 | 一种领域词典的构建方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109284397A true CN109284397A (zh) | 2019-01-29 |
Family
ID=65181584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811133186.2A Pending CN109284397A (zh) | 2018-09-27 | 2018-09-27 | 一种领域词典的构建方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109284397A (zh) |
WO (1) | WO2020062770A1 (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110134943A (zh) * | 2019-04-03 | 2019-08-16 | 平安科技(深圳)有限公司 | 领域本体生成方法、装置、设备及介质 |
CN110188204A (zh) * | 2019-06-11 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110704391A (zh) * | 2019-09-23 | 2020-01-17 | 车智互联(北京)科技有限公司 | 一种词库构建方法及计算设备 |
CN110704638A (zh) * | 2019-09-30 | 2020-01-17 | 南京邮电大学 | 一种基于聚类算法的电力文本词典构造方法 |
CN110738042A (zh) * | 2019-09-12 | 2020-01-31 | 腾讯音乐娱乐科技(深圳)有限公司 | 纠错词典创建方法、装置、终端及计算机存储介质 |
WO2020062770A1 (zh) * | 2018-09-27 | 2020-04-02 | 深圳大学 | 一种领域词典的构建方法、装置、设备及存储介质 |
CN111506699A (zh) * | 2020-03-20 | 2020-08-07 | 北京邮电大学 | 一种暗语发现方法及装置 |
CN111506716A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种问答数据处理方法、装置以及计算机可读存储介质 |
CN111583915A (zh) * | 2020-04-07 | 2020-08-25 | 苏宁云计算有限公司 | n-gram语言模型的优化方法、装置、计算机设备和存储介质 |
CN111581952A (zh) * | 2020-05-20 | 2020-08-25 | 长沙理工大学 | 一种用于自然语言信息隐藏的大规模可替换词词库构建方法 |
CN111814473A (zh) * | 2020-09-11 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 特定领域的词向量增量方法、装置及存储介质 |
CN111859093A (zh) * | 2020-07-30 | 2020-10-30 | 中国联合网络通信集团有限公司 | 敏感词处理方法、装置及可读存储介质 |
CN112185359A (zh) * | 2020-09-28 | 2021-01-05 | 广州秉理科技有限公司 | 一种基于词覆盖率的语音训练集最小化方法 |
CN112530591A (zh) * | 2020-12-10 | 2021-03-19 | 厦门越人健康技术研发有限公司 | 一种闻诊测试词汇的生成方法和存储设备 |
CN112687403A (zh) * | 2021-01-08 | 2021-04-20 | 拉扎斯网络科技(上海)有限公司 | 药品词典的生成及药品搜索方法及装置 |
CN115270774A (zh) * | 2022-09-27 | 2022-11-01 | 吉奥时空信息技术股份有限公司 | 一种半监督学习的大数据关键词词典构建方法 |
CN115905575A (zh) * | 2023-01-09 | 2023-04-04 | 海乂知信息科技(南京)有限公司 | 语义知识图谱的构建方法、电子设备和存储介质 |
CN116108834A (zh) * | 2023-04-10 | 2023-05-12 | 中国民用航空飞行学院 | 交互式用户词典构建方法、装置和设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100618A1 (en) * | 2005-11-02 | 2007-05-03 | Samsung Electronics Co., Ltd. | Apparatus, method, and medium for dialogue speech recognition using topic domain detection |
CN101901249A (zh) * | 2009-05-26 | 2010-12-01 | 复旦大学 | 一种图像检索中基于文本的查询扩展与排序方法 |
CN106445906A (zh) * | 2015-08-06 | 2017-02-22 | 北京国双科技有限公司 | 领域词典中中长词词组的生成方法及装置 |
CN108563635A (zh) * | 2018-04-04 | 2018-09-21 | 北京理工大学 | 一种基于情感轮模型的情感词典快速构建方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095736A (zh) * | 2016-06-07 | 2016-11-09 | 华东师范大学 | 一种领域新词抽取的方法 |
WO2017217661A1 (ko) * | 2016-06-15 | 2017-12-21 | 울산대학교 산학협력단 | 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법 |
CN108334495A (zh) * | 2018-01-30 | 2018-07-27 | 国家计算机网络与信息安全管理中心 | 短文本相似度计算方法及系统 |
CN108491462B (zh) * | 2018-03-05 | 2021-09-14 | 昆明理工大学 | 一种基于word2vec的语义查询扩展方法及装置 |
CN109284397A (zh) * | 2018-09-27 | 2019-01-29 | 深圳大学 | 一种领域词典的构建方法、装置、设备及存储介质 |
-
2018
- 2018-09-27 CN CN201811133186.2A patent/CN109284397A/zh active Pending
-
2019
- 2019-02-22 WO PCT/CN2019/075956 patent/WO2020062770A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070100618A1 (en) * | 2005-11-02 | 2007-05-03 | Samsung Electronics Co., Ltd. | Apparatus, method, and medium for dialogue speech recognition using topic domain detection |
CN101901249A (zh) * | 2009-05-26 | 2010-12-01 | 复旦大学 | 一种图像检索中基于文本的查询扩展与排序方法 |
CN106445906A (zh) * | 2015-08-06 | 2017-02-22 | 北京国双科技有限公司 | 领域词典中中长词词组的生成方法及装置 |
CN108563635A (zh) * | 2018-04-04 | 2018-09-21 | 北京理工大学 | 一种基于情感轮模型的情感词典快速构建方法 |
Non-Patent Citations (1)
Title |
---|
GUOKAI YAN ET AL: "Mobile Medical Question and Answer System with Auto Domain Lexicon Extraction and Question Auto Annotation", 《THE 33RD YOUTH ACADEMIC ANNUAL CONFERENCE OF CHINESE ASSOCIATION OF AUTOMATION》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020062770A1 (zh) * | 2018-09-27 | 2020-04-02 | 深圳大学 | 一种领域词典的构建方法、装置、设备及存储介质 |
CN110134943A (zh) * | 2019-04-03 | 2019-08-16 | 平安科技(深圳)有限公司 | 领域本体生成方法、装置、设备及介质 |
CN110188204A (zh) * | 2019-06-11 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110188204B (zh) * | 2019-06-11 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110738042A (zh) * | 2019-09-12 | 2020-01-31 | 腾讯音乐娱乐科技(深圳)有限公司 | 纠错词典创建方法、装置、终端及计算机存储介质 |
CN110738042B (zh) * | 2019-09-12 | 2024-01-05 | 腾讯音乐娱乐科技(深圳)有限公司 | 纠错词典创建方法、装置、终端及计算机存储介质 |
CN110704391A (zh) * | 2019-09-23 | 2020-01-17 | 车智互联(北京)科技有限公司 | 一种词库构建方法及计算设备 |
CN110704638A (zh) * | 2019-09-30 | 2020-01-17 | 南京邮电大学 | 一种基于聚类算法的电力文本词典构造方法 |
CN111506699A (zh) * | 2020-03-20 | 2020-08-07 | 北京邮电大学 | 一种暗语发现方法及装置 |
CN111583915A (zh) * | 2020-04-07 | 2020-08-25 | 苏宁云计算有限公司 | n-gram语言模型的优化方法、装置、计算机设备和存储介质 |
CN111583915B (zh) * | 2020-04-07 | 2023-08-25 | 苏宁云计算有限公司 | n-gram语言模型的优化方法、装置、计算机设备和存储介质 |
CN111506716B (zh) * | 2020-04-15 | 2023-04-25 | 腾讯科技(深圳)有限公司 | 一种问答数据处理方法、装置以及计算机可读存储介质 |
CN111506716A (zh) * | 2020-04-15 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种问答数据处理方法、装置以及计算机可读存储介质 |
CN111581952A (zh) * | 2020-05-20 | 2020-08-25 | 长沙理工大学 | 一种用于自然语言信息隐藏的大规模可替换词词库构建方法 |
CN111581952B (zh) * | 2020-05-20 | 2023-10-03 | 长沙理工大学 | 一种用于自然语言信息隐藏的大规模可替换词词库构建方法 |
CN111859093A (zh) * | 2020-07-30 | 2020-10-30 | 中国联合网络通信集团有限公司 | 敏感词处理方法、装置及可读存储介质 |
CN111814473A (zh) * | 2020-09-11 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 特定领域的词向量增量方法、装置及存储介质 |
CN112185359A (zh) * | 2020-09-28 | 2021-01-05 | 广州秉理科技有限公司 | 一种基于词覆盖率的语音训练集最小化方法 |
CN112185359B (zh) * | 2020-09-28 | 2023-08-29 | 广州秉理科技有限公司 | 一种基于词覆盖率的语音训练集最小化方法 |
CN112530591A (zh) * | 2020-12-10 | 2021-03-19 | 厦门越人健康技术研发有限公司 | 一种闻诊测试词汇的生成方法和存储设备 |
CN112687403B (zh) * | 2021-01-08 | 2022-12-02 | 拉扎斯网络科技(上海)有限公司 | 药品词典的生成及药品搜索方法及装置 |
CN112687403A (zh) * | 2021-01-08 | 2021-04-20 | 拉扎斯网络科技(上海)有限公司 | 药品词典的生成及药品搜索方法及装置 |
CN115270774A (zh) * | 2022-09-27 | 2022-11-01 | 吉奥时空信息技术股份有限公司 | 一种半监督学习的大数据关键词词典构建方法 |
CN115905575A (zh) * | 2023-01-09 | 2023-04-04 | 海乂知信息科技(南京)有限公司 | 语义知识图谱的构建方法、电子设备和存储介质 |
CN116108834A (zh) * | 2023-04-10 | 2023-05-12 | 中国民用航空飞行学院 | 交互式用户词典构建方法、装置和设备 |
Also Published As
Publication number | Publication date |
---|---|
WO2020062770A1 (zh) | 2020-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284397A (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
Chen et al. | Zero-shot learning of intent embeddings for expansion by convolutional deep structured semantic models | |
CN110083710B (zh) | 一种基于循环神经网络与潜变量结构的词语定义生成方法 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
CN104615589A (zh) | 训练命名实体识别模型的方法、命名实体识别方法及装置 | |
CN109325242B (zh) | 基于词对和翻译判断句子是否对齐的方法、装置及设备 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN111859964A (zh) | 一种语句中命名实体的识别方法及装置 | |
KR20180094664A (ko) | 텍스트 데이터로부터 정보를 추출하기 위한 정보 추출 방법 및 장치 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
Buckman et al. | Neural lattice language models | |
CN112860862A (zh) | 人机对话中智能体对话语句的生成方法和装置 | |
CN110334186A (zh) | 数据查询方法、装置、计算机设备及计算机可读存储介质 | |
CN110807335A (zh) | 基于机器学习的翻译方法、装置、设备及存储介质 | |
CN110852066B (zh) | 一种基于对抗训练机制的多语言实体关系抽取方法及系统 | |
Pham et al. | Nnvlp: A neural network-based vietnamese language processing toolkit | |
CN111881256A (zh) | 文本实体关系抽取方法、装置及计算机可读存储介质设备 | |
CN111291565A (zh) | 一种用于命名实体识别的方法与装置 | |
Parker et al. | Named entity recognition through deep representation learning and weak supervision | |
CN110852063B (zh) | 基于双向lstm神经网络的词向量生成方法及装置 | |
CN112100355A (zh) | 一种智能交互方法、装置及设备 | |
CN112380861A (zh) | 模型训练方法、装置及意图识别方法、装置 | |
Celikyilmaz et al. | An empirical investigation of word class-based features for natural language understanding | |
CN110377753A (zh) | 基于关系触发词与gru模型的关系抽取方法及装置 | |
Vu-Manh et al. | Improving Vietnamese dependency parsing using distributed word representations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190129 |
|
RJ01 | Rejection of invention patent application after publication |