CN109670170A - 专业词汇挖掘方法、装置、可读存储介质及电子设备 - Google Patents

专业词汇挖掘方法、装置、可读存储介质及电子设备 Download PDF

Info

Publication number
CN109670170A
CN109670170A CN201811394144.4A CN201811394144A CN109670170A CN 109670170 A CN109670170 A CN 109670170A CN 201811394144 A CN201811394144 A CN 201811394144A CN 109670170 A CN109670170 A CN 109670170A
Authority
CN
China
Prior art keywords
phrase
participle
combination
compound object
adjacent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811394144.4A
Other languages
English (en)
Other versions
CN109670170B (zh
Inventor
董超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Dongsoft Intelligent Medical Science And Technology Research Institute Co Ltd
Neusoft Corp
Original Assignee
Shenyang Dongsoft Intelligent Medical Science And Technology Research Institute Co Ltd
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Dongsoft Intelligent Medical Science And Technology Research Institute Co Ltd, Neusoft Corp filed Critical Shenyang Dongsoft Intelligent Medical Science And Technology Research Institute Co Ltd
Priority to CN201811394144.4A priority Critical patent/CN109670170B/zh
Publication of CN109670170A publication Critical patent/CN109670170A/zh
Application granted granted Critical
Publication of CN109670170B publication Critical patent/CN109670170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本公开涉及一种专业词汇挖掘方法、装置、可读存储介质及电子设备。该方法包括:对目标领域下的原始文本数据进行分句和分词,确定每个分词对应的词性;构建含多个词组组合对象的词组组合对象集,每个词组组合对象含一词组组合、词组组合的邻接分词、构成词组组合的各分词、及上述各分词对应的词性,构成词组组合的各分词在原始文本数据中依次相邻;根据词组组合的聚合度、邻接分词的发散度、及上述各分词对应的词性,从词组组合对象集中确定满足预设条件的目标词组组合对象;将目标词组组合对象中的词组组合确定为目标领域的专业词汇。这样,无需通过人工标注数据这种方式就能够得到针对某一领域的专业词汇,节省人力成本且实施难度小。

Description

专业词汇挖掘方法、装置、可读存储介质及电子设备
技术领域
本公开涉及计算机技术领域,具体地,涉及一种专业词汇挖掘方法、装 置、可读存储介质及电子设备。
背景技术
目前,大多数的文本分析都需要用到分词技术,分词效果的优劣将会直 接影响到文本分析的质量。现有技术中,分词技术通常需要结合统计模型来 实现,在具体应用时还需要训练数据,而训练数据往往需要对大量的数据进 行人工标注,成本极高且存在实施难度。若针对专业垂直领域,例如医疗领 域,统计模型则需要对该专业垂直领域的相关专业词汇进行统计,以更好地 对该领域的相关文本分词,这样,就需要在训练数据时针对该专业垂直领域 的数据进行人工标注,这不仅增加了实施难度,也极大增加了人工成本,因此,上述人工标注数据的方式是行不通的。
发明内容
本公开的目的是提供一种专业词汇挖掘方法、装置、可读存储介质及电 子设备,以挖掘出针对相应领域的专业词汇。
为了实现上述目的,根据本公开的第一方面,提供一种专业词汇挖掘方 法。所述方法包括:
对目标领域下的原始文本数据进行分句和分词处理,并确定每一个分词 对应的词性;
构建包含多个词组组合对象的词组组合对象集,每个所述词组组合对象 包含一词组组合、所述词组组合的邻接分词、构成所述词组组合的各个分词、 以及构成所述词组组合的各分词对应的词性,其中,构成所述词组组合的各 个分词在所述原始文本数据中依次相邻;
根据词组组合对象中词组组合的聚合度、词组组合对象中邻接分词的发 散度、以及构成词组组合的各分词对应的词性,从所述词组组合对象集中确 定出满足预设条件的目标词组组合对象,其中,所述聚合度用于反映构成词 组组合的分词之间的紧密程度,所述发散度用于反映词组组合使用场景的随 机性;
将所述目标词组组合对象中的词组组合确定为所述目标领域的专业词 汇。
可选地,所述构建包含多个词组组合对象的词组组合对象集,包括:
根据分句及分词结果,对其进行停用词过滤处理,同时在停用词所在位 置设置断点,并以所述断点和分句间隔为界限,将经停用词过滤处理后得到 的多个分词划分为若干个分词集合,其中,每个所述分词集合包含至少一个 所述分词;
针对每一个所述分词集合进行窗口内分词组合,确定出包含多个词组组 合的词组组合集,其中,所述窗口的长度从1开始依次递增至预设的最大窗 口长度,所述窗口长度对应于待组合的分词个数;
针对所述词组组合集中的各个词组组合,构建所述词组组合对象集。
可选地,所述预设条件包括:
词组组合的聚合度大于或者等于预设的聚合度阈值;
邻接分词的发散度大于或者等于预设的发散度阈值;以及
构成词组组合的各分词对应的词性满足预设的词性组合。
可选地,所述词组组合对象中词组组合的聚合度通过如下方式确定:
计算词组组合对象中的词组组合在所述原始文本数据中的词频;
根据所述词频,按照如下公式(1)计算词组组合w所对应的出现概率:
其中,tfw为词组组合w在原始文本数据中的词频,tfi为词组组合i在原 始文本数据中的词频,n为词组组合对象集中词组组合对象的总数,为 词组组合对象集中所有词组组合的词频之和;
根据所述出现概率,按照如下公式(2)计算所述词组组合w对应的独 立性倍数:
其中,P(w)为词组组合w所对应的出现概率,wset为词组组合w中包 含的分词,∏word in wsetP(word)为词组组合w中各分词出现概率的乘积;
根据计算出的所述独立性倍数,按照如下公式(3)计算词组组合w的 聚合度:
C(w)=log2(H(w)) (3)
其中,C(w)为词组组合w对应的聚合度,H(w)为词组组合w对应的独 立性倍数。
可选地,所述词组组合的邻接分词包括左侧邻接分词和右侧邻接分词;
所述词组组合对象中邻接分词的发散度通过如下方式确定:
通过公式(4)计算词组组合对象中词组组合w的左侧邻接分词的第一 信息熵,同时,通过公式(5)计算所述词组组合w的右侧邻接分词的第二 信息熵:
其中,LD(w)为词组组合w对应的第一信息熵,RD(w)为词组组合w对 应的第二信息熵,wleft为词组组合w的左侧邻接分词,wright为词组组合w的 右侧邻接分词,Q1(x)为邻接分词x在左侧所有邻接分词中的出现概率,Q2(x) 为邻接分词x在右侧所有邻接分词中的出现概率;
将词组组合对应的第一信息熵和第二信息熵中的最大值确定为相应词 组组合对象中邻接分词的发散度。
根据本公开的第二方面,提供一种专业词汇挖掘装置。所述装置包括:
处理模块,用于对目标领域下的原始文本数据进行分句和分词处理,并 确定每一个分词对应的词性;
构建模块,用于构建包含多个词组组合对象的词组组合对象集,每个所 述词组组合对象包含一词组组合、所述词组组合的邻接分词、构成所述词组 组合的各个分词、以及构成所述词组组合的各分词对应的词性,其中,构成 所述词组组合的各个分词在所述原始文本数据中依次相邻;
第一确定模块,用于根据词组组合对象中词组组合的聚合度、词组组合 对象中邻接分词的发散度、以及构成词组组合的各分词对应的词性,从所述 词组组合对象集中确定出满足预设条件的目标词组组合对象,其中,所述聚 合度用于反映构成词组组合的分词之间的紧密程度,所述发散度用于反映词 组组合使用场景的随机性;
第二确定模块,用于将所述目标词组组合对象中的词组组合确定为所述 目标领域的专业词汇。
可选地,所述构建模块包括:
处理子模块,用于根据分句及分词结果,对其进行停用词过滤处理,同 时在停用词所在位置设置断点,并以所述断点和分句间隔为界限,将经停用 词过滤处理后得到的多个分词划分为若干个分词集合,其中,每个所述分词 集合包含至少一个所述分词;
确定子模块,用于针对每一个所述分词集合进行窗口内分词组合,确定 出包含多个词组组合的词组组合集,其中,所述窗口的长度从1开始依次递 增至预设的最大窗口长度,所述窗口长度对应于待组合的分词个数;
构建子模块,用于针对所述词组组合集中的各个词组组合,构建所述词 组组合对象集。
可选地,所述预设条件包括:
词组组合的聚合度大于或者等于预设的聚合度阈值;
邻接分词的发散度大于或者等于预设的发散度阈值;以及
构成词组组合的各分词对应的词性满足预设的词性组合。
可选地,所述第一确定模块用于通过如下方式确定词组组合对象中词组 组合的聚合度:
计算词组组合对象中的词组组合在所述原始文本数据中的词频;根据所 述词频,按照如下公式(1)计算词组组合w所对应的出现概率:
其中,tfw为词组组合w在原始文本数据中的词频,tfi为词组组合i在原 始文本数据中的词频,n为词组组合对象集中词组组合对象的总数,为 词组组合对象集中所有词组组合的词频之和;根据所述出现概率,按照如下 公式(2)计算所述词组组合w对应的独立性倍数:
其中,P(w)为词组组合w所对应的出现概率,wset为词组组合w中包 含的分词,∏word in wsetP(word)为词组组合w中各分词出现概率的乘积;根据 计算出的所述独立性倍数,按照如下公式(3)计算词组组合w的聚合度:
C(w)=log2(H(w)) (3)
其中,C(w)为词组组合w对应的聚合度,H(w)为词组组合w对应的独 立性倍数。
可选地,所述词组组合的邻接分词包括左侧邻接分词和右侧邻接分词;
所述第一确定模块用于通过如下方式确定词组组合对象中邻接分词的 发散度:
通过公式(4)计算词组组合对象中词组组合w的左侧邻接分词的第一 信息熵,同时,通过公式(5)计算所述词组组合w的右侧邻接分词的第二 信息熵:
其中,LD(w)为词组组合w对应的第一信息熵,RD(w)为词组组合w对 应的第二信息熵,wleft为词组组合w的左侧邻接分词,wright为词组组合w的 右侧邻接分词,Q1(x)为邻接分词x在左侧所有邻接分词中的出现概率,Q2(x) 为邻接分词x在右侧所有邻接分词中的出现概率;将词组组合对应的第一信 息熵和第二信息熵中的最大值确定为相应词组组合对象中邻接分词的发散 度。
根据本公开的第三方面,提供一种计算机可读存储介质,其上存储有计 算机程序,该程序被处理器执行时实现本公开第一方面所述方法的步骤。
根据本公开的第四方面,提供一种电子设备包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一 方面所述方法的步骤。
通过上述技术方案,对目标领域下的原始文本数据进行分句及分词处理, 确定每个分词对应的词性,并构建含多个词组组合对象的词组组合对象集, 根据各词组组合对象中词组组合的聚合度、邻接分词的发散度以及构成该词 组组合的分词对应的词性,从词组组合对象集中确定出满足预设条件的目标 词组组合对象,并将该目标词组组合对象中的词组组合确定为目标领域的专 业词汇。针对某一领域的原始文本数据进行数据预处理后,通过构建词组组 合对象集的方式确定出原始文本数据中出现的可能的词组组合以及每种词 组组合的相关信息,并通过例如词组组合的聚合度、邻接分词的发散度以及 各分词的词性等能够反映词汇构成特性的信息从词组组合对象集中筛选出 符合要求的词组组合对象,并将其中所包含的词组组合确定为该领域的专业 词汇。这样,无需通过人工标注数据这种方式就能够得到针对某一领域的专 业词汇,节省人力成本且实施难度小。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与 下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在 附图中:
图1是根据本公开的一种实施方式提供的专业词汇挖掘方法的流程图;
图2是根据本公开提供的专业词汇挖掘方法中,构建包含多个词组组合 对象的词组组合对象集的步骤的一种示例性实现方式的流程图;
图3A是根据本公开提供的专业词汇挖掘方法中,对分词集合进行窗口 内分词组合的一种示例性场景示意图;
图3B是根据本公开提供的专业词汇挖掘方法中,对分词集合进行窗口 内分词组合的一种示例性场景示意图;
图3C是根据本公开提供的专业词汇挖掘方法中,对分词集合进行窗口 内分词组合的一种示例性场景示意图;
图4是根据本公开提供的专业词汇挖掘方法中,确定词组组合对象中词 组组合的聚合度的步骤的一种示例性实现方式的流程图;
图5是根据本公开的一种实施方式提供的专业词汇挖掘装置的框图;
图6是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是, 此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是根据本公开的一种实施方式提供的专业词汇挖掘方法的流程图。 如图1所示,该方法可以包括以下步骤。
在步骤11中,对目标领域下的原始文本数据进行分句和分词处理,并 确定每一个分词对应的词性。
在利用本公开的方法针对某领域的专业词汇进行挖掘前,可以预先收集 该领域的相关文本数据。示例地,若目标领域为医疗领域,那么可以预先收 集例如电子病历、诊断报告、医疗专业论文文献等,并将其作为该目标领域 的原始文本数据,从而可以针对医学领域进行专业词汇挖掘。
在对原始文本数据进行分句和分词处理时,可以首先对原始文本数据进 行分句处理得到多个分句,进而针对得到的各个分句进行分词处理以及词性 标注处理,得到分词结果以及分词结果中每一个分词对应的词性。
在步骤12中,构建包含多个词组组合对象的词组组合对象集。
每个词组组合对象可以包含一词组组合、该词组组合的邻接分词、构成 该词组组合的各个分词、以及构成该词组组合的各分词对应的词性。构成词 组组合的各个分词在原始文本数据中依次相邻。词组组合的邻接分词为与该 词组组合相邻的分词,可以包括左侧邻接分词和右侧邻接分词。示例地,若 词组组合对象为下列形式:(“词组组合”,“词组组合的左侧邻接分词”,“词 组组合的右侧邻接分词”,“构成词组组合的分词”,“构成词组组合的各分词 对应的词性”),且从原始文本数据中截取一部分分词结果为:v1、v2、v3、 v4、v3、v5、v6(此处,在各分词间加入顿号以示区分,无实际意义),已 知v1~v6的词性依次对应k1~k6,那么对于词组组合v4v3v5,其左侧邻接分 词为v3,其右侧邻接分词为v6,构成该词组组合的各个分词为v4、v3、v5, 构成该词组组合的各分词对应的词性为k4、k3、k5,因此,相应的词组组合 对象则可以为(“v4v3v5”,“v3”,“v6”,“v4v3v5”,“k4k3k5”)。
在一种可能的情况中,如词组组合不存在左侧邻接分词(例如,该词组 组合左侧为标点符号)、或者不存在右侧邻接分词(例如,该词组组合右侧 为标点符号)、或者不存在左侧邻接分词和右侧邻接分词(例如,该词组组 合左右两侧均为标点符号),可以将不存在邻接分词的一侧所对应的邻接分 词记为预设标识符。
在步骤13中,根据词组组合对象中词组组合的聚合度、词组组合对象 中邻接分词的发散度、以及构成词组组合的各分词对应的词性,从词组组合 对象集中确定出满足预设条件的目标词组组合对象。
其中,聚合度可以用于反映构成词组组合的分词之间的紧密程度,发散 度可以用于反映词组组合使用场景的随机性。通过上述聚合度、发散度、词 性,并结合预设条件,可以从词组组合对象集中筛选出符合该预设条件的目 标词组组合对象。
在步骤14中,将目标词组组合对象中的词组组合确定为目标领域的专 业词汇。
根据确定出的目标词组组合对象,可以从各个目标词组组合对象中提取 出词组组合,并将提取出的词组组合确定为该目标领域的专业词汇。
通过上述方案,对目标领域下的原始文本数据进行分句及分词处理,确 定每个分词对应的词性,并构建含多个词组组合对象的词组组合对象集,根 据各词组组合对象中词组组合的聚合度、邻接分词的发散度以及构成该词组 组合的分词对应的词性,从词组组合对象集中确定出满足预设条件的目标词 组组合对象,并将该目标词组组合对象中的词组组合确定为目标领域的专业 词汇。针对某一领域的原始文本数据进行数据预处理后,通过构建词组组合 对象集的方式确定出原始文本数据中出现的可能的词组组合以及每种词组组合的相关信息,并通过例如词组组合的聚合度、邻接分词的发散度以及各 分词的词性等能够反映词汇构成特性的信息从词组组合对象集中筛选出符 合要求的词组组合对象,并将其中所包含的词组组合确定为该领域的专业词 汇。这样,无需通过人工标注数据这种方式就能够得到针对某一领域的专业 词汇,节省人力成本且实施难度小。
为了使本领域技术人员更加理解本发明实施例提供的技术方案,下面对 上文中的相应步骤进行详细的说明。
首先,针对步骤12中的构建包含多个词组组合对象的词组组合集进行 举例说明。在一种可能的实施例中,步骤12可以包括以下步骤,如图2所 示。
在步骤21中,根据分句及分词结果,对其进行停用词过滤处理,同时 在停用词所在位置设置断点,并以断点和分句间隔为界限,将经停用词过滤 处理后得到的多个分词划分为若干个分词集合。其中,每个分词集合可以包 含至少一个分词。
利用预先给定的停用词表,对分句及分词得到的结果进行停用词过滤处 理,将其中处于停用词表内的停用词删除,同时在停用词所在的位置设置断 点,经停用词过滤处理后得到的多个分词中已经不再包含停用词,这样可以 减小停用词产生的噪声,对后续的词汇挖掘有积极效果。
而后,可以以断点和分句间隔为界限,将经停用词过滤处理后得到的多 个分词划分为若干个分词集合。
示例地,若对原始文本数据D进行分句处理后得到分句结果{S1,S2}, 表示D中所包含的各个句子,再对各句进行分词处理后,得到分词结果{{v1, v7,v2,v3,v8,v2},{v4,v6,v5,v4,v5}},其中,v7和v8为停用词, 则在经过停用词过滤处理以及断点设置后可得到{{v1,/,v2,v3,/,v2}, {v4,v6,v5,v4,v5}},其中,符号“/”表示设置在停用词位置的断点,那么,以断点和分句间隔为界限,将经停用词过滤处理后得到的多个分词划 分为若干个分词集合后,则会得到{“v1”,“v2,v3”,“v2”,“v4,v6,v5, v4,v5”},也就是四个分词集合。
需要说明的是,上述示例中的分句结果、分词结果、停用词符号等数据 表示形式仅用作解释说明,并不代表实际应用时的数据形式。对于实际应用 时的数据形式,本公开不进行限制。
在步骤22中,针对每一个分词集合进行窗口内分词组合,确定出包含 多个词组组合的词组组合集。
其中,窗口的长度从1开始依次递增至预设的最大窗口长度,窗口长度 对应于待组合的分词个数。示例地,预设的最大窗口长度可以为4,那么在 对分词集合进行窗口内分词组合时,窗口的长度为1、2、3、4,也就是说, 在针对分词集合进行窗口内分词组合时,分别以窗口长度为1~4进行窗口内 分词组合。示例地,若某分词集合为“v4,v6,v5,v4,v5”,预设的最大 窗口长度为3,那么在对其进行窗口内分词组合时,窗口长度分别为1、2、 3,具体情形可以如图3A~图3C中所示。在图3A中,示出了窗口长度为1 时,针对分词集合“v4,v6,v5,v4,v5”进行窗口内分词组合的一种示例 场景,其中,箭头方向可以表示窗口的移动方向,图3A所示情景中所得到 的词组组合为v4,窗口长度为1时得到的全部词组组合为v4、v6、v5、v4、 v5。在图3B中,示出了窗口长度为2时对该分词集合进行窗口内分词组合 的一种示例场景,其中,箭头方向表示窗口的移动方向,图3B所示情景中 所得到的词组组合为v6v5,窗口长度为2时得到的全部词组组合为v4v6、 v6v5、v5v4、v4v5。在图3C中,示出了窗口长度为3时对该分词集合进行 窗口内分词组合的一种示例场景,其中,箭头方向表示窗口的移动方向,图 3C所示情景中得到的词组组合为v5v4v5,窗口长度为3时得到的全部词组 组合为v4v6v5、v6v5v4、v5v4v5。
针对从原始文本数据得到的所有分词集合,均采用上述步骤,则可以得 到原始文本数据对应的包含多个词组组合的词组组合集。
在步骤23中,针对词组组合集中的各个词组组合,构建词组组合对象 集。
根据步骤22得到的词组组合集,针对其中的各个词组组合,构建词组 组合对象集。以步骤22所示示例中的词组组合v6v5为例,其词组组合对象 为(v6v5,v4,v4,v6v5,k6k5),其中k6为分词v6对应的词性,k5为分 词v5对应的词性。
采用上述方式,以停用词所在位置和分句间隔为界限,将原始文本数据 中分为多个分词集合,并针对每个分词集合确定其可能的词组组合,并以此 确定词组组合对象集,从而为后续的词汇挖掘提供较为全面的数据准备。
在构建出词组组合对象集后,可以执行步骤13,即根据各词组组合对象 中词组组合的聚合度、邻接分词的发散度、以及构成词组组合的各分词对应 的词性,从词组组合对象集中确定出满足预设条件的目标词组组合对象。
下面首先针对词组组合对象中词组组合的聚合度的确定方式进行详细 说明。聚合度可以用于反映构成词组组合的分词之间的紧密程度,若构成词 组组合的各分词之间的紧密程度越高,则该词组组合为专业词汇的可能性就 越大,类似于词语的固定搭配。
聚合度可以以构成词组组合的各分词之间的独立性作为衡量指标,也就 是说,词组组合中各分词之间的独立性越高,则说明该分词可组合的随机性 越大,聚合度越低;而词组组合中各分词之间的独立性越低,则说明该分词 可组合的随机性越小,聚合度越高。因此,在一种实施方式中,词组组合对 象中词组组合的聚合度可以通过如图4所示的方式确定,可包含下列步骤。
在步骤41中,计算词组组合对象中的词组组合在原始文本数据中的词 频。
某词组组合在原始文本数据中的词频可以通过该词组组合在原始文本 数据中的出现次数除以原始文本数据分词所得到的总词数计算。
在步骤42中,根据该词频,计算该词组组合所对应的出现概率。
示例地,词组组合的出现概率可以通过该词组组合的词频除以词组组合 对象集中各词组组合的词频之和得到。因此,可以按照如下公式(1)计算 词组组合w所对应的出现概率:
其中,tfw为词组组合w在原始文本数据中的词频,tfi为词组组合i在原 始文本数据中的词频,n为词组组合对象集中词组组合对象的总数,为 词组组合对象集中所有词组组合的词频之和。
在步骤43中,根据该出现概率,计算该词组组合对应的独立性倍数。
对于分词v1和分词v2及二者组成的词组组合v1v2,三者在原始文本数 据的出现概率依次为P1、P2、P3,若分词v1和分词v2间相互独立,那么 P1与P2的乘积和P3是非常接近的。而若分词v1和分词v2间并不是绝对 的相互独立,则有P3≈独立性倍数*P1*P2,因此,依据此原理可求得独立 性倍数。并且,分词间独立性越高,独立性倍数越小,聚合度越低;分词间 独立性越低,独立性倍数越高,聚合度越高。
示例地,可以按照如下公式(2)计算词组组合w对应的独立性倍数:
其中,P(w)为词组组合w所对应的出现概率,wset为词组组合w中包 含的分词,∏word in wsetP(word)为词组组合w中各分词出现概率的乘积。其中, 对分词出现概率的计算与上文中对词组组合出现概率的计算原理相同。
示例地,对于词组组合v6v5v5v6,其出现概率为P7,且分词v6的出现 概率为P6,分词v5的出现概率为P5,那么该词组组合的独立性倍数可以通 过P7/(P6*P5*P5*P6)计算得出。
在步骤44中,根据计算出的独立性倍数,计算该词组组合的聚合度。
示例地,可按照如下公式(3)计算词组组合w的聚合度:
C(w)=log2(H(w)) (3)
其中,C(w)为词组组合w对应的聚合度,H(w)为词组组合w对应的独 立性倍数。
采用上述方式,可通过词组组合的出现概率以及构成词组组合的各分词 的出现概率确定词组组合的独立性倍数,并通过独立性倍数确定词组组合的 聚合度,可以较为准确地对词组组合的聚合度进行衡量。
词组组合的聚合度反映的是构成词组组合的各分子之间的紧密程度,它 着重反映的是词组组合内部的情况,而要确定专业词汇,还需要考虑各词组 组合在不同上下文环境中的发散情况,也就是词组组合使用场景的随机性。 词组组合使用的场景越随机,说明其发散运用的程度越高,该词组组合是专 业词汇的可能性越大,相应地,其邻接分词则越丰富;而若词组组合使用的 场景越单一,说明其发散运用的程度越低,该词组组合是专业词汇的可能性 越低,相应地,其邻接分词则越单一。
下面将针对词组组合对象中邻接分词的发散度的确定方式进行详细说 明。发散度可以通过信息熵来衡量,信息熵越大,其使用场景越随机。因此, 在一种可能的实施方式中,对词组组合对象中邻接分词的发散度可以通过如 下方式确定:
计算词组组合对象中左侧邻接分词的第一信息熵,同时,计算右侧邻接 分词的第二信息熵;
将词组组合对应的第一信息熵和第二信息熵中的最大值确定为相应词 组组合对象中邻接分词的发散度。
示例地,可以通过公式(4)计算词组组合对象中词组组合w的左侧邻 接分词的第一信息熵,同时,通过公式(5)计算所述词组组合w的右侧邻 接分词的第二信息熵:
其中,LD(w)为词组组合w对应的第一信息熵,RD(w)为词组组合w对 应的第二信息熵,wleft为词组组合w的左侧邻接分词,wright为词组组合w的 右侧邻接分词,Q1(x)为邻接分词x在左侧所有邻接分词中的出现概率,Q2(x) 为邻接分词x在右侧所有邻接分词中的出现概率示例地log(Q1(x))和 log(Q2(x))通常以2作为底数进行计算
示例地,若词组组合w的左侧邻接分词为x1、x2、x3、x4、x5,且依次 作为词组组合w的左侧邻接分词出现x10、x20、x30、x40、x50次,那么可 得Q1(x1)=x10/(x10+x20+x30+x40+x50)。
在一实施例中,在确定第一信息熵和第二信息熵后,可以将其中较大值 作为发散度。
在另一实施例中,还可以对第一信息熵和第二信息熵取平均值,从而确 定相应词组组合对应的发散度。
采用上述方式,可通过词组组合对象中邻接分词的信息熵确定邻接分词 的发散度,可以较为准确地反映词组组合的使用场景的随机性。
下面针对步骤13中对于目标词组组合对象的确定进行详细说明。
在一实施例中,预设条件可以包括以下几者:
词组组合的聚合度大于或者等于预设的聚合度阈值;
邻接分词的发散度大于或者等于预设的发散度阈值;以及
构成词组组合的各分词对应的词性满足预设的词性组合。
针对计算得到的各词组组合对象对应的聚合度,确定出其中大于或等于 预设的聚合度阈值的词组组合对象,以确定出分词间紧密度较高的词组组合 对象。
针对计算得到的各词组组合对象对应的发散度,确定出其中大于或等于 预设的发散度阈值的词组组合对象,以确定出使用场景更为随机的词组组合 对象。
可以预先存储一成词词性组合表,其中包含预设的词性组合,针对词组 组合对象中构成词组组合的各分词对应的词性,结合预设的词性组合可以确 定出词性组成符合成词词性组合表的词组组合对象。示例地,若预设的词性 组合为k2k3k4、k3k5k1、k3k2,其中,k1~k5表示词性,那么构成词组组合 的各分词对应的词性为k3k5k1的词组组合对象满足上述预设的词性组合, 而构成词组组合的各分词对应的词性为k3k1k5的词组组合对象则不满足上 述预设的词性组合。
在一种实施方式中,可以依次根据聚合度、发散度、词性对词组组合对 象集中的各词组组合对象进行筛选,以确定目标词组组合对象。需要说明的 是,这里对于聚合度、发散度、词性的筛选顺序并不是唯一的,可以最先根 据聚合度筛选、也可以最先根据发散度筛选、还可以最先根据词性筛选,本 公开对此不进行限定。
采用上述方式,可以依据聚合度、发散度、词性层层筛选,逐渐减小计 算量,保证目标词组组合对象的确定效率。
在另一种实施方式中,可以根据聚合度、发散度以及词性同时对词组组 合对象集中的各词组组合对象进行筛选,以确定目标词组组合对象。
采用上述方式,将词组组合对象中词组组合聚合度较高、邻接分词发散 度较高且各分词词性符合要求的词组组合对象确定为目标词组组合对象,可 以保证目标词组组合对象中,词组组合内、外以及整体都符合专业词汇的特 征,以便为专业词汇挖掘提供优质的备选方案。
图5是根据本公开的一种实施方式提供的专业词汇挖掘装置的框图。如 图5所示,该装置50包括:
处理模块51,用于对目标领域下的原始文本数据进行分句和分词处理, 并确定每一个分词对应的词性;
构建模块52,用于构建包含多个词组组合对象的词组组合对象集,每个 所述词组组合对象包含一词组组合、所述词组组合的邻接分词、构成所述词 组组合的各个分词、以及构成所述词组组合的各分词对应的词性,其中,构 成所述词组组合的各个分词在所述原始文本数据中依次相邻;
第一确定模块53,用于根据词组组合对象中词组组合的聚合度、词组组 合对象中邻接分词的发散度、以及构成词组组合的各分词对应的词性,从所 述词组组合对象集中确定出满足预设条件的目标词组组合对象,其中,所述 聚合度用于反映构成词组组合的分词之间的紧密程度,所述发散度用于反映 词组组合使用场景的随机性;
第二确定模块54,用于将所述目标词组组合对象中的词组组合确定为所 述目标领域的专业词汇。
可选地,所述构建模块52包括:
处理子模块,用于根据分句及分词结果,对其进行停用词过滤处理,同 时在停用词所在位置设置断点,并以所述断点和分句间隔为界限,将经停用 词过滤处理后得到的多个分词划分为若干个分词集合,其中,每个所述分词 集合包含至少一个所述分词;
确定子模块,用于针对每一个所述分词集合进行窗口内分词组合,确定 出包含多个词组组合的词组组合集,其中,所述窗口的长度从1开始依次递 增至预设的最大窗口长度,所述窗口长度对应于待组合的分词个数;
构建子模块,用于针对所述词组组合集中的各个词组组合,构建所述词 组组合对象集。
可选地,所述预设条件包括:
词组组合的聚合度大于或者等于预设的聚合度阈值;
邻接分词的发散度大于或者等于预设的发散度阈值;以及
构成词组组合的各分词对应的词性满足预设的词性组合。
可选地,所述第一确定模块53用于通过如下方式确定词组组合对象中 词组组合的聚合度:
计算词组组合对象中的词组组合在所述原始文本数据中的词频;根据所 述词频,按照如下公式(1)计算词组组合w所对应的出现概率:
其中,tfw为词组组合w在原始文本数据中的词频,tfi为词组组合i在原 始文本数据中的词频,n为词组组合对象集中词组组合对象的总数,为 词组组合对象集中所有词组组合的词频之和;根据所述出现概率,按照如下 公式(2)计算所述词组组合w对应的独立性倍数:
其中,P(w)为词组组合w所对应的出现概率,wset为词组组合w中包 含的分词,∏word in wsetP(word)为词组组合w中各分词出现概率的乘积;根据 计算出的所述独立性倍数,按照如下公式(3)计算词组组合w的聚合度:
C(w)=log2(H(w)) (3)
其中,C(w)为词组组合w对应的聚合度,H(w)为词组组合w对应的独 立性倍数。
可选地,所述词组组合的邻接分词包括左侧邻接分词和右侧邻接分词;
所述第一确定模块53用于通过如下方式确定词组组合对象中邻接分词 的发散度:
通过公式(4)计算词组组合对象中词组组合w的左侧邻接分词的第一 信息熵,同时,通过公式(5)计算所述词组组合w的右侧邻接分词的第二 信息熵:
其中,LD(w)为词组组合w对应的第一信息熵,RD(w)为词组组合w对 应的第二信息熵,wleft为词组组合w的左侧邻接分词,wright为词组组合w的 右侧邻接分词,Q1(x)为邻接分词x在左侧所有邻接分词中的出现概率,Q2(x) 为邻接分词x在右侧所有邻接分词中的出现概率;将词组组合对应的第一信 息熵和第二信息熵中的最大值确定为相应词组组合对象中邻接分词的发散 度。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有 关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是根据一示例性实施例示出的一种电子设备的框图。例如,电子设 备1900可以被提供为一服务器。参照图6,电子设备1900包括处理器1922, 其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执 行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以 上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行 该计算机程序,以执行上述的专业词汇挖掘方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电 源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950 可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外, 该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可 以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储 介质,该程序指令被处理器执行时实现上述的专业词汇挖掘方法的步骤。例 如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程 序指令可由电子设备1900的处理器1922执行以完成上述的专业词汇挖掘方 法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限 于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开 的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征, 在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的 重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其 不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种专业词汇挖掘方法,其特征在于,所述方法包括:
对目标领域下的原始文本数据进行分句和分词处理,并确定每一个分词对应的词性;
构建包含多个词组组合对象的词组组合对象集,每个所述词组组合对象包含一词组组合、所述词组组合的邻接分词、构成所述词组组合的各个分词、以及构成所述词组组合的各分词对应的词性,其中,构成所述词组组合的各个分词在所述原始文本数据中依次相邻;
根据词组组合对象中词组组合的聚合度、词组组合对象中邻接分词的发散度、以及构成词组组合的各分词对应的词性,从所述词组组合对象集中确定出满足预设条件的目标词组组合对象,其中,所述聚合度用于反映构成词组组合的分词之间的紧密程度,所述发散度用于反映词组组合使用场景的随机性;
将所述目标词组组合对象中的词组组合确定为所述目标领域的专业词汇。
2.根据权利要求1所述的方法,其特征在于,所述构建包含多个词组组合对象的词组组合对象集,包括:
根据分句及分词结果,对其进行停用词过滤处理,同时在停用词所在位置设置断点,并以所述断点和分句间隔为界限,将经停用词过滤处理后得到的多个分词划分为若干个分词集合,其中,每个所述分词集合包含至少一个所述分词;
针对每一个所述分词集合进行窗口内分词组合,确定出包含多个词组组合的词组组合集,其中,所述窗口的长度从1开始依次递增至预设的最大窗口长度,所述窗口长度对应于待组合的分词个数;
针对所述词组组合集中的各个词组组合,构建所述词组组合对象集。
3.根据权利要求1所述的方法,其特征在于,所述预设条件包括:
词组组合的聚合度大于或者等于预设的聚合度阈值;
邻接分词的发散度大于或者等于预设的发散度阈值;以及
构成词组组合的各分词对应的词性满足预设的词性组合。
4.根据权利要求1所述的方法,其特征在于,所述词组组合对象中词组组合的聚合度通过如下方式确定:
计算词组组合对象中的词组组合在所述原始文本数据中的词频;
根据所述词频,按照如下公式(1)计算词组组合w所对应的出现概率:
其中,tfw为词组组合w在原始文本数据中的词频,tfi为词组组合i在原始文本数据中的词频,n为词组组合对象集中词组组合对象的总数,为词组组合对象集中所有词组组合的词频之和;
根据所述出现概率,按照如下公式(2)计算所述词组组合w对应的独立性倍数:
其中,P(w)为词组组合w所对应的出现概率,wset为词组组合w中包含的分词,∏word in wsetP(word)为词组组合w中各分词出现概率的乘积;
根据计算出的所述独立性倍数,按照如下公式(3)计算词组组合w的聚合度:
C(w)=log2(H(w)) (3)
其中,C(w)为词组组合w对应的聚合度,H(w)为词组组合w对应的独立性倍数。
5.根据权利要求1所述的方法,其特征在于,所述词组组合的邻接分词包括左侧邻接分词和右侧邻接分词;
所述词组组合对象中邻接分词的发散度通过如下方式确定:
通过公式(4)计算词组组合对象中词组组合w的左侧邻接分词的第一信息熵,同时,通过公式(5)计算所述词组组合w的右侧邻接分词的第二信息熵:
其中,LD(w)为词组组合w对应的第一信息熵,RD(w)为词组组合w对应的第二信息熵,wleft为词组组合w的左侧邻接分词,wright为词组组合w的右侧邻接分词,Q1(x)为邻接分词x在左侧所有邻接分词中的出现概率,Q2(x)为邻接分词x在右侧所有邻接分词中的出现概率;
将词组组合对应的第一信息熵和第二信息熵中的最大值确定为相应词组组合对象中邻接分词的发散度。
6.一种专业词汇挖掘装置,其特征在于,所述装置包括:
处理模块,用于对目标领域下的原始文本数据进行分句和分词处理,并确定每一个分词对应的词性;
构建模块,用于构建包含多个词组组合对象的词组组合对象集,每个所述词组组合对象包含一词组组合、所述词组组合的邻接分词、构成所述词组组合的各个分词、以及构成所述词组组合的各分词对应的词性,其中,构成所述词组组合的各个分词在所述原始文本数据中依次相邻;
第一确定模块,用于根据词组组合对象中词组组合的聚合度、词组组合对象中邻接分词的发散度、以及构成词组组合的各分词对应的词性,从所述词组组合对象集中确定出满足预设条件的目标词组组合对象,其中,所述聚合度用于反映构成词组组合的分词之间的紧密程度,所述发散度用于反映词组组合使用场景的随机性;
第二确定模块,用于将所述目标词组组合对象中的词组组合确定为所述目标领域的专业词汇。
7.根据权利要求6所述的装置,其特征在于,所述构建模块包括:
处理子模块,用于根据分句及分词结果,对其进行停用词过滤处理,同时在停用词所在位置设置断点,并以所述断点和分句间隔为界限,将经停用词过滤处理后得到的多个分词划分为若干个分词集合,其中,每个所述分词集合包含至少一个所述分词;
确定子模块,用于针对每一个所述分词集合进行窗口内分词组合,确定出包含多个词组组合的词组组合集,其中,所述窗口的长度从1开始依次递增至预设的最大窗口长度,所述窗口长度对应于待组合的分词个数;
构建子模块,用于针对所述词组组合集中的各个词组组合,构建所述词组组合对象集。
8.根据权利要求6所述的装置,其特征在于,所述预设条件包括:
词组组合的聚合度大于或者等于预设的聚合度阈值;
邻接分词的发散度大于或者等于预设的发散度阈值;以及
构成词组组合的各分词对应的词性满足预设的词性组合。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
CN201811394144.4A 2018-11-21 2018-11-21 专业词汇挖掘方法、装置、可读存储介质及电子设备 Active CN109670170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811394144.4A CN109670170B (zh) 2018-11-21 2018-11-21 专业词汇挖掘方法、装置、可读存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811394144.4A CN109670170B (zh) 2018-11-21 2018-11-21 专业词汇挖掘方法、装置、可读存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN109670170A true CN109670170A (zh) 2019-04-23
CN109670170B CN109670170B (zh) 2023-04-07

Family

ID=66142251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811394144.4A Active CN109670170B (zh) 2018-11-21 2018-11-21 专业词汇挖掘方法、装置、可读存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109670170B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309513A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411563A (zh) * 2010-09-26 2012-04-11 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN103955450A (zh) * 2014-05-06 2014-07-30 杭州东信北邮信息技术有限公司 一种新词自动提取方法
CN106919627A (zh) * 2015-12-28 2017-07-04 北京国双科技有限公司 热词的处理方法和装置
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
US20180217979A1 (en) * 2016-02-18 2018-08-02 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置
CN108647205A (zh) * 2018-05-02 2018-10-12 深圳前海微众银行股份有限公司 细粒度情感分析模型构建方法、设备及可读存储介质
CN109344406A (zh) * 2018-09-30 2019-02-15 阿里巴巴集团控股有限公司 词性标注方法、装置和电子设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411563A (zh) * 2010-09-26 2012-04-11 阿里巴巴集团控股有限公司 一种识别目标词的方法、装置及系统
CN102930055A (zh) * 2012-11-18 2013-02-13 浙江大学 结合内部聚合度和外部离散信息熵的网络新词发现方法
CN103870447A (zh) * 2014-03-11 2014-06-18 北京优捷信达信息科技有限公司 一种基于隐含狄利克雷模型的关键词抽取方法
CN103955450A (zh) * 2014-05-06 2014-07-30 杭州东信北邮信息技术有限公司 一种新词自动提取方法
CN106919627A (zh) * 2015-12-28 2017-07-04 北京国双科技有限公司 热词的处理方法和装置
US20180217979A1 (en) * 2016-02-18 2018-08-02 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus
WO2017185674A1 (zh) * 2016-04-29 2017-11-02 乐视控股(北京)有限公司 新词发现方法及装置
CN108595433A (zh) * 2018-05-02 2018-09-28 北京中电普华信息技术有限公司 一种新词发现方法及装置
CN108647205A (zh) * 2018-05-02 2018-10-12 深圳前海微众银行股份有限公司 细粒度情感分析模型构建方法、设备及可读存储介质
CN109344406A (zh) * 2018-09-30 2019-02-15 阿里巴巴集团控股有限公司 词性标注方法、装置和电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309513A (zh) * 2019-07-09 2019-10-08 北京金山数字娱乐科技有限公司 一种文本依存分析的方法和装置

Also Published As

Publication number Publication date
CN109670170B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN105183923B (zh) 新词发现方法及装置
Steel et al. Kaikoura tree theorems: Computing the maximum agreement subtree
WO2016082406A1 (zh) 确定语义匹配度的方法和装置
Chintakunta et al. An entropy-based persistence barcode
WO2021073116A1 (zh) 生成法律文书的方法、装置、设备和存储介质
EP2911113B1 (en) Method, apparatus and computer program product for image segmentation
EP3541015A1 (en) Method and device for analyzing service survivability
WO2023077857A1 (zh) 一种防御方法、装置、电子设备及存储介质
US20160070693A1 (en) Optimizing Parsing Outcomes of Documents
Ahmad et al. A perceptual encryption-based image communication system for deep learning-based tuberculosis diagnosis using healthcare cloud services
Noor et al. Bounds having Riemann type quantum integrals via strongly convex functions
US20120328167A1 (en) Merging face clusters
Shi et al. Image encryption scheme based on multiscale block compressed sensing and Markov model
CN109670170A (zh) 专业词汇挖掘方法、装置、可读存储介质及电子设备
McCullough A polynomial bound on the regularity of an ideal in terms of half of the syzygies
CN104484391A (zh) 字符串相似度的计算方法和装置
Pitman et al. Squared Bessel processes of positive and negative dimension embedded in Brownian local times
Warren et al. Genome halving with double cut and join
Yu et al. Mts-stega: linguistic steganography based on multi-time-step
Olabisi et al. Analyzing the dialect diversity in multi-document summaries
Pavan et al. On the power of unambiguity in logspace
Granville et al. Upper bounds for| L (1, chi)|
Todd et al. Measuring HIV-related mortality in the first decade of anti-retroviral therapy in sub-Saharan Africa
US11031092B2 (en) Taxonomic annotation of variable length metagenomic patterns
Jan et al. Parity-check-CRC concatenated polar codes SSCFlip decoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant