CN113191147A

CN113191147A - 无监督的自动术语抽取方法、装置、设备和介质

Info

Publication number: CN113191147A
Application number: CN202110586917.4A
Authority: CN
Inventors: 付东; 李宇波; 徐秦; 葛亚维; 吕昭
Original assignee: Evaluation Argument Research Center Academy Of Military Sciences Pla China
Current assignee: Evaluation Argument Research Center Academy Of Military Sciences Pla China
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-07-30

Abstract

本申请涉及无监督的自动术语抽取方法、装置、设备和介质，方法包括：获取输入的文本语料并采用自然语言处理工具进行预处理；文本语料包括多篇文档；利用TF‑IDF技术和LDA主题模型，识别预处理后的文本语料的术语核心词；计算术语核心词与相邻词语的点互信息，根据点互信息识别术语核心词的术语边界，抽取术语边界识别完整的术语核心词作为目标术语；输出目标术语组成的术语集合。通过综合度量词语的重要性和对文档主题的贡献度，以及词语之间的关联关系来自动抽取术语，摆脱了人工制定抽取规则和标注训练语料的依赖性和局限性，泛化能力强，不受语句长短的限制并提高了抽取的术语完整性，能够很好地适应大规模文本语料实际的处理需求。

Description

无监督的自动术语抽取方法、装置、设备和介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种无监督的自动术语抽取方法、装置、设备和介质。

背景技术

随着信息技术的发展，互联网上文本数据呈现指数级增长，如何自动从中挖掘出富有价值的内容成为学术界和工业界竞相研究的重要课题。自动术语抽取是利用算法技术从非结构化的自然语言文本中自动抽取与领域相关的重要词语或短语。术语抽取作为一项基础研究问题，支撑着本体和知识图谱构建、文本分类、文本文摘等领域的技术研究和发展。在大规模文本语料中，短文本形式的语料不在少数，限制了依赖上下文语境信息的术语抽取方法的应用和发展。此外，术语表示形式不仅有简单词语还包括复合词语，即多个词语之间存在嵌套形式，给抽取术语的完整性带来了很大困难。

现有的术语抽取技术主要包括基于语言学的术语抽取方法、基于统计学的术语抽取方法、基于外部知识的术语抽取方法、基于语义相关的术语抽取方法、基于图的术语抽取方法、基于主题模型的术语抽取方法、基于机器学习的术语抽取方法、基于深度学习的术语抽取方法。然而，在实现本发明过程中，发明人发现前述传统的术语抽取技术，需要依赖人工标注训练语料或者制定抽取规则，成本较高，领域移植性差，存在着无法适应大规模文本语料处理的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种无监督的自动术语抽取方法、一种无监督的自动术语抽取装置、一种计算机设备以及一种计算机可读存储介质，能够很好地适应大规模文本语料实际的处理需求。

为了实现上述目的，本发明实施例采用以下技术方案：

一方面，本发明实施例提供一种无监督的自动术语抽取方法，包括步骤：

获取输入的文本语料并采用自然语言处理工具进行预处理；文本语料包括多篇文档；

利用TF-IDF技术和LDA主题模型，识别预处理后的文本语料的术语核心词；

计算术语核心词与相邻词语的点互信息，根据点互信息识别术语核心词的术语边界，抽取术语边界识别完整的术语核心词作为目标术语；

输出目标术语组成的术语集合。

在其中一个实施例中，利用TF-IDF技术和LDA主题模型，识别预处理后的文本语料的术语核心词的步骤，包括：

利用TF-IDF技术对预处理后的文本语料中的所有词语进行重要性分值计算，得到文本语料中文档与词语的TF-IDF值分布矩阵；

利用LDA主题模型计算预处理后的文本语料中每篇文档的各词语对主题的贡献度，得到每个词语对所在文档主题的贡献度分布矩阵；

将TF-IDF值分布矩阵的元素和贡献度分布矩阵的元素相乘，得到每个词语在所属文档中作为术语核心词的概率的核心概率分布矩阵；

根据设定的概率阈值，确定核心概率分布矩阵中值大于概率阈值的概率对应的词语为术语核心词。

在其中一个实施例中，重要性分值通过如下公式计算：

其中，

表示词语w_j的重要性分值，

表示词语w_j的词频，

表示词语w_j的逆文本频率指数，

表示词语w_j在文档d_i中出现的次数，c表示文档d_i中所有词语出现的总次数，n表示输入的文本语料D的所有文档数量，

表示词语w_j在文本语料D中出现的文档数量；

TF-IDF值分布矩阵为：

其中，元素值ti_nh表示词语w_h在文档d_n中的TF-IDF值，行数n表示文档数量，列数h表示文本语料D中所有词语的数量。

在其中一个实施例中，利用LDA主题模型计算预处理后的文本语料中每篇文档的各词语对主题的贡献度，得到每个词语对所在文档主题的贡献度分布矩阵的步骤，包括：

将预处理后的文本语料的各文档分别输入各LDA主题模型，输出文本语料的文档-主题概率分布矩阵和主题-词语概率分布矩阵；

将文档-主题概率分布矩阵和主题-词语概率分布矩阵相乘，得到主题乘积矩阵；

将主题乘积矩阵的元素与文本语料的所有文档对应词语分布矩阵的元素相乘，得到贡献度分布矩阵；

其中，文档-主题概率分布矩阵为DT：

其中，元素值dt_nn表示文档d_n包含主题t_n的概率；

主题-词语概率分布矩阵为TW：

其中，元素值tw_nh表示词语w_h属于主题t_n的概率；

贡献度分布矩阵为DTW：

其中，元素值dtw_nh表示词语w_h对文档d_n的主题贡献度。

在其中一个实施例中，核心概率分布矩阵为TH：

其中，元素值th_nh表示文档d_n中词语w_h作为术语核心词的概率。

在其中一个实施例中，计算术语核心词与相邻词语的点互信息，根据点互信息识别术语核心词的术语边界的过程，包括：

采用设定点互信息计算公式计算当前的术语核心词与左右相邻词语的点互信息值；

根据各词语的点互信息值分别与设定的术语边界识别阈值的比较结果，确定术语核心词的术语边界；

其中，设定点互信息计算公式为：

其中，PMI(w_i,w_j)表示词语w_i与词语w_j的点互信息值，p(w_iw_j)表示词语w_i与词语w_j同时出现的概率，p(w_i)表示词语w_i出现的概率，p(w_j)表示词语w_j出现的概率。

在其中一个实施例中，根据各词语的点互信息值分别与设定的术语边界识别阈值的比较结果，确定术语核心词的术语边界的步骤，包括：

若当前的术语核心词与相邻词语的点互信息值大于或等于术语边界识别阈值，则确定相邻词语为当前的术语核心词的边界组成；

将相邻词语归入当前的术语核心词作为一个目标术语核心词；

将目标术语核心词作为新的当前的术语核心词，返回执行采用设定点互信息计算公式计算当前的术语核心词与左右相邻词语的点互信息值的步骤，直至当前的术语核心词与相邻词语的点互信息值小于术语边界识别阈值；

若当前的术语核心词与相邻词语的点互信息值小于术语边界识别阈值，则将当前的术语核心词作为一个目标术语核心词输出。

另一方面，还提供一种无监督的自动术语抽取装置，包括：

预处理模块，用于获取输入的文本语料并采用自然语言处理工具进行预处理；文本语料包括多篇文档；

核心识别模块，用于利用TF-IDF技术和LDA主题模型，识别预处理后的文本语料的术语核心词；

边界与抽取模块，用于计算术语核心词与相邻词语的点互信息，根据点互信息识别术语核心词的术语边界，抽取术语边界识别完整的术语核心词作为目标术语；

术语输出模块，用于输出目标术语组成的术语集合。

又一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现任一项的上述无监督的自动术语抽取方法的步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现任一项的上述无监督的自动术语抽取方法的步骤。

上述技术方案中的一个技术方案具有如下优点和有益效果：

上述无监督的自动术语抽取方法、装置、设备和介质，通过针对输入的文本语料，首先利用自然语言处理工具对输入文本语料进行分词等预处理操作；然后综合利用TF-IDF技术和LDA主题模型来识别文本语料中的术语核心词；在识别术语边界方面，考虑到部分术语是复合词，可存在多个词语嵌套的情况，分词阶段容易被分割为多个词语，因此通过计算术语核心词与左右两边词语的点互信息来提高抽取术语的完整性。如此，通过综合度量词语的重要性和对文档主题的贡献度，以及词语之间的关联关系来自动抽取术语，摆脱了人工制定抽取规则和标注训练语料的依赖性和局限性，泛化能力强，不受语句长短的限制并提高了抽取的术语完整性，操作简单，能够很好地适应大规模文本语料实际的处理需求。

附图说明

图1为一个实施例中无监督的自动术语抽取方法的流程示意图；

图2为一个实施例中无监督的自动术语抽取方法的整体应用流程示意图；

图3为一个实施例中识别术语核心词的流程示意图；

图4为一个实施例中术语边界的识别流程示意图；

图5为一个实施例中无监督的自动术语抽取装置的模块结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

另外，本发明各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时，应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

自动术语抽取对非结构化文本数据的结构化表示(如本体和知识图谱构建)，以及文本分类、文本摘要等技术的研究具有重要意义。随着文本数据的指数型增长，基于机器学习、深度学习等依赖人工标注训练语料的技术难以满足社会的实际需求。本发明设计了一种无监督的自动术语抽取方法，通过综合度量词语的重要性和对文档主题的贡献度，以及词语之间的关联关系来自动抽取术语。本发明设计的无监督的自动术语抽取方法，摆脱了人工标注语料和制定抽取规则的局限性，领域移植性强，适用于长文本和短文本，提高了术语抽取的完整性，操作简单。本发明设计的无监督的自动术语抽取方法所针对的技术问题，可以形式化定义为：输入包含n篇文档的文本语料D＝(d₁,d₂,…,d_n)，输出具有代表性和领域主题性的术语集合，d_n表示第n篇文档。

请参阅图1和图2，一方面，本发明提供一种无监督的自动术语抽取方法，包括如下步骤S12至S18：

S12，获取输入的文本语料并采用自然语言处理工具进行预处理；文本语料包括多篇文档。

可以理解，自然语言处理工具可以但不限于是Stanford NLP、HanLP或LTP等已有的工具，用于对输入的文本语料进行分词等预处理操作。将文档d_i表示为由一组词语w_m组成的集合，即d_i＝(w₁，w₂，…，w_m)。定义h为对文本语料D中所有文档进行分词后的所有词语数量，定义矩阵A表示文本语料D中所有文档对应词语分布，其行数表示文档数量，其列数表示词语数量，即n行h列的矩阵A。矩阵A中的元素值为0或者1，其中0表示该元素对应的文档和词语存在不包含关系，而1则表示该元素对应的文档和词语存在包含关系。

本领域技术人员可以理解，前述定义方式并不唯一，还可以根据应用需要采用上述定义构思进行同理类似的定义，例如采用其他数值或字母定义矩阵A中的元素值。

为了便于理解矩阵A，以如下其中一个示例进行说明：假设文本语料D包括3个文档，各文档包含的词语数量分别为5个、6个和7个(不同文档可存在相同词语)，经过词语去重后，共计10个词语，则将文档和词语的分布可以使用3行10列的矩阵A表示，表示形式如下所示：

S14，利用TF-IDF技术和LDA主题模型，识别预处理后的文本语料的术语核心词。

可以理解，TF-IDF技术也即本领域的Term Frequency-Inverse DocumentFrequency，词频-逆文本频率技术，LDA主题模型也即本领域的Latent DirichletAllocation，潜在狄利克雷分布主题模型。TF-IDF技术中认为词语的重要性随着词语在文档中出现的次数成正比增加，但同时会随着词语在整个语料库中出现的频率成反比下降，因而可使用词频和逆向文档频率来衡量词语的重要性。LDA主题模型是一种无监督的文档生成模型，一篇文档的构造过程，首先以一定的概率选择某个主题，然后在这个主题下以一定的概率选择某个词，因此生成这篇文档的第一个词，重复这个过程就生成整篇文档。本发明对LDA主题模型的使用是上述文档生成过程的逆过程，即根据一篇得到的文档，去寻找这篇文档的主题概率分布，以及这些主题对应的词语概率分布，利用词语对主题的分布概率和主题对文档的分布概率来计算词语对文档主题的贡献度。

S16，计算术语核心词与相邻词语的点互信息，根据点互信息识别术语核心词的术语边界，抽取术语边界识别完整的术语核心词作为目标术语。

可以理解，部分术语可以是复合词的形式，例如但不限于“联合部队指挥官”和“区域防空计划”等，这类词语容易在对文本语料的预处理阶段被分词工具分割开，例如“联合部队指挥官”被分割为3个词语“联合、部队、指挥官”。因此，为了提高术语抽取的完整性，本申请通过计算术语核心词与左右两边相邻词语的点互信息(Pointwise MutualInformation，简称PMI)的分值，来识别术语的完整边界。其中，点互信息主要用来衡量两个随机事件之间的相关程度，在术语抽取中，PMI作为验证两个单词之间是否存在关联关系，以及关系的强弱程度。

S18，输出目标术语组成的术语集合。

具体的，识别并抽取得到各文档的各目标术语后，这些目标术语可以放入一个术语集合进行输出。

上述无监督的自动术语抽取方法，通过针对输入的文本语料，首先利用自然语言处理工具对输入文本语料进行分词等预处理操作；然后综合利用TF-IDF技术和LDA主题模型来识别文本语料中的术语核心词；在识别术语边界方面，考虑到部分术语是复合词，可存在多个词语嵌套的情况，分词阶段容易被分割为多个词语，因此通过计算术语核心词与左右两边词语的点互信息来提高抽取术语的完整性。如此，通过综合度量词语的重要性和对文档主题的贡献度，以及词语之间的关联关系来自动抽取术语，摆脱了人工制定抽取规则和标注训练语料的依赖性和局限性，泛化能力强，不受语句长短的限制并提高了抽取的术语完整性，操作简单，能够很好地适应大规模文本语料实际的处理需求。

请参阅图3，在一个实施例中，关于上述的步骤S14，具体可以包括如下处理步骤S142至S148：

S142，利用TF-IDF技术对预处理后的文本语料中的所有词语进行重要性分值计算，得到文本语料中文档与词语的TF-IDF值分布矩阵；

S144，利用LDA主题模型计算预处理后的文本语料中每篇文档的各词语对主题的贡献度，得到每个词语对所在文档主题的贡献度分布矩阵；

S146，将TF-IDF值分布矩阵的元素和贡献度分布矩阵的元素相乘，得到每个词语在所属文档中作为术语核心词的概率的核心概率分布矩阵；

S148，根据设定的概率阈值，确定核心概率分布矩阵中值大于概率阈值的概率对应的词语为术语核心词。

可以理解，本申请中，“矩阵相乘”是指一个n行m列的矩阵的行元素与一个m行h列矩阵的列元素相乘，用符号×表示，输出为一个n行h列元素。而“一个矩阵的元素与另一个矩阵的元素相乘”是指一个n行m列的矩阵的元素与一个n行m列的矩阵的相同位置元素相乘，用符号*表示，输出为一个n行m列的矩阵。

具体的，对于步骤S12输出的文档d_i中的任意一个词语w_j，定义

表示词语w_j在文档d_i中出现的次数，c表示文档d_i中所有词语出现的总次数，

表示词语w_j在文本语料D中出现的文档数量，n是输入的文本语料D的所有文档数量，则词语w_j的重要性分值计算如公式(1)所示：

其中，

表示词语w_j的重要性分值，

表示词语w_j的词频，

表示词语w_j的逆文本频率指数，

表示词语w_j在文本语料D中出现的文档数量。

使用公式(1)对文本语料D中所有词语计算TF-IDF值(也即重要性分值)，并使用n行h列的矩阵TI表示文档与词语的TF-IDF值的分布(如下所示)。其中，行数n为文档数量，列数h为文本语料D中所有词语的数量，元素值ti_nh为词语w_h在文档d_n中的TF-IDF值。TF-IDF值分布矩阵为：

在一个实施例中，关于上述的步骤S144，具体可以包括如下处理步骤：

将主题乘积矩阵的元素与文本语料的所有文档对应词语分布矩阵的元素相乘，得到贡献度分布矩阵。

具体的，假设一篇文档只有1个主题，不同的文档具有不同的主题，因此LDA主题模型的主题数量为D中文档的数量，即n。可以理解，对于一篇文档有多个不同主题的情形同理类似。为便于说明，以前述假设为例：

将步骤S12产生的分词后文本语料作为LDA主题模型的输入语料，定义DT表示LDA主题模型输出的文档—主题概率分布矩阵(如下所示)，其行数为文档数量，其列数为主题的数量，即n行n列，元素值dt_nn表示文档d_n包含主题t_n的概率。定义TW表示LDA主题模型输出的主题—词语概率分布矩阵(如下所示)，其行数为主题的数量，其列数为词语的数量，即n行h列，元素值tw_nh表示词语w_h属于主题t_n的概率。其中，文档-主题概率分布矩阵为DT：

主题-词语概率分布矩阵为TW：

设计如下所示的公式(2)，用于计算文本语料D的每篇文档中每个词语对主题的贡献度。其中，DTW表示每个词语对其所在文档主题的贡献度分布矩阵(如下所示)，其行数为文档的数量，其列数为词语的数量，即n行h列。DTW矩阵的产生过程具体为：首先对矩阵DT和矩阵TW进行矩阵相乘(即DT×TW)，得到一个n行h列的主题乘积矩阵；然后该主题乘积矩阵中的元素与步骤S12中产生的文档和词语的分布矩阵A(也即前述的所有文档对应词语分布矩阵)中的元素进行相乘，得到一个n行h列的贡献度分布矩阵DTW。其中，元素值dtw_nh表示词语w_h对文档d_n的主题贡献度，公式(2)为：

DTW＝(DT×TW)*A……(2)

贡献度分布矩阵为DTW：

通过上述处理步骤，即可准确获取每个词语对其所在文档主题的贡献度信息。

在一个实施例中，核心概率分布矩阵为TH：

其中，元素值th_nh表示文档d_n中词语w_h作为术语核心词的概率。具体的，考虑到词语w_j的重要性分值和文档主题贡献度分值量级相差不大(以此说明二者对词语w_j成为术语核心词的影响度较为均衡)，因此将二者相乘，计算词语w_j作为术语核心词的概率值，如公式(3)所示。其中，TH表示输入语料D中每个词语在其对应文档中作为术语核心词概率的分布矩阵(如上所示)，其行数为文档的数量，其列数为输入语料D中所有词语的数量，即n行h列。将TI矩阵的元素与DTW矩阵的元素相乘的结果作为TH矩阵的元素。最后通过设定的概率阈值，选择概率大于概率阈值的词语作为术语核心词。设定的概率阈值可以通过基于具体的数据情况下的试验结果自行设置，只要能够确保术语核心词的选择达到应用要求的准确度即可。

其中，公式(3)为：

TH＝TI*DTW……(3)

在一些实施方式中，为了便于理解术语核心词的产生过程，使用如下一个可选的示例进行说明。针对步骤S12中示例的词语在文档中的分布情况，假设文本语料D的3篇文档中10个词语的TI矩阵、DT矩阵和TW矩阵的元素值分别如下所示：

通过公式(2)计算，得到DTW矩阵的元素值为：

通过公式(3)计算，得到TH矩阵的元素值为：

选择TH矩阵每列中的最大元素值作为该列对应词语成为术语核心词的概率。比如，在上述示例的TH矩阵中，文档语料D中10个词语作为术语核心词的概率分别是：0.59、0.00、0.29、0.00、0.83、0.57、0.25、0.41、0.58和0.22。通过多次试验，选择0.5作为术语核心词筛选的概率阈值(可以根据具体的数据情况，自行设置)，即概率值大于或等于0.5的词语被认为是术语核心词。

在一个实施例中，关于上述步骤S16中，计算术语核心词与相邻词语的点互信息，根据点互信息识别术语核心词的术语边界的过程，具体可以包括如下处理步骤S162和S164：

S162，采用设定点互信息计算公式计算当前的术语核心词与左右相邻词语的点互信息值；

S164，根据各词语的点互信息值分别与设定的术语边界识别阈值的比较结果，确定术语核心词的术语边界。

具体的，设定点互信息计算公式如公式(4)所示。p(w_iw_j)表示词语w_i与w_j同时出现的概率，p(w_i)表示词语w_i出现的概率，p(w_j)表示词语w_j出现的概率。PMI值越大，说明词语w_i与w_j的相关性越大，可以组成一个词组或短语。本发明经过多次试验，选择0.7作为设定的术语边界识别阈值(可以根据具体的数据情况，自行设置)，即PMI值大于或等于0.7的词语被认为是术语的一部分。

其中，PMI(w_i,w_j)表示词语w_i与词语w_j的点互信息值。

在一个实施例中，关于上述的步骤S164，具体可以包括如下处理步骤：

将目标术语核心词作为新的当前的术语核心词，返回执行步骤S162，直至当前的术语核心词与相邻词语的点互信息值小于术语边界识别阈值；

可以理解，使用公式(4)逐步计算当前词与左右两边相邻词语的PMI值过程中，若当前词与相邻词语的PMI值大于或等于术语边界识别阈值，则将当前词与该相邻词语组成一个整体，再与下一个相邻词语计算二者之间的PMI值，直至两个词语的PMI值小于术语边界识别阈值为止。

在一些实施方式中，为了便于理解术语边界的识别过程，使用图4所示的流程图进行示意性说明。针对输入文本语料D中的所有词语集合W＝(w₁,w₂,…，w_i,…,w_h)，假设w_i是术语核心词，β表示术语边界识别阈值。首先计算w_i与其右侧相邻词语w_i+1的PMI值并与β比较，若满足条件(也即PMI值大于或等于β)，则将w_i与w_i+1组成一个整体(需要保持该两个词语的原来位置，下同)并用t表示。若不满足条件(也即PMI值小于β)，则计算w_i与其左侧相邻词语w_i-1的PMI值并与β比较，若满足条件则将w_i与w_i-1组成一个整体并用t表示；若不满足条件则将w_i作为目标术语核心词输出。

然后分别计算上一步生成的t与其左右两侧相邻词语(w_i-1和w_i+1)的PMI值并与β比较，若满足条件则将t与其相邻词语组合并继续计算组合词语与其左右两侧相邻词语的PMI值并与β比较；若不满足条件则将t作为目标术语核心词输出。

应该理解的是，虽然图1至图4流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且图1至图4的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

请参阅图5，在一个实施例中，还提供了一种无监督的自动术语抽取装置100，包括预处理模块13、核心识别模块15、边界与抽取模块17和术语输出模块19。其中，预处理模块13用于获取输入的文本语料并采用自然语言处理工具进行预处理；文本语料包括多篇文档。核心识别模块15用于利用TF-IDF技术和LDA主题模型，识别预处理后的文本语料的术语核心词。边界与抽取模块17用于计算术语核心词与相邻词语的点互信息，根据点互信息识别术语核心词的术语边界，抽取术语边界识别完整的术语核心词作为目标术语。术语输出模块19用于输出目标术语组成的术语集合。

上述无监督的自动术语抽取装置100，通过各模块的协作，通过针对输入的文本语料，首先利用自然语言处理工具对输入文本语料进行分词等预处理操作；然后综合利用TF-IDF技术和LDA主题模型来识别文本语料中的术语核心词；在识别术语边界方面，考虑到部分术语是复合词，可存在多个词语嵌套的情况，分词阶段容易被分割为多个词语，因此通过计算术语核心词与左右两边词语的点互信息来提高抽取术语的完整性。如此，通过综合度量词语的重要性和对文档主题的贡献度，以及词语之间的关联关系来自动抽取术语，摆脱了人工制定抽取规则和标注训练语料的依赖性和局限性，泛化能力强，不受语句长短的限制并提高了抽取的术语完整性，操作简单，能够很好地适应大规模文本语料实际的处理需求。

在一个实施例中，上述的核心识别模块15包括重要性计算子模块、贡献度计算子模块、核心分布子模块和核心确定子模块。其中，重要性计算子模块用于利用TF-IDF技术对预处理后的文本语料中的所有词语进行重要性分值计算，得到文本语料中文档与词语的TF-IDF值分布矩阵。贡献度计算子模块用于利用LDA主题模型计算预处理后的文本语料中每篇文档的各词语对主题的贡献度，得到每个词语对所在文档主题的贡献度分布矩阵。核心分布子模块用于将TF-IDF值分布矩阵的元素和贡献度分布矩阵的元素相乘，得到每个词语在所属文档中作为术语核心词的概率的核心概率分布矩阵。核心确定子模块用于根据设定的概率阈值，确定核心概率分布矩阵中值大于概率阈值的概率对应的词语为术语核心词。

在一个实施例中，前述重要性分值通过如下公式计算：

其中，

表示词语w_j的重要性分值，

表示词语w_j的词频，

表示词语w_j的逆文本频率指数，

表示词语w_j在文本语料D中出现的文档数量；

前述TF-IDF值分布矩阵为：

在一个实施例中，上述贡献度计算子模块具体可以用于：将预处理后的文本语料的各文档分别输入各LDA主题模型，输出文本语料的文档-主题概率分布矩阵和主题-词语概率分布矩阵；将文档-主题概率分布矩阵和主题-词语概率分布矩阵相乘，得到主题乘积矩阵；将主题乘积矩阵的元素与文本语料的所有文档对应词语分布矩阵的元素相乘，得到贡献度分布矩阵。

其中，文档-主题概率分布矩阵为DT：

其中，元素值dt_nn表示文档d_n包含主题t_n的概率；

主题-词语概率分布矩阵为TW：

其中，元素值tw_nh表示词语w_h属于主题t_n的概率；

贡献度分布矩阵为DTW：

其中，元素值dtw_nh表示词语w_h对文档d_n的主题贡献度。

在一个实施例中，前述核心概率分布矩阵为TH：

在一个实施例中，上述边界与抽取模块17用于实现计算术语核心词与相邻词语的点互信息，根据点互信息识别术语核心词的术语边界的过程中，具体还可以用于：采用设定点互信息计算公式计算当前的术语核心词与左右相邻词语的点互信息值；根据各词语的点互信息值分别与设定的术语边界识别阈值的比较结果，确定术语核心词的术语边界。

其中，设定点互信息计算公式为：

在一个实施例中，上述边界与抽取模块17具体还可以用于：在当前的术语核心词与相邻词语的点互信息值大于或等于术语边界识别阈值时，确定相邻词语为当前的术语核心词的边界组成；将相邻词语归入当前的术语核心词作为一个目标术语核心词；将目标术语核心词作为新的当前的术语核心词，返回执行采用设定点互信息计算公式计算当前的术语核心词与左右相邻词语的点互信息值的步骤，直至当前的术语核心词与相邻词语的点互信息值小于术语边界识别阈值；

以及用于在当前的术语核心词与相邻词语的点互信息值小于术语边界识别阈值时，将当前的术语核心词作为一个目标术语核心词输出。

关于无监督的自动术语抽取装置100的具体限定，可以参见上文中无监督的自动术语抽取方法的相应限定，在此不再赘述。上述无监督的自动术语抽取装置100中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于具体数据处理功能的设备中，也可以软件形式存储于前述设备的存储器中，以便于处理器调用执行以上各个模块对应的操作，前述设备可以是但不限于本领域已有的各型计算机设备或微处理模块。

又一方面，还提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时可以实现以下步骤：获取输入的文本语料并采用自然语言处理工具进行预处理；文本语料包括多篇文档；利用TF-IDF技术和LDA主题模型，识别预处理后的文本语料的术语核心词；计算术语核心词与相邻词语的点互信息，根据点互信息识别术语核心词的术语边界，抽取术语边界识别完整的术语核心词作为目标术语；输出目标术语组成的术语集合。

在一个实施例中，处理器执行计算机程序时还可以实现上述无监督的自动术语抽取方法各实施例中增加的步骤或者子步骤。

再一方面，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取输入的文本语料并采用自然语言处理工具进行预处理；文本语料包括多篇文档；利用TF-IDF技术和LDA主题模型，识别预处理后的文本语料的术语核心词；计算术语核心词与相邻词语的点互信息，根据点互信息识别术语核心词的术语边界，抽取术语边界识别完整的术语核心词作为目标术语；输出目标术语组成的术语集合。

在一个实施例中，计算机程序被处理器执行时，还可以实现上述无监督的自动术语抽取方法各实施例中增加的步骤或者子步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线式动态随机存储器(Rambus DRAM，简称RDRAM)以及接口动态随机存储器(DRDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可做出若干变形和改进，都属于本申请保护范围。因此本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种无监督的自动术语抽取方法，其特征在于，包括步骤：

获取输入的文本语料并采用自然语言处理工具进行预处理；所述文本语料包括多篇文档；

利用TF-IDF技术和LDA主题模型，识别预处理后的所述文本语料的术语核心词；

计算所述术语核心词与相邻词语的点互信息，根据所述点互信息识别所述术语核心词的术语边界，抽取术语边界识别完整的所述术语核心词作为目标术语；

输出所述目标术语组成的术语集合。

2.根据权利要求1所述的无监督的自动术语抽取方法，其特征在于，利用TF-IDF技术和LDA主题模型，识别预处理后的所述文本语料的术语核心词的步骤，包括：

利用TF-IDF技术对预处理后的所述文本语料中的所有词语进行重要性分值计算，得到所述文本语料中文档与词语的TF-IDF值分布矩阵；

利用LDA主题模型计算预处理后的所述文本语料中每篇文档的各词语对主题的贡献度，得到每个词语对所在文档主题的贡献度分布矩阵；

将所述TF-IDF值分布矩阵的元素和所述贡献度分布矩阵的元素相乘，得到每个词语在所属文档中作为术语核心词的概率的核心概率分布矩阵；

根据设定的概率阈值，确定所述核心概率分布矩阵中值大于所述概率阈值的概率对应的词语为术语核心词。

3.根据权利要求2所述的无监督的自动术语抽取方法，其特征在于，所述重要性分值通过如下公式计算：

其中，

表示词语w_j的重要性分值，

表示词语w_j的词频，

表示词语w_j的逆文本频率指数，

表示词语w_j在文本语料D中出现的文档数量；

所述TF-IDF值分布矩阵为：

4.根据权利要求2所述的无监督的自动术语抽取方法，其特征在于，利用LDA主题模型计算预处理后的所述文本语料中每篇文档的各词语对主题的贡献度，得到每个词语对所在文档主题的贡献度分布矩阵的步骤，包括：

将预处理后的所述文本语料的各文档分别输入各LDA主题模型，输出所述文本语料的文档-主题概率分布矩阵和主题-词语概率分布矩阵；

将所述文档-主题概率分布矩阵和所述主题-词语概率分布矩阵相乘，得到主题乘积矩阵；

将所述主题乘积矩阵的元素与所述文本语料的所有文档对应词语分布矩阵的元素相乘，得到所述贡献度分布矩阵；

其中，所述文档-主题概率分布矩阵为DT：

其中，元素值dt_nn表示文档d_n包含主题t_n的概率；

所述主题-词语概率分布矩阵为TW：

其中，元素值tw_nh表示词语w_h属于主题t_n的概率；

所述贡献度分布矩阵为DTW：

其中，元素值dtw_nh表示词语w_h对文档d_n的主题贡献度。

5.根据权利要求2至4任一项所述的无监督的自动术语抽取方法，其特征在于，所述核心概率分布矩阵为TH：

6.根据权利要求1所述的无监督的自动术语抽取方法，其特征在于，计算所述术语核心词与相邻词语的点互信息，根据所述点互信息识别所述术语核心词的术语边界的过程，包括：

采用设定点互信息计算公式计算当前的所述术语核心词与左右相邻词语的点互信息值；

根据各词语的所述点互信息值分别与设定的术语边界识别阈值的比较结果，确定所述术语核心词的术语边界；

其中，所述设定点互信息计算公式为：

7.根据权利要求6所述的无监督的自动术语抽取方法，其特征在于，根据各词语的所述点互信息值分别与设定的术语边界识别阈值的比较结果，确定所述术语核心词的术语边界的步骤，包括：

若当前的所述术语核心词与相邻词语的点互信息值大于或等于所述术语边界识别阈值，则确定所述相邻词语为当前的所述术语核心词的边界组成；

将所述相邻词语归入当前的所述术语核心词作为一个目标术语核心词；

将所述目标术语核心词作为新的当前的术语核心词，返回执行所述采用设定点互信息计算公式计算当前的所述术语核心词与左右相邻词语的点互信息值的步骤，直至当前的所述术语核心词与相邻词语的点互信息值小于所述术语边界识别阈值；

若当前的所述术语核心词与相邻词语的点互信息值小于所述术语边界识别阈值，则将当前的所述术语核心词作为一个目标术语核心词输出。

8.一种无监督的自动术语抽取装置，其特征在于，包括：

预处理模块，用于获取输入的文本语料并采用自然语言处理工具进行预处理；所述文本语料包括多篇文档；

核心识别模块，用于利用TF-IDF技术和LDA主题模型，识别预处理后的所述文本语料的术语核心词；

边界与抽取模块，用于计算所述术语核心词与相邻词语的点互信息，根据所述点互信息识别所述术语核心词的术语边界，抽取术语边界识别完整的所述术语核心词作为目标术语；

术语输出模块，用于输出所述目标术语组成的术语集合。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述无监督的自动术语抽取方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，计算机程序被处理器执行时实现权利要求1至7中任一项所述无监督的自动术语抽取方法的步骤。