CN103106192B

CN103106192B - 文学作品作者识别方法及装置

Info

Publication number: CN103106192B
Application number: CN201310043297.5A
Authority: CN
Inventors: 朱定局
Original assignee: Shenzhen Institute of Advanced Technology of CAS
Current assignee: Shenzhen Institute of Advanced Technology of CAS
Priority date: 2013-02-02
Filing date: 2013-02-02
Publication date: 2016-02-03
Anticipated expiration: 2033-02-02
Also published as: CN103106192A

Abstract

一种文学作品作者识别方法，包括：获取输入的文学作品，对输入的文学作品进行分词，得到分词词组及其对应的目标出现频率；根据所述目标出现频率计算所述输入的文学作品的信息熵；获取与目标作者对应的作者样本作品及作者样本作品的信息熵；通过比较所述作者样本作品的信息熵和所述输入的文学作品的信息熵识别所述输入的文学作品的作者是否为目标作者。此外，还提供了一种文学作品作者识别装置。上述文学作品作者识别方法和装置能够提高识别的准确度。

Description

文学作品作者识别方法及装置

技术领域

本发明涉及计算机技术领域，特别是涉及一种文学作品作者识别方法及装置。

背景技术

由于早期对文学作品的作者缺乏历史记载，在文学作品出品多年后，无法获知文学作品的作者是谁。或者作者采用罕见的笔名出品文学作品，他人也无法获知文学作品的真实作者是谁。

传统技术中，通常采用人工的方式对上述场景中的文学作品的作者进行识别，即由对某作者的文学风格较熟悉的学者或专家根据文学作品的文字风格对其进行鉴定，鉴定结果通常依赖人的文学鉴定经验，因此准确度不高。

发明内容

基于此，有必要提供一种能提高准确度的文学作品作者识别方法。

一种文学作品作者识别方法，包括：

获取输入的文学作品，对所述输入的文学作品进行分词，得到分词词组及其对应的目标出现频率；

根据所述目标出现频率计算所述输入的文学作品的信息熵；

获取与目标作者对应的作者样本作品及作者样本作品的信息熵；

通过比较所述作者样本作品的信息熵和所述输入的文学作品的信息熵识别所述输入的文学作品的作者是否为目标作者。

在其中一个实施例中，所述根据所述目标出现频率计算所述输入的文学作品的信息熵的步骤之前还包括：

获取全局样本作品，对全局样本作品进行分词，得到分词词组及其对应的全局出现频率；

根据所述全局出现频率计算所述分词词组的信息量。

在其中一个实施例中，所述根据所述目标出现频率计算所述输入的文学作品的信息熵的步骤为：

根据所述分词词组的目标出现频率及其对应的信息量计算所述输入的文学作品的信息熵。

在其中一个实施例中，所述获取与目标作者对应的作者样本作品及作者样本作品的信息熵的步骤之前还包括：

在所述全局样本作品中获取与目标作者对应的作者样本作品；

对作者样本作品进行分词，得到分词词组及其对应的作者出现频率。

在其中一个实施例中，所述获取与目标作者对应的作者样本作品及作者样本作品的信息熵的步骤包括：

根据所述分词词组的作者出现频率及其对应的信息量计算所述作者样本作品的信息熵。

此外，还有必要提供一种能提高准确度的文学作品作者识别装置。

一种文学作品作者识别装置，包括：

目标分词模块，用于获取输入的文学作品，对所述输入的文学作品进行分词，得到分词词组及其对应的目标出现频率；

目标信息熵计算模块，用于根据所述目标出现频率计算所述输入的文学作品的信息熵；

作者信息熵获取模块，用于获取与目标作者对应的作者样本作品及作者样本作品的信息熵；

作者识别模块，用于通过比较所述作者样本作品的信息熵和所述输入的文学作品的信息熵识别所述输入的文学作品的作者是否为目标作者。

在其中一个实施例中，，所述装置还包括全局分词模块，用于获取全局样本作品，对全局样本作品进行分词，得到分词词组及其对应的全局出现频率；根据所述全局出现频率计算所述分词词组的信息量。

在其中一个实施例中，，所述目标信息熵计算模块还用于根据所述分词词组的目标出现频率及其对应的信息量计算所述输入的文学作品的信息熵。

在其中一个实施例中，所述装置还包括作者分词模块，用于在所述全局样本作品中获取与目标作者对应的作者样本作品；对作者样本作品进行分词，得到分词词组及其对应的作者出现频率。

在其中一个实施例中，所述装置还包括作者信息熵计算模块，还用于根据所述分词词组的作者出现频率及其对应的信息量计算所述作者样本作品的信息熵。

上述文学作品作者识别方法及装置，对输入的文学作品进行了分词，根据分词得到的分词词组的出现频率计算输入的文学作品的信息熵，并获取了与目标作者对应的多个作者样本作品的信息熵，然后通过比较信息熵得到输入的文学作品与目标作者的作者样本作品的近似程度，从而判断输入的文学作品的作者是否为目标作者。由于同一作者的文学作品通常文风相同，用词习惯通常类似，因此根据香农的信息论原理，其信息熵也较相似，因此，准确度较高。

附图说明

图1为一个实施例中文学作品作者识别方法的流程图；

图2为一个实施例中通过比较所述作者样本作品的信息熵和所述输入的文学作品的信息熵识别所述输入的文学作品的作者的流程图；

图3为一个实施例中文学作品作者识别装置的结构示意图；

图4为另一个实施例中文学作品作者识别装置的结构示意图。

具体实施方式

在一个实施例中，如图1所示，一种文学作品作者识别方法，包括以下步骤：

步骤S102，获取输入的文学作品，对输入的文学作品进行分词，得到分词词组及其对应的目标出现频率。

输入的文学作品为作者模糊需要鉴定和识别其作者的文学作品。目标出现频率即对输入的文学作品进行分词后得到的分词词组在输入的文学作品中的出现频率。

对于中文的文学作品，可通过常用的汉字词库对输入的文学作品进行分词，例如，可通过IKAnalyzer、Paoding、jcseg或friso等分词工具或分词组件提供的API（ApplicationProgramInterface，应用程序接口）对输入的中文的文学作品进行分词。

对于英文的文学作品，则通过英文单词之间的空格将英文的文学作品进行分词。

在一个实施例中，对文学作品分词后，还可对得到的分词词组进行过滤，去除助词或无意义的副词。可预先配置助词或无意义的副词的过滤列表，将存在于该过滤列表中的分词词组的过滤掉。

在一个实施例中，可通过公式：

W_{i} = \frac{r_{i}}{Σ_{i = 1}^{n} r_{i}}

得到目标出现频率。其中，W_i为第i个分词词组在输入的文学作品中的目标出现频率，r_i为第i个分词词组在输入的文学作品中的出现次数，n为对输入的文学作品进行分词后得到的内容不同的分词词组的总个数。

步骤S104，根据目标出现频率计算输入的文学作品的信息熵。

信息熵即根据香农（ClaudeElwoodShannon）的信息论原理对文学作品整体的信息含量的定义。

在一个实施例中，根据目标出现频率计算输入的文学作品的信息熵的步骤之前还可获取全局样本作品，对全局样本作品进行分词，得到分词词组及其对应的全局出现频率，根据全局出现频率计算分词词组的信息量。

全局样本作品即预先选取的多个具有明确作者的信息的文学作品。

在一个实施例中，还可获取输入的文学作品的出品时间信息，获取到的全局样本作品的出品时间信息与输入的文学作品的出品时间信息对应。

例如，若输入的文学作品的出品时间为X年，则可获取X年出品的具有详细作者信息的多个文集、诗集等文学作品作为全局样本作品。

信息量即某个分词词组所附带的信息含量的定义。

在本实施例中，可根据公式：

I_{j} = - \log_{b} \frac{s_{j}}{Σ_{i = j}^{m} s_{j}}

计算分词词组的信息量。其中，I_j为计算得到的全局样本作品中第j个分词词组的信息量，s_j为第j个分词词组在全局样本作品中的出现频率，m为全局样本作品中内容不同的分词词组的总个数，b为预设的对数底系数，通常可以为2、10或e。

可缓存计算得到的全局样本作品中分词词组的信息量。在执行过程中，当缓存中已存储有全局样本作品中分词词组的信息量时，可在缓存中直接获取，从而不用重复计算。

在本实施例中，根据目标出现频率计算输入的文学作品的信息熵的步骤可具体为根据分词词组的目标出现频率及其对应的信息量计算输入的文学作品的信息熵。

在本实施例中，可根据公式：

H_{input} = Σ_{i = 1}^{n} W_{i} I_{i}

计算输入的文学作品的信息熵。其中，H_input为输入的文学作品的信息熵，W_i为输入的文学作品中第i个分词词组的出现频率，I_i为该第i个分词词组的信息量，n为对输入的文学作品进行分词后得到的内容不同的分词词组的总个数。

需要说明的是，第i个分词词组的信息量I_i可通过前述的计算信息量的公式计算得到，输入的文学作品的第i个分词词组即为全局样本作品中的某个分词词组，也就是说该公式中的第i个分词词组与前述公式中的第j个分词词组为内容相同的分词词组。

在一个实施例中，若输入的文学作品中的第i个分词词组在全局样本作品中不存在，则可将其对应的信息量设置为预设值。也就是说，若输入的文学作品中出现了全局样本作品中没有的词组，则可将该新出现的词组的信息量设置为预设的信息量阈值，从而便于计算信息熵。例如，若将信息量阈值设置为0，则表示忽略该新出现的词组，若将信息量阈值设置为较大的常数，则表示新出现的词组带来较大的信息熵。

在一个实施例中，在获取全局样本作品时，可先获取输入的文学作品的篇幅或字数，然后选取与输入的文学作品篇幅或字数差值小于字数阈值的文学作品添加到全局样本作品中，从而减少篇幅或篇幅所代表的文学形式对作者用词产生的影响，提高识别的准确率。

步骤S106，获取与目标作者对应的作者样本作品及作者样本作品的信息熵。

全局样本作品中可有多个文学作品对应同一作者。可根据作者将全局样本作品划分为多组文学作品。然后遍历该多组文学作品，判断输入的文学作品与哪组文学作品较相似。在判断时，遍历到的一组文学作品对应的同一作者即为作者样本作品，其对应的同一作者即为目标作者。

在本实施例中，获取与目标作者对应的作者样本作品及作者样本作品的信息熵的步骤之前还可在全局样本作品中获取与目标作者对应的作者样本作品；对作者样本作品进行分词，得到分词词组及其对应的作者出现频率。

作者出现频率即对作者样本作品进行分词后得到的分词词组在该作者样本作品中的出现频率。

在本实施例中，可根据公式：

T_{k} = \frac{q_{k}}{Σ_{k = 1}^{l} q_{k}}

得到作者出现频率。其中，T_k为作者样本作品中第k个分词词组的作者出现频率，q_k为作者样本作品中第k个分词词组的出现次数，l为对作者样本作品进行分词后得到的内容不同的分词词组的总个数。

进一步的，获取与目标作者对应的作者样本作品及作者样本作品的信息熵的步骤可包括根据分词词组的作者出现频率及其对应的信息量计算作者样本作品的信息熵。

在本实施例中，可根据公式：

H_{t} = Σ_{k = 1}^{l} T_{k} I_{k}

计算作者样本作品的信息熵。其中，H_t为作者样本作品的信息熵，T_k为作者样本作品中第k个分词词组的出现频率，I_k为该第k个分词词组的信息量，l为对作者样本作品进行分词后得到的内容不同的分词词组的总个数。

可根据上述公式分别计算全局样本作品中对应同一目标作者的多个作者样本作品的信息熵。

可缓存计算得到的作者样本作品的信息熵。在执行过程中，当缓存中已存储有作者样本作品的信息熵时，可在缓存中直接获取，从而不用重复计算。

步骤S108，通过比较作者样本作品的信息熵和输入的文学作品的信息熵识别输入的文学作品的作者是否为目标作者。

在一个实施例中，如图2所示，通过如下步骤识别输入的文学作品的作者：

步骤S202，计算作者样本作品的信息熵的平均值U。

例如，可根据公式：

U = \frac{Σ_{t = 1}^{N} H_{t}}{N}

计算作者样本作品的信息熵的平均值U。其中，N为全局样本作品中对应了目标作者的作者样本作品的个数，H_t为对应目标作者的第t个作者样本作品的信息熵。

步骤S204，根据平均值U计算作者样本作品的信息熵的平均变化量V。

例如，可根据公式：

V = \frac{Σ_{t = 1}^{N} | H_{t} - U |}{N}

计算作者样本作品的信息熵的平均变化量V。其中，N为全局样本作品中对应了目标作者的作者样本作品的个数，H_t为对应目标作者的第t个作者样本作品的信息熵，U为作者样本作品的信息熵的平均值。

步骤S206，根据平均值U计算作者样本作品的信息熵的最大变化量V_max。

例如，可根据公式：

V_{\max} = {Max}_{t = 1}^{N} (| H_{t} - U |)

计算作者样本作品的信息熵的平均变化量V_max。其中，N为全局样本作品中对应了目标作者的作者样本作品的个数，H_t为对应目标作者的第t个作者样本作品的信息熵，U为作者样本作品的信息熵的平均值，v_max即为|H_t-U|的最大值。

步骤S208，若H_input属于U-V至U+V的数值范围区间内，则得到识别结果：输入的文学作品的作者为目标作者。

步骤S210，若不属于U-V至U+V的数值范围区间内，但属于U-V_max至U+V_max的数值范围区间内，则得到识别结果：输入的文学作品的作者可能为目标作者。

步骤S212，若H_input不属于U-V_max至U+V_max的数值范围区间内，则得到识别结果：输入的文学作品的作者不为目标作者。

也就是说，可根据输入的文学作品的信息熵H_input、作者样本作品的信息熵的平均值U、平均变化量V和最大变化量V_max判断输入的文学作品的作者是否为目标作者。

在一个实施例中，如图3所示，一种文学作品作者识别装置，包括目标分词模块102、目标信息熵计算模块104、作者信息熵获取模块106以及作者识别模块108，其中：

目标分词模块102，用于获取输入的文学作品，对输入的文学作品进行分词，得到分词词组及其对应的目标出现频率。

输入的文学作品为出品年代模糊需要鉴定和识别的文学作品。目标出现频率即对输入的文学作品进行分词后得到的分词词组在输入的文学作品中的出现频率。

在一个实施例中，对文学作品分词后，目标分词模块102还可用于对得到的分词词组进行过滤，去除助词或无意义的副词。可预先配置助词或无意义的副词的过滤列表，将存在于该过滤列表中的分词词组的过滤掉。

在一个实施例中，目标分词模块102可用于通过公式：

W_{i} = \frac{r_{i}}{Σ_{i = 1}^{n} r_{i}}

目标信息熵计算模块104，用于根据目标出现频率计算输入的文学作品的信息熵。

在一个实施例中，如图4所示，文学作品作者识别装置还包括全局分词模块110，用于获取全局样本作品，对全局样本作品进行分词，得到分词词组及其对应的全局出现频率，根据全局出现频率计算分词词组的信息量。

在一个实施例中，全局分词模块110还可用于获取输入的文学作品的出品时间信息，获取到的全局样本作品的出品时间信息与输入的文学作品的出品时间信息对应。

信息量即某个分词词组所附带的信息含量的定义。

在本实施例中，全局分词模块110可用于根据公式：

I_{j} = - \log_{b} \frac{s_{j}}{Σ_{i = j}^{m} s_{j}}

在本实施例中，目标信息熵计算模块104可用于根据分词词组的目标出现频率及其对应的信息量计算输入的文学作品的信息熵。

在本实施例中，目标信息熵计算模块104可用于根据公式：

H_{input} = Σ_{i = 1}^{n} W_{i} I_{i}

作者信息熵获取模块106，用于获取与目标作者对应的作者样本作品及作者样本作品的信息熵。

在本实施例中，如图4所示，文学作品作者识别装置还包括作者分词模块112，用于在全局样本作品中获取与目标作者对应的作者样本作品；对作者样本作品进行分词，得到分词词组及其对应的作者出现频率。

在本实施例中，作者分词模块112可用于根据公式：

T_{k} = \frac{q_{k}}{Σ_{k = 1}^{l} q_{k}}

进一步的，如图4所示，文学作品作者识别装置还包括作者信息熵计算模块114，用于根据分词词组的作者出现频率及其对应的信息量计算作者样本作品的信息熵。

在本实施例中，作者信息熵计算模块114可用于根据公式：

H_{t} = Σ_{k = 1}^{l} T_{k} I_{k}

作者识别模块108，用于通过比较作者样本作品的信息熵和输入的文学作品的信息熵识别输入的文学作品的作者是否为目标作者。

在一个实施例中，作者识别模块108可用于根据输入的文学作品的信息熵H_input、作者样本作品的信息熵的平均值U、平均变化量V和最大变化量V_max判断输入的文学作品的作者是否为目标作者。

在本实施例中，作者识别模块108可用于计算作者样本作品的信息熵的平均值U。

例如，作者识别模块108可用于根据公式：

U = \frac{Σ_{t = 1}^{N} H_{t}}{N}

作者识别模块108可用于根据平均值U计算作者样本作品的信息熵的平均变化量V。

例如，作者识别模块108可用于根据公式：

V = \frac{Σ_{t = 1}^{N} | H_{t} - U |}{N}

作者识别模块108可用于根据平均值U计算作者样本作品的信息熵的最大变化量V_max。

例如，作者识别模块108可用于根据公式：

V_{\max} = {Max}_{t = 1}^{N} (| H_{t} - U |)

若H_input属于U-V至U+V的数值范围区间内，则作者识别模块108得到识别结果：输入的文学作品的作者为目标作者。

若H_input不属于U-V至U+V的数值范围区间内，但属于U-V_max至U+V_mx的数值范围区间内，则作者识别模块108得到识别结果：输入的文学作品的作者可能为目标作者。

若H_input不属于U-V_max至U+V_max的数值范围区间内，则作者识别模块108得到识别结果：输入的文学作品的作者不为目标作者。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种文学作品作者识别方法，包括：

获取输入的文学作品，对所述输入的文学作品进行分词，对文学作品分词后，还可对得到的分词词组进行过滤，去除助词或无意义的副词，得到分词词组及其对应的目标出现频率；

获取全局样本作品，对全局样本作品进行分词，得到分词词组及其对应的全局出现频率，其中，在获取全局样本作品时，先获取输入的文学作品的篇幅或字数，然后选取与输入的文学作品篇幅或字数差值小于字数阈值的文学作品添加到全局样本作品中；

根据所述全局出现频率计算所述分词词组的信息量；

根据所述分词词组的目标出现频率及其对应的信息量计算所述输入的文学作品的信息熵；

2.根据权利要求1所述的文学作品作者识别方法，其特征在于，所述获取与目标作者对应的作者样本作品及作者样本作品的信息熵的步骤之前还包括：

3.根据权利要求2所述的文学作品作者识别方法，其特征在于，所述获取与目标作者对应的作者样本作品及作者样本作品的信息熵的步骤包括：

4.一种文学作品作者识别装置，其特征在于，包括：

目标分词模块，用于获取输入的文学作品，对所述输入的文学作品进行分词，对文学作品分词后，还可对得到的分词词组进行过滤，去除助词或无意义的副词，得到分词词组及其对应的目标出现频率；

全局分词模块，用于获取全局样本作品，对全局样本作品进行分词，得到分词词组及其对应的全局出现频率，其中，在获取全局样本作品时，先获取输入的文学作品的篇幅或字数，然后选取与输入的文学作品篇幅或字数差值小于字数阈值的文学作品添加到全局样本作品中；根据所述全局出现频率计算所述分词词组的信息量；

目标信息熵计算模块，用于根据所述目标出现频率计算所述输入的文学作品的信息熵，所述目标信息熵计算模块还用于根据所述分词词组的目标出现频率及其对应的信息量计算所述输入的文学作品的信息熵；

5.根据权利要求4所述的文学作品作者识别装置，其特征在于，所述装置还包括作者分词模块，用于在所述全局样本作品中获取与目标作者对应的作者样本作品；对作者样本作品进行分词，得到分词词组及其对应的作者出现频率。

6.根据权利要求5所述的文学作品作者识别装置，其特征在于，所述装置还包括作者信息熵计算模块，还用于根据所述分词词组的作者出现频率及其对应的信息量计算所述作者样本作品的信息熵。