CN103106192B - 文学作品作者识别方法及装置 - Google Patents

文学作品作者识别方法及装置 Download PDF

Info

Publication number
CN103106192B
CN103106192B CN201310043297.5A CN201310043297A CN103106192B CN 103106192 B CN103106192 B CN 103106192B CN 201310043297 A CN201310043297 A CN 201310043297A CN 103106192 B CN103106192 B CN 103106192B
Authority
CN
China
Prior art keywords
author
works
literary
sample
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310043297.5A
Other languages
English (en)
Other versions
CN103106192A (zh
Inventor
朱定局
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Institute of Advanced Technology of CAS
Original Assignee
Shenzhen Institute of Advanced Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Institute of Advanced Technology of CAS filed Critical Shenzhen Institute of Advanced Technology of CAS
Priority to CN201310043297.5A priority Critical patent/CN103106192B/zh
Publication of CN103106192A publication Critical patent/CN103106192A/zh
Application granted granted Critical
Publication of CN103106192B publication Critical patent/CN103106192B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种文学作品作者识别方法,包括:获取输入的文学作品,对输入的文学作品进行分词,得到分词词组及其对应的目标出现频率;根据所述目标出现频率计算所述输入的文学作品的信息熵;获取与目标作者对应的作者样本作品及作者样本作品的信息熵;通过比较所述作者样本作品的信息熵和所述输入的文学作品的信息熵识别所述输入的文学作品的作者是否为目标作者。此外,还提供了一种文学作品作者识别装置。上述文学作品作者识别方法和装置能够提高识别的准确度。

Description

文学作品作者识别方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种文学作品作者识别方法及装置。
背景技术
由于早期对文学作品的作者缺乏历史记载,在文学作品出品多年后,无法获知文学作品的作者是谁。或者作者采用罕见的笔名出品文学作品,他人也无法获知文学作品的真实作者是谁。
传统技术中,通常采用人工的方式对上述场景中的文学作品的作者进行识别,即由对某作者的文学风格较熟悉的学者或专家根据文学作品的文字风格对其进行鉴定,鉴定结果通常依赖人的文学鉴定经验,因此准确度不高。
发明内容
基于此,有必要提供一种能提高准确度的文学作品作者识别方法。
一种文学作品作者识别方法,包括:
获取输入的文学作品,对所述输入的文学作品进行分词,得到分词词组及其对应的目标出现频率;
根据所述目标出现频率计算所述输入的文学作品的信息熵;
获取与目标作者对应的作者样本作品及作者样本作品的信息熵;
通过比较所述作者样本作品的信息熵和所述输入的文学作品的信息熵识别所述输入的文学作品的作者是否为目标作者。
在其中一个实施例中,所述根据所述目标出现频率计算所述输入的文学作品的信息熵的步骤之前还包括:
获取全局样本作品,对全局样本作品进行分词,得到分词词组及其对应的全局出现频率;
根据所述全局出现频率计算所述分词词组的信息量。
在其中一个实施例中,所述根据所述目标出现频率计算所述输入的文学作品的信息熵的步骤为:
根据所述分词词组的目标出现频率及其对应的信息量计算所述输入的文学作品的信息熵。
在其中一个实施例中,所述获取与目标作者对应的作者样本作品及作者样本作品的信息熵的步骤之前还包括:
在所述全局样本作品中获取与目标作者对应的作者样本作品;
对作者样本作品进行分词,得到分词词组及其对应的作者出现频率。
在其中一个实施例中,所述获取与目标作者对应的作者样本作品及作者样本作品的信息熵的步骤包括:
根据所述分词词组的作者出现频率及其对应的信息量计算所述作者样本作品的信息熵。
此外,还有必要提供一种能提高准确度的文学作品作者识别装置。
一种文学作品作者识别装置,包括:
目标分词模块,用于获取输入的文学作品,对所述输入的文学作品进行分词,得到分词词组及其对应的目标出现频率;
目标信息熵计算模块,用于根据所述目标出现频率计算所述输入的文学作品的信息熵;
作者信息熵获取模块,用于获取与目标作者对应的作者样本作品及作者样本作品的信息熵;
作者识别模块,用于通过比较所述作者样本作品的信息熵和所述输入的文学作品的信息熵识别所述输入的文学作品的作者是否为目标作者。
在其中一个实施例中,,所述装置还包括全局分词模块,用于获取全局样本作品,对全局样本作品进行分词,得到分词词组及其对应的全局出现频率;根据所述全局出现频率计算所述分词词组的信息量。
在其中一个实施例中,,所述目标信息熵计算模块还用于根据所述分词词组的目标出现频率及其对应的信息量计算所述输入的文学作品的信息熵。
在其中一个实施例中,所述装置还包括作者分词模块,用于在所述全局样本作品中获取与目标作者对应的作者样本作品;对作者样本作品进行分词,得到分词词组及其对应的作者出现频率。
在其中一个实施例中,所述装置还包括作者信息熵计算模块,还用于根据所述分词词组的作者出现频率及其对应的信息量计算所述作者样本作品的信息熵。
上述文学作品作者识别方法及装置,对输入的文学作品进行了分词,根据分词得到的分词词组的出现频率计算输入的文学作品的信息熵,并获取了与目标作者对应的多个作者样本作品的信息熵,然后通过比较信息熵得到输入的文学作品与目标作者的作者样本作品的近似程度,从而判断输入的文学作品的作者是否为目标作者。由于同一作者的文学作品通常文风相同,用词习惯通常类似,因此根据香农的信息论原理,其信息熵也较相似,因此,准确度较高。
附图说明
图1为一个实施例中文学作品作者识别方法的流程图;
图2为一个实施例中通过比较所述作者样本作品的信息熵和所述输入的文学作品的信息熵识别所述输入的文学作品的作者的流程图;
图3为一个实施例中文学作品作者识别装置的结构示意图;
图4为另一个实施例中文学作品作者识别装置的结构示意图。
具体实施方式
在一个实施例中,如图1所示,一种文学作品作者识别方法,包括以下步骤:
步骤S102,获取输入的文学作品,对输入的文学作品进行分词,得到分词词组及其对应的目标出现频率。
输入的文学作品为作者模糊需要鉴定和识别其作者的文学作品。目标出现频率即对输入的文学作品进行分词后得到的分词词组在输入的文学作品中的出现频率。
对于中文的文学作品,可通过常用的汉字词库对输入的文学作品进行分词,例如,可通过IKAnalyzer、Paoding、jcseg或friso等分词工具或分词组件提供的API(ApplicationProgramInterface,应用程序接口)对输入的中文的文学作品进行分词。
对于英文的文学作品,则通过英文单词之间的空格将英文的文学作品进行分词。
在一个实施例中,对文学作品分词后,还可对得到的分词词组进行过滤,去除助词或无意义的副词。可预先配置助词或无意义的副词的过滤列表,将存在于该过滤列表中的分词词组的过滤掉。
在一个实施例中,可通过公式:
W i = r i Σ i = 1 n r i
得到目标出现频率。其中,Wi为第i个分词词组在输入的文学作品中的目标出现频率,ri为第i个分词词组在输入的文学作品中的出现次数,n为对输入的文学作品进行分词后得到的内容不同的分词词组的总个数。
步骤S104,根据目标出现频率计算输入的文学作品的信息熵。
信息熵即根据香农(ClaudeElwoodShannon)的信息论原理对文学作品整体的信息含量的定义。
在一个实施例中,根据目标出现频率计算输入的文学作品的信息熵的步骤之前还可获取全局样本作品,对全局样本作品进行分词,得到分词词组及其对应的全局出现频率,根据全局出现频率计算分词词组的信息量。
全局样本作品即预先选取的多个具有明确作者的信息的文学作品。
在一个实施例中,还可获取输入的文学作品的出品时间信息,获取到的全局样本作品的出品时间信息与输入的文学作品的出品时间信息对应。
例如,若输入的文学作品的出品时间为X年,则可获取X年出品的具有详细作者信息的多个文集、诗集等文学作品作为全局样本作品。
信息量即某个分词词组所附带的信息含量的定义。
在本实施例中,可根据公式:
I j = - log b s j Σ i = j m s j
计算分词词组的信息量。其中,Ij为计算得到的全局样本作品中第j个分词词组的信息量,sj为第j个分词词组在全局样本作品中的出现频率,m为全局样本作品中内容不同的分词词组的总个数,b为预设的对数底系数,通常可以为2、10或e。
可缓存计算得到的全局样本作品中分词词组的信息量。在执行过程中,当缓存中已存储有全局样本作品中分词词组的信息量时,可在缓存中直接获取,从而不用重复计算。
在本实施例中,根据目标出现频率计算输入的文学作品的信息熵的步骤可具体为根据分词词组的目标出现频率及其对应的信息量计算输入的文学作品的信息熵。
在本实施例中,可根据公式:
H input = Σ i = 1 n W i I i
计算输入的文学作品的信息熵。其中,Hinput为输入的文学作品的信息熵,Wi为输入的文学作品中第i个分词词组的出现频率,Ii为该第i个分词词组的信息量,n为对输入的文学作品进行分词后得到的内容不同的分词词组的总个数。
需要说明的是,第i个分词词组的信息量Ii可通过前述的计算信息量的公式计算得到,输入的文学作品的第i个分词词组即为全局样本作品中的某个分词词组,也就是说该公式中的第i个分词词组与前述公式中的第j个分词词组为内容相同的分词词组。
在一个实施例中,若输入的文学作品中的第i个分词词组在全局样本作品中不存在,则可将其对应的信息量设置为预设值。也就是说,若输入的文学作品中出现了全局样本作品中没有的词组,则可将该新出现的词组的信息量设置为预设的信息量阈值,从而便于计算信息熵。例如,若将信息量阈值设置为0,则表示忽略该新出现的词组,若将信息量阈值设置为较大的常数,则表示新出现的词组带来较大的信息熵。
在一个实施例中,在获取全局样本作品时,可先获取输入的文学作品的篇幅或字数,然后选取与输入的文学作品篇幅或字数差值小于字数阈值的文学作品添加到全局样本作品中,从而减少篇幅或篇幅所代表的文学形式对作者用词产生的影响,提高识别的准确率。
步骤S106,获取与目标作者对应的作者样本作品及作者样本作品的信息熵。
全局样本作品中可有多个文学作品对应同一作者。可根据作者将全局样本作品划分为多组文学作品。然后遍历该多组文学作品,判断输入的文学作品与哪组文学作品较相似。在判断时,遍历到的一组文学作品对应的同一作者即为作者样本作品,其对应的同一作者即为目标作者。
在本实施例中,获取与目标作者对应的作者样本作品及作者样本作品的信息熵的步骤之前还可在全局样本作品中获取与目标作者对应的作者样本作品;对作者样本作品进行分词,得到分词词组及其对应的作者出现频率。
作者出现频率即对作者样本作品进行分词后得到的分词词组在该作者样本作品中的出现频率。
在本实施例中,可根据公式:
T k = q k Σ k = 1 l q k
得到作者出现频率。其中,Tk为作者样本作品中第k个分词词组的作者出现频率,qk为作者样本作品中第k个分词词组的出现次数,l为对作者样本作品进行分词后得到的内容不同的分词词组的总个数。
进一步的,获取与目标作者对应的作者样本作品及作者样本作品的信息熵的步骤可包括根据分词词组的作者出现频率及其对应的信息量计算作者样本作品的信息熵。
在本实施例中,可根据公式:
H t = Σ k = 1 l T k I k
计算作者样本作品的信息熵。其中,Ht为作者样本作品的信息熵,Tk为作者样本作品中第k个分词词组的出现频率,Ik为该第k个分词词组的信息量,l为对作者样本作品进行分词后得到的内容不同的分词词组的总个数。
可根据上述公式分别计算全局样本作品中对应同一目标作者的多个作者样本作品的信息熵。
可缓存计算得到的作者样本作品的信息熵。在执行过程中,当缓存中已存储有作者样本作品的信息熵时,可在缓存中直接获取,从而不用重复计算。
步骤S108,通过比较作者样本作品的信息熵和输入的文学作品的信息熵识别输入的文学作品的作者是否为目标作者。
在一个实施例中,如图2所示,通过如下步骤识别输入的文学作品的作者:
步骤S202,计算作者样本作品的信息熵的平均值U。
例如,可根据公式:
U = Σ t = 1 N H t N
计算作者样本作品的信息熵的平均值U。其中,N为全局样本作品中对应了目标作者的作者样本作品的个数,Ht为对应目标作者的第t个作者样本作品的信息熵。
步骤S204,根据平均值U计算作者样本作品的信息熵的平均变化量V。
例如,可根据公式:
V = Σ t = 1 N | H t - U | N
计算作者样本作品的信息熵的平均变化量V。其中,N为全局样本作品中对应了目标作者的作者样本作品的个数,Ht为对应目标作者的第t个作者样本作品的信息熵,U为作者样本作品的信息熵的平均值。
步骤S206,根据平均值U计算作者样本作品的信息熵的最大变化量Vmax
例如,可根据公式:
V max = Max t = 1 N ( | H t - U | )
计算作者样本作品的信息熵的平均变化量Vmax。其中,N为全局样本作品中对应了目标作者的作者样本作品的个数,Ht为对应目标作者的第t个作者样本作品的信息熵,U为作者样本作品的信息熵的平均值,vmax即为|Ht-U|的最大值。
步骤S208,若Hinput属于U-V至U+V的数值范围区间内,则得到识别结果:输入的文学作品的作者为目标作者。
步骤S210,若不属于U-V至U+V的数值范围区间内,但属于U-Vmax至U+Vmax的数值范围区间内,则得到识别结果:输入的文学作品的作者可能为目标作者。
步骤S212,若Hinput不属于U-Vmax至U+Vmax的数值范围区间内,则得到识别结果:输入的文学作品的作者不为目标作者。
也就是说,可根据输入的文学作品的信息熵Hinput、作者样本作品的信息熵的平均值U、平均变化量V和最大变化量Vmax判断输入的文学作品的作者是否为目标作者。
在一个实施例中,如图3所示,一种文学作品作者识别装置,包括目标分词模块102、目标信息熵计算模块104、作者信息熵获取模块106以及作者识别模块108,其中:
目标分词模块102,用于获取输入的文学作品,对输入的文学作品进行分词,得到分词词组及其对应的目标出现频率。
输入的文学作品为出品年代模糊需要鉴定和识别的文学作品。目标出现频率即对输入的文学作品进行分词后得到的分词词组在输入的文学作品中的出现频率。
对于中文的文学作品,可通过常用的汉字词库对输入的文学作品进行分词,例如,可通过IKAnalyzer、Paoding、jcseg或friso等分词工具或分词组件提供的API(ApplicationProgramInterface,应用程序接口)对输入的中文的文学作品进行分词。
对于英文的文学作品,则通过英文单词之间的空格将英文的文学作品进行分词。
在一个实施例中,对文学作品分词后,目标分词模块102还可用于对得到的分词词组进行过滤,去除助词或无意义的副词。可预先配置助词或无意义的副词的过滤列表,将存在于该过滤列表中的分词词组的过滤掉。
在一个实施例中,目标分词模块102可用于通过公式:
W i = r i Σ i = 1 n r i
得到目标出现频率。其中,Wi为第i个分词词组在输入的文学作品中的目标出现频率,ri为第i个分词词组在输入的文学作品中的出现次数,n为对输入的文学作品进行分词后得到的内容不同的分词词组的总个数。
目标信息熵计算模块104,用于根据目标出现频率计算输入的文学作品的信息熵。
信息熵即根据香农(ClaudeElwoodShannon)的信息论原理对文学作品整体的信息含量的定义。
在一个实施例中,如图4所示,文学作品作者识别装置还包括全局分词模块110,用于获取全局样本作品,对全局样本作品进行分词,得到分词词组及其对应的全局出现频率,根据全局出现频率计算分词词组的信息量。
全局样本作品即预先选取的多个具有明确作者的信息的文学作品。
在一个实施例中,全局分词模块110还可用于获取输入的文学作品的出品时间信息,获取到的全局样本作品的出品时间信息与输入的文学作品的出品时间信息对应。
例如,若输入的文学作品的出品时间为X年,则可获取X年出品的具有详细作者信息的多个文集、诗集等文学作品作为全局样本作品。
信息量即某个分词词组所附带的信息含量的定义。
在本实施例中,全局分词模块110可用于根据公式:
I j = - log b s j Σ i = j m s j
计算分词词组的信息量。其中,Ij为计算得到的全局样本作品中第j个分词词组的信息量,sj为第j个分词词组在全局样本作品中的出现频率,m为全局样本作品中内容不同的分词词组的总个数,b为预设的对数底系数,通常可以为2、10或e。
可缓存计算得到的全局样本作品中分词词组的信息量。在执行过程中,当缓存中已存储有全局样本作品中分词词组的信息量时,可在缓存中直接获取,从而不用重复计算。
在本实施例中,目标信息熵计算模块104可用于根据分词词组的目标出现频率及其对应的信息量计算输入的文学作品的信息熵。
在本实施例中,目标信息熵计算模块104可用于根据公式:
H input = Σ i = 1 n W i I i
计算输入的文学作品的信息熵。其中,Hinput为输入的文学作品的信息熵,Wi为输入的文学作品中第i个分词词组的出现频率,Ii为该第i个分词词组的信息量,n为对输入的文学作品进行分词后得到的内容不同的分词词组的总个数。
需要说明的是,第i个分词词组的信息量Ii可通过前述的计算信息量的公式计算得到,输入的文学作品的第i个分词词组即为全局样本作品中的某个分词词组,也就是说该公式中的第i个分词词组与前述公式中的第j个分词词组为内容相同的分词词组。
在一个实施例中,若输入的文学作品中的第i个分词词组在全局样本作品中不存在,则可将其对应的信息量设置为预设值。也就是说,若输入的文学作品中出现了全局样本作品中没有的词组,则可将该新出现的词组的信息量设置为预设的信息量阈值,从而便于计算信息熵。例如,若将信息量阈值设置为0,则表示忽略该新出现的词组,若将信息量阈值设置为较大的常数,则表示新出现的词组带来较大的信息熵。
在一个实施例中,在获取全局样本作品时,可先获取输入的文学作品的篇幅或字数,然后选取与输入的文学作品篇幅或字数差值小于字数阈值的文学作品添加到全局样本作品中,从而减少篇幅或篇幅所代表的文学形式对作者用词产生的影响,提高识别的准确率。
作者信息熵获取模块106,用于获取与目标作者对应的作者样本作品及作者样本作品的信息熵。
全局样本作品中可有多个文学作品对应同一作者。可根据作者将全局样本作品划分为多组文学作品。然后遍历该多组文学作品,判断输入的文学作品与哪组文学作品较相似。在判断时,遍历到的一组文学作品对应的同一作者即为作者样本作品,其对应的同一作者即为目标作者。
在本实施例中,如图4所示,文学作品作者识别装置还包括作者分词模块112,用于在全局样本作品中获取与目标作者对应的作者样本作品;对作者样本作品进行分词,得到分词词组及其对应的作者出现频率。
作者出现频率即对作者样本作品进行分词后得到的分词词组在该作者样本作品中的出现频率。
在本实施例中,作者分词模块112可用于根据公式:
T k = q k Σ k = 1 l q k
得到作者出现频率。其中,Tk为作者样本作品中第k个分词词组的作者出现频率,qk为作者样本作品中第k个分词词组的出现次数,l为对作者样本作品进行分词后得到的内容不同的分词词组的总个数。
进一步的,如图4所示,文学作品作者识别装置还包括作者信息熵计算模块114,用于根据分词词组的作者出现频率及其对应的信息量计算作者样本作品的信息熵。
在本实施例中,作者信息熵计算模块114可用于根据公式:
H t = Σ k = 1 l T k I k
计算作者样本作品的信息熵。其中,Ht为作者样本作品的信息熵,Tk为作者样本作品中第k个分词词组的出现频率,Ik为该第k个分词词组的信息量,l为对作者样本作品进行分词后得到的内容不同的分词词组的总个数。
可根据上述公式分别计算全局样本作品中对应同一目标作者的多个作者样本作品的信息熵。
可缓存计算得到的作者样本作品的信息熵。在执行过程中,当缓存中已存储有作者样本作品的信息熵时,可在缓存中直接获取,从而不用重复计算。
作者识别模块108,用于通过比较作者样本作品的信息熵和输入的文学作品的信息熵识别输入的文学作品的作者是否为目标作者。
在一个实施例中,作者识别模块108可用于根据输入的文学作品的信息熵Hinput、作者样本作品的信息熵的平均值U、平均变化量V和最大变化量Vmax判断输入的文学作品的作者是否为目标作者。
在本实施例中,作者识别模块108可用于计算作者样本作品的信息熵的平均值U。
例如,作者识别模块108可用于根据公式:
U = Σ t = 1 N H t N
计算作者样本作品的信息熵的平均值U。其中,N为全局样本作品中对应了目标作者的作者样本作品的个数,Ht为对应目标作者的第t个作者样本作品的信息熵。
作者识别模块108可用于根据平均值U计算作者样本作品的信息熵的平均变化量V。
例如,作者识别模块108可用于根据公式:
V = Σ t = 1 N | H t - U | N
计算作者样本作品的信息熵的平均变化量V。其中,N为全局样本作品中对应了目标作者的作者样本作品的个数,Ht为对应目标作者的第t个作者样本作品的信息熵,U为作者样本作品的信息熵的平均值。
作者识别模块108可用于根据平均值U计算作者样本作品的信息熵的最大变化量Vmax
例如,作者识别模块108可用于根据公式:
V max = Max t = 1 N ( | H t - U | )
计算作者样本作品的信息熵的平均变化量Vmax。其中,N为全局样本作品中对应了目标作者的作者样本作品的个数,Ht为对应目标作者的第t个作者样本作品的信息熵,U为作者样本作品的信息熵的平均值,Vmax即为|Ht-U|的最大值。
若Hinput属于U-V至U+V的数值范围区间内,则作者识别模块108得到识别结果:输入的文学作品的作者为目标作者。
若Hinput不属于U-V至U+V的数值范围区间内,但属于U-Vmax至U+Vmx的数值范围区间内,则作者识别模块108得到识别结果:输入的文学作品的作者可能为目标作者。
若Hinput不属于U-Vmax至U+Vmax的数值范围区间内,则作者识别模块108得到识别结果:输入的文学作品的作者不为目标作者。
上述文学作品作者识别方法及装置,对输入的文学作品进行了分词,根据分词得到的分词词组的出现频率计算输入的文学作品的信息熵,并获取了与目标作者对应的多个作者样本作品的信息熵,然后通过比较信息熵得到输入的文学作品与目标作者的作者样本作品的近似程度,从而判断输入的文学作品的作者是否为目标作者。由于同一作者的文学作品通常文风相同,用词习惯通常类似,因此根据香农的信息论原理,其信息熵也较相似,因此,准确度较高。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种文学作品作者识别方法,包括:
获取输入的文学作品,对所述输入的文学作品进行分词,对文学作品分词后,还可对得到的分词词组进行过滤,去除助词或无意义的副词,得到分词词组及其对应的目标出现频率;
获取全局样本作品,对全局样本作品进行分词,得到分词词组及其对应的全局出现频率,其中,在获取全局样本作品时,先获取输入的文学作品的篇幅或字数,然后选取与输入的文学作品篇幅或字数差值小于字数阈值的文学作品添加到全局样本作品中;
根据所述全局出现频率计算所述分词词组的信息量;
根据所述分词词组的目标出现频率及其对应的信息量计算所述输入的文学作品的信息熵;
获取与目标作者对应的作者样本作品及作者样本作品的信息熵;
通过比较所述作者样本作品的信息熵和所述输入的文学作品的信息熵识别所述输入的文学作品的作者是否为目标作者。
2.根据权利要求1所述的文学作品作者识别方法,其特征在于,所述获取与目标作者对应的作者样本作品及作者样本作品的信息熵的步骤之前还包括:
在所述全局样本作品中获取与目标作者对应的作者样本作品;
对作者样本作品进行分词,得到分词词组及其对应的作者出现频率。
3.根据权利要求2所述的文学作品作者识别方法,其特征在于,所述获取与目标作者对应的作者样本作品及作者样本作品的信息熵的步骤包括:
根据所述分词词组的作者出现频率及其对应的信息量计算所述作者样本作品的信息熵。
4.一种文学作品作者识别装置,其特征在于,包括:
目标分词模块,用于获取输入的文学作品,对所述输入的文学作品进行分词,对文学作品分词后,还可对得到的分词词组进行过滤,去除助词或无意义的副词,得到分词词组及其对应的目标出现频率;
全局分词模块,用于获取全局样本作品,对全局样本作品进行分词,得到分词词组及其对应的全局出现频率,其中,在获取全局样本作品时,先获取输入的文学作品的篇幅或字数,然后选取与输入的文学作品篇幅或字数差值小于字数阈值的文学作品添加到全局样本作品中;根据所述全局出现频率计算所述分词词组的信息量;
目标信息熵计算模块,用于根据所述目标出现频率计算所述输入的文学作品的信息熵,所述目标信息熵计算模块还用于根据所述分词词组的目标出现频率及其对应的信息量计算所述输入的文学作品的信息熵;
作者信息熵获取模块,用于获取与目标作者对应的作者样本作品及作者样本作品的信息熵;
作者识别模块,用于通过比较所述作者样本作品的信息熵和所述输入的文学作品的信息熵识别所述输入的文学作品的作者是否为目标作者。
5.根据权利要求4所述的文学作品作者识别装置,其特征在于,所述装置还包括作者分词模块,用于在所述全局样本作品中获取与目标作者对应的作者样本作品;对作者样本作品进行分词,得到分词词组及其对应的作者出现频率。
6.根据权利要求5所述的文学作品作者识别装置,其特征在于,所述装置还包括作者信息熵计算模块,还用于根据所述分词词组的作者出现频率及其对应的信息量计算所述作者样本作品的信息熵。
CN201310043297.5A 2013-02-02 2013-02-02 文学作品作者识别方法及装置 Active CN103106192B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310043297.5A CN103106192B (zh) 2013-02-02 2013-02-02 文学作品作者识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310043297.5A CN103106192B (zh) 2013-02-02 2013-02-02 文学作品作者识别方法及装置

Publications (2)

Publication Number Publication Date
CN103106192A CN103106192A (zh) 2013-05-15
CN103106192B true CN103106192B (zh) 2016-02-03

Family

ID=48314057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310043297.5A Active CN103106192B (zh) 2013-02-02 2013-02-02 文学作品作者识别方法及装置

Country Status (1)

Country Link
CN (1) CN103106192B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095753B (zh) * 2016-06-07 2018-11-06 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN106780060A (zh) * 2016-11-30 2017-05-31 华南师范大学 基于信息熵的地方协商社交网络用户身份判别方法和装置
CN106780061A (zh) * 2016-11-30 2017-05-31 华南师范大学 基于信息熵的社交网络用户分析方法和装置
CN110717326B (zh) * 2019-09-17 2022-12-23 平安科技(深圳)有限公司 基于机器学习的文本信息作者的识别方法及其装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079025A (zh) * 2006-06-19 2007-11-28 腾讯科技(深圳)有限公司 一种文档相关度计算系统和方法
CN101286163A (zh) * 2008-05-15 2008-10-15 深圳先进技术研究院 一种基于识别知识库的识别方法
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN102193929A (zh) * 2010-03-08 2011-09-21 阿里巴巴集团控股有限公司 确定词信息熵及利用词信息熵的搜索方法及其设备
CN102880631A (zh) * 2012-07-05 2013-01-16 湖南大学 一种基于双层分类模型的中文作者识别方法及其装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010107659A1 (en) * 2009-03-16 2010-09-23 Guidance Software, Inc. System and method for entropy-based near-match analysis

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079025A (zh) * 2006-06-19 2007-11-28 腾讯科技(深圳)有限公司 一种文档相关度计算系统和方法
CN101286163A (zh) * 2008-05-15 2008-10-15 深圳先进技术研究院 一种基于识别知识库的识别方法
CN101634983A (zh) * 2008-07-21 2010-01-27 华为技术有限公司 一种文本分类方法和装置
CN102193929A (zh) * 2010-03-08 2011-09-21 阿里巴巴集团控股有限公司 确定词信息熵及利用词信息熵的搜索方法及其设备
CN102880631A (zh) * 2012-07-05 2013-01-16 湖南大学 一种基于双层分类模型的中文作者识别方法及其装置

Also Published As

Publication number Publication date
CN103106192A (zh) 2013-05-15

Similar Documents

Publication Publication Date Title
CN101882964B (zh) 瞬变电磁探测回波信号的降噪方法
CN103106192B (zh) 文学作品作者识别方法及装置
CN103955505B (zh) 一种基于微博的事件实时监测方法及系统
CN102073684B (zh) 搜索日志的挖掘方法、时效性需求识别的方法及对应装置
CN102750379B (zh) 一种基于过滤型的字符串快速匹配方法
MX2011005771A (es) Metodo y dispositivo para interceptar correo basura.
CN101149739A (zh) 一种面向互联网的有意义串的挖掘方法和系统
CN108549078B (zh) 一种雷达脉冲信号跨信道合并及检测方法
CN110853672B (zh) 一种用于音频场景分类的数据扩充方法及装置
CN104951430B (zh) 产品特征标签的提取方法及装置
CN102207961A (zh) 一种网页自动分类方法及装置
CN103714120B (zh) 一种从用户url访问记录中提取用户兴趣话题的系统
CN101441663B (zh) 一种基于lzw压缩算法的中文文本分类特征词典生成方法
CN113111889A (zh) 用于边缘计算端的目标检测网络处理方法
CN102521402B (zh) 文本过滤系统及方法
CN106445999A (zh) 一种基于事件要素的事件抽取方法及系统
CN108108346B (zh) 文档的主题特征词抽取方法及装置
CN102375863A (zh) 一种地理信息领域的关键字提取的方法及装置
CN101639851B (zh) 一种数据存储、查询的方法和装置
CN103235789A (zh) 一种汉字转换为拼音及首字母的方法
Redlin et al. Maximal ideals in subalgebras of 𝐶 (𝑋)
CN110874366A (zh) 数据处理、查询方法和装置
CN106484672A (zh) 词汇识别方法和词汇识别系统
CN103336761B (zh) 基于动态划分与语义加权的干扰过滤匹配算法
CN116579319A (zh) 一种文本相似度的分析方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant