CN112270173A - 文本中的人物挖掘方法、装置、电子设备及存储介质 - Google Patents

文本中的人物挖掘方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112270173A
CN112270173A CN202011162912.0A CN202011162912A CN112270173A CN 112270173 A CN112270173 A CN 112270173A CN 202011162912 A CN202011162912 A CN 202011162912A CN 112270173 A CN112270173 A CN 112270173A
Authority
CN
China
Prior art keywords
text
candidate
segment
specified
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011162912.0A
Other languages
English (en)
Other versions
CN112270173B (zh
Inventor
白洁
王毅
潘政林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011162912.0A priority Critical patent/CN112270173B/zh
Publication of CN112270173A publication Critical patent/CN112270173A/zh
Application granted granted Critical
Publication of CN112270173B publication Critical patent/CN112270173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本中的人物挖掘方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体为深度学习和自然语言处理技术领域。具体实现方案为:采用预先训练的人名识别模型,预测指定文本中的候选人物集合;对所述指定文本进行新词发现,获取新词列表;基于所述候选人物集合和所述新词列表,确定所述指定文本中的人物信息。

Description

文本中的人物挖掘方法、装置、电子设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,具体为深度学习和自然语言处理技术领域,具体涉及一种文本中的人物挖掘方法、装置、电子设备及存储介质。
背景技术
人工智能(Artificial Intelligence;AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
近年来,围绕AI出现了越来越多的应用。例如,基于AI所实现的朗读在市场上变得越来越受关注。理论上而言,基于AI的有声朗读可以用于朗读多角色有声小说,如果想要得到效果良好的朗读体验,需要能够识别出小说包含的主要人物都有哪些。一个需要面对的问题是如何能够让机器尽量自动且准确的挖掘到小说中的主要人物。因为只有知道了包含有哪些人物,才能进一步去分析这些人物的性别、年龄、性格特点、人物关系等信息,也才能为每个人物分配适合性格特点的朗读音色,让听小说的用户有身临其境的良好感觉。
发明内容
本申请提供了一种用于文本中的人物挖掘方法、装置、电子设备及存储介质。
根据本申请的一方面,提供了一种文本中的人物挖掘方法,其中,所述方法包括:
采用预先训练的人名识别模型,预测指定文本中的候选人物集合;
对所述指定文本进行新词发现,获取新词列表;
基于所述候选人物集合和所述新词列表,确定所述指定文本中的人物信息。
根据本申请的另一方面,提供了一种文本中的人物挖掘装置,其中,所述装置包括:
预测模块,用于采用预先训练的人名识别模型,预测指定文本中的候选人物集合;
获取模块,用于对所述指定文本进行新词发现,获取新词列表;
确定模块,用于基于所述候选人物集合和所述新词列表,确定所述指定文本中的人物信息。
根据本申请的再一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
根据本申请的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方法。
根据本申请的技术,能够对指定文本中的人物进行快速、高效地挖掘,且能够充分保证挖掘的指定文本中的人物的召回率、全面性以及准确性,为后续进一步地进行人物分析提供了必要基础,能够有助于AI的多角色有声朗读的大规模运营。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是根据本申请第三实施例的示意图;
图4是根据本申请第四实施例的示意图;
图5是用来实现本申请实施例的文本中的人物挖掘方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本申请第一实施例的示意图;如图1所示,本实施例提供一种文本中的人物挖掘方法,具体可以包括如下步骤:
S101、采用预先训练的人名识别模型,预测指定文本中的候选人物集合;
S102、对指定文本进行新词发现,获取新词列表;
S103、基于候选人物集合和新词列表,确定指定文本中的人物信息。
本实施例的文本中的人物挖掘方法的执行主体为文本中的人物挖掘装置,该文本中的人物挖掘装置可以为一电子实体,或者也可以为软件集成的应用。使用时,接收指定文本,便可以对制定文本的人物进行挖掘,获取指定文本中的所有人物信息。例如可以输出指定文本中的人物列表。
本实施例中的指定文本的文本长度不受限定。可以为一篇短片文章,或者也可以为一本中长篇文章,文章的内容不做限定,例如可以为小说。
本实施例中,可以将指定文本输入至预先训练的人名识别模型,该人名识别模型可以基于指定文本中的内容,识别该指定文本中的所有候选人物信息,构成候选人物集合。该候选人物集合中包括的候选人物信息可以有至少一条。且该候选人物信息具体表现形式为人名。
可选地,若指定文本为小说之类的文本内容,其中包括的章节信息等若包括有人物信息,则必然与指定文本中的人物信息重叠。为了提高识别效率,本实施例中,可以在采用预先训练的人名识别模型,预测指定文本中的候选人物集合之前,先去除指定文本中的所有章节信息。然后将指定文本中的剩余的文本内容输入至人名识别模型中进行人名识别。
本实施例的人名识别模型为预先训练的神经网络模型。例如,训练之前,可以采集数条训练样本,每条训练样本包括一条训练文本和在该训练文本中标注的人名。训练时,将各训练文本输入至该人名识别模型中,该人名识别模块可以预测该训练文本中的人名。然后比对预测的人名和标注的人名是否一致,若不一致调整人名识别模型的参数,使得预测的人名和标注的人名一致。采用采集的数训练样本按照上述方式不断地对人名识别模型进行训练,直至在连续多轮训练中,预测的人名和标注的人名始终一致,训练结束,确定人名识别模型的参数,进而确定人名识别模型。
需要说明的是,本实施例的步骤S101预测的指定文本中的候选人物集合,是基于预先训练的人名识别模型得到的,所以识别到的候选人物集合中的人物信息,受训练人名识别模型所采用的训练数据的影响,对于训练数据中从未见过的人物信息,人名识别模型也识别不到。所以,本实施例中,人名识别模型识别的候选人物集合并不全面,召回率较低。基于此,本实施例中,还对指定文本进行新词发现,获取新词列表。新词列表中的新词可能包括有人名识别模型未识别到的指定文本中的人名、外号等,也可以包括其他新兴词语如近期出现的网红热词等。最后基于候选人物集合和新词列表,确定指定文本中的人物信息,以在新词中挖掘潜在的人物信息,可以弥补人名识别模型低召回率,提高挖掘的指定文本中的人物信息的全面性和准确性。
本实施例的挖掘到的指定文本中的人物信息可以采用列表的格式输出,以便于查阅,以便于进一步去分析指定文本中的人物的性别、年龄、性格特点、人物关系等信息,为基于AI的多角色有声朗读提供了必要的条件。
本实施例的文本中的人物挖掘方法,通过采用预先训练的人名识别模型,预测指定文本中的候选人物集合;对指定文本进行新词发现,获取新词列表;基于候选人物集合和新词列表,确定指定文本中的人物信息,能够对指定文本中的人物进行快速、高效地挖掘,且能够充分保证挖掘的指定文本中的人物的召回率、全面性以及准确性,为后续进一步地进行人物分析提供了必要基础,能够有助于AI的多角色有声朗读的大规模运营。
图2是根据本申请第二实施例的示意图;如图2所示,本实施例的文本中的人物挖掘方法,在上述图1所示实施例的技术方案的基础上,进一步更加详细地描述本申请的技术方案。如图2所示,本实施例的文本中的人物挖掘方法,具体可以包括如下步骤:
S201、采用预先训练的人名识别模型,基于指定文本中的各句子,进行人名提取,获取到数个备选人名;
S202、从数个备选人名中筛选词频大于预设词频阈值的数个候选人名,构成候选人物集合;
具体地,本实施例中,采用人名识别模型识别指定文本中候选人名时,具体可以一句话一句话来识别。例如,优选地,可以按照指定文本中的各文本语句由前向后的顺序,依次分别将各文本语句输入至该人名识别模型中,由该人名识别模型识别输入的文本语句中可能包括的备选人名,作为该指定文本中的备选人物。以此类推,通过对该指定文本中的所有文本语句的识别,识别到该指定文本中的所有备选人名。但是实际应用中一篇文本如一篇小说中包括的人物的数量可能非常之多,有些人物为主要人物,而有些人物如路人甲、路人乙之类的人物可能仅出现一两次,没有必要出现在指定文本的人物信息中。此时可以统计各个备选人名的在指定文本中的词频。然后基于各个备选人名的词频,从数个备选人名中筛选词频大于预设词频阈值的数个候选人名,构成候选人物集合。本实施例的预设词频阈值可以根据经验来设置,例如可以为3次、5次、8次或者大于1的其他次数。采用该方式能够有效地保证获取到候选人物集合的准确性。
另外,实际应用中,也可以采用人名识别模型,按照其他顺序对指定文本中的各文本语句进行人名识别,只要能够有效地挖掘到指定文本中的所有备选人名即可。
进一步可选地,本实施例的人名识别模型在对句子进行人名提取的时候,需要句子的长度满足一定的条件。对于过长的句子,提取精度较低。因此,可选地,在该步骤S201之前,还可以包括:检测各句子长度是否大于预设长度阈值;若是,对句子进行断句处理,拆分为至少两个分句,使得各分句的长度不大于预设长度阈值,避免句子过程,导致人名提取准确性差的问题,能够进一步提高提取的备选人名的准确性。
本实施例的预设长度阈值可以根据经验来设置。另外本实施例的断句处理,基于语义分析结果来进行断句,避免在一个词语的中间切断,以使得断句后得到的至少两个分句所表述的语义与原来的句子的语义相同,且每个分句的语义表述是清楚的。
另外,可选地,在该步骤S201之前,去掉指定文本中的章节信息,以精简指定文本的信息,提高备选人名的识别效率。
本实施例的步骤S201-S202为上述图1所示实施例的步骤S101的一种实现方式。
按照上述步骤S201-S202,得到的候选人物集合中可以包括较为粗糙的主要人物列表。例如,可能会存在如下问题:当前人名识别模型预测不出来或者预测错误的人物。例如外国音译人名预测错误,如海德尔可能会预测成海德;再例如人物的外号如大瘟神识别不出来这是一个人名;又例如人名中间带有动词或者副词等情况预测错误的情况,如荣再行预测成荣再;或还例如,还会出现人名与动词搭配预测错误的情况,如江小鱼道本意表示江小鱼这个人物说话,而人名识别模型预测的人名是“江小鱼道”。
S203、统计指定文本中各文本片段的出现频率;
本实施例中的文本片段可以指的是指定文本中的任意长度的文本片段。优选地,考虑到本实施例中旨在发现可能属于人名的新词语,所以本实施例的文本片段的长度可以根据经验统计的人名的长度来设置。例如,若指定文本采用中文时,基于中文的人名命名习惯,其长度可以为2个字、3个字或者4个字。所以,在从指定文本中挖掘文本片段时,可以按照经验统计的人名长度,挖掘长度为2个字、3个字或者4个字的文本片段。同理,在指定文本为其他语言时,可以结合其他语言的人名命名习惯,挖掘相应的文本片段,在此不再赘述。
本实施例中,文本片段的出现频率,即为指定文本中该文本片段的出现次数,借助于一定的统计工具,通过统计即可得到。
进一步需要说明的是,此处旨在挖掘指定文本中的新词语,所以,在该步骤之前,挖掘指定文本中的所有候选的文本片段时,先要确定文本片段不属于已知的预设的词库中的词语。例如,针对于不同的人名长度,可以设置相应长度的滑动窗口,在指定文本按照从前先后的顺序,移动滑动窗口,依次取文本片段,若文本片段属于预设的词库中的词语,则必然不属于新词。而若不属于预设的词库中的词语,则可能属于新词,则保留该文本片段。按照类似的方式,可以获取到指定文本中的所有文本片段。相对于上述方式,可以过滤掉明显不属于新词语的文本片段,提高文本片段的获取效率。
S204、获取指定文本中各文本片段的自由度;
具体地,本实施例中在计算各文本片段的自由度时,可以结合对应的文本片段的左邻字集合和右邻字集合来分析。
其中文本片段的左邻字集合采用指定文本中该文本片段的所有左邻字构成的集合;文本片段的右邻字集合采用指定文本中该文本片段的所有右邻字构成的集合。
例如,对于某个指定文本中的文本片段“电影”,得到的左邻字集合可以表示为{看,爱,拍…},右邻字集合可以表示为{院,人…}。并借助于信息熵来衡量文本片段分别与左邻字集合和右邻字集合中的字的结合有多随机。具体可以采用信息熵的计算公式,计算对应的文本片段分别与左邻字集合和右邻字集合中各字构成的片段的信息熵。信息熵越小,表示文本片段与其他字的结合能力越弱,文本片段的自由度越小,越有可能是人名;反之信息熵越大,表示文本片段与其他字的结合能力越强,表示文本片段的自由度越大,越不可能是人名。然后取该文本片段分别与左邻字集合中各字结合的片段的信息熵、与右邻字集合中各字结合的片段的信息熵中的最小值,作为对应的文本片段的自由度。其中文本片段与左邻字集合中各字结合的片段可以称之为左邻片段,对应的信息熵可以称之为左邻信息熵;文本片段与右邻字集合中各字结合的片段可以称之为右邻片段,对应的信息熵可以称之为右邻信息熵。
本实施例的信息熵的计算公式,可以参考相关现有技术的记载,在此不再赘述。
采用上述方式,能够有效地保证获取的各文本片段的自由度的准确性,进而有效地保证生成的新词列表的准确性。
S205、获取指定文本中各文本片段的凝合度:
具体地,文本片段的凝合度为文本片段的另一种物理量。例如,可以通过如下方式来计算:对于各文本片段,获取对应的文本片段包括的至少一组拆分片段;具体地拆分片段的组数与文本片段的长度有关。例如,对于长度为两个字的文本片段,仅存在一组拆分片段。如AB拆分为A+B。而对于长度为三个字的文本片段,可以存在两组拆分片段,如ABC可以拆分为AB+C、A+BC。而对于长度为四个字的文本片段,可以存在三组拆分片段,如ABCD可以拆分为ABC+D、AB+CD、A+BCD。接下来统计对应的文本片段中各组拆分片段的出现频率;如统计每组拆分片段中的每个拆分片段在指定文本中的出现频率。最后,基于对应的文本片段的出现频率以及各组拆分片段的出现频率,计算文本片段的凝合度。例如,可以取文本片段的出现频率与各组拆分片段中各拆分片段的乘积比值的最小值,作为该文本片段的凝合度。
例如,对于定义的一个文本片段比如“张AB”的凝合度就是这个文本片段在小说语料中的出现频次与将这个文本片段拆开后,得到的所有可能片段的出现频次的乘积的比值的最小值:
如,可以取p(张AB)与p(张)·p(AB)的比值和p(张AB)与p(张A)·p(B)的比值中的较小值,凝合度越高越有可能是指定文本中一个经常出现的语言现象,越可能是个人名;反之,凝合度越低越有可能是一个不经常出现的词语,不太可能为该指定文本中主要人物的人名。
采用上述方式,能够有效地保证获取的各文本片段的凝合度的准确性,进而有效地保证生成的新词列表的准确性。
S206、基于各文本片段的自由度、各文本片段的凝合度和各文本片段的出现频率中的至少一个,提取满足预设条件的多个文本片段,作为多个新词,构成新词列表;
例如本实施例的预设条件可以为:文本片段的自由度小于预设自由度阈值、文本片段的凝合度大于预设凝合度阈值、文本片段的出现频率大于预设频率阈值;其中预设自由度阈值、预设凝合度阈值和预设频率阈值均可以根据经验来设置。上述预设条件是以三个参数条件为例,实际应用中,也可以仅包括其中一个或者两个,但是同时包括上述三个参数条件,提取的新词的准确性更高。上述预设条件中,文本片段的自由度越小,为人名的概率比较大,而凝合度越大,表示越有可能是指定文本中人名。出现概率大于一定的预设概率阈值,才有可能属于指定文本中的角色,否则为属于可以忽略的人物。基于以上原理,可以从候选的多个文本片段中提取多个新词,且这多个新词可能是指定文本中的人名。
本实施例的步骤S203-S206为上述图1所示实施例的步骤S102的一种实现方式。实际应用中,也可以按照其他方式挖掘指定文本中的新词,例如,可以先挖掘指定文本中的所有词语,然后基于各种预设词库以及候选人物集合等已知词库的过滤,剩下的词语可以认为是新词。或者还可以采用其他新词的挖掘方式来挖掘指定文本中的新词,在此不再赘述。
采用步骤S203-S206的方式,可以将上述S201-S202的方式中未能正确识别的人名如海德尔、大瘟神、荣再行、江小鱼等作为新词,被挖掘到,可以避免上述人名识别模型丢失人物的问题,提高文本中的人物的召回率。
S207、检测候选人物集合中的候选人名和新词列表中的新词是否有共同片段;若有,执行步骤S208;若没有,执行步骤S210;
S208、采用对应的新词更新候选人物集合中对应的候选人名;执行步骤S209;
S209、将更新后的候选人物集合中的候选人名作为指定文本中的人物信息;结束。
步骤S207-S209的检测便是解决上述问题,例如S201-S202预测的人名海德,和步骤S203-S206检测的新词海德尔有共同片段,此时可以确定正确的人名应该是海德尔,将海德尔更新到候选人物集合中对应的候选人名。同理,可以将检测到的新词海德尔更新至候选人物集合的海德,等等。因此,该方案能够候选人物集合中的候选人名进行校准,有效地提高指定文本中的人物信息的准确性。
S210、基于预先训练的信息抽取模型预测指定文本中各句子的潜在说话人以及预测概率;
实际应用中,指定文本中并非每个句子都属于对话,但是,在预测时,为了保证信息不遗漏,可以对每个句子进行预测。若未预测到,则认为对应的句子不包括潜在说话人,或者可以设定潜在说话人为其他。若能预测到,则认为指定文本中存在该潜在说话人,而且预测的该潜在说话人为指定文本中的某个人物。
具体地,本实施例中,可以借助于信息抽取模型来实现对指定文本中的潜在说话人的抽取,例如,可以将指定文本中各句子输入至该信息抽取模型中,该信息抽取模型可以预测并输出该句子的潜在说话人以及属于该潜在说话人的预测概率。
S211、参考新词列表和预测的各个潜在说话人,从新词列表中获取属于潜在说话人的数个新词;
例如,可以依次判断各潜在说话人是否为新词列表中的新词,进而获取新词列表中获取属于潜在说话人的数个新词。或者也可以反过来依次判断新词列表中各新词是否是否属于潜在说话人,进而获取新词列表中获取属于潜在说话人的数个新词;总之得到数个新词即可。
S212、将数个新词基于预测概率以及在指定文本中的频率权重系数,进行排序;获取前N个新词,和候选人物集合中的候选人名,一起作为指定文本中的人物信息。
在该步骤之前,还需要预先统计数个新词在指定文本中的频率权重系数。具体地,各新词的频率权重系数表征该新词在指定文本中出现频率所占的权重,可以等于该新词在指定文本中的出现频率除以新词列表中所有新词的出现频率之和的商。例如本实施例中,可以取数个新词中各新词的预测概率乘以对应的频率权重系数的积,并将数个新词按照对应的积由大到小的顺序排序,取排序靠前的前N个,和候选任务集合中的候选人名,一起作为指定文本中的人物信息。由于指定文本中属于潜在说话人的新词的出现频率基于相应人物的重要性,出现的次数不一样,本实施例的技术方案旨在挖掘指定文本中的具有一定重要性的人物,而仅出现1次、2次或者其他很少次数的路人甲、路人乙之类的可以忽略的人物,可以不做挖掘。而人物的重要性可以通过对应新词的频率权重系数来表征。因此,本实施例中可以将新词预测概率乘以对应的频率权重系数作为排序的基础,以使得重要性的人物对应的新词排序尽可能的靠前。可选地,实际应用中,排序基础也可以将新词预测概率乘以对应的频率权重系数之后,再乘以其他参数。或者也可以基于新词预测概率和对应的频率权重系数做其他数学运算进行排序,在此不做限定。
采用该方案,可以有效地提高指定文本中的人物信息的召回率,能够有效地保证指定文本中的人物信息不会被丢失,而且能够有效地保证获取的指定文本中的人物信息的准确性。
本实施例中步骤S207-S209、步骤S210-S212分别为上述图1所示实施例的步骤S103的实现方式。这两种实现方式可以以择一的方式存在,也可以互补,如上述实施例所述同时存在。
本实施例的文本中的人物挖掘方法,通过采用上述技术方案,能够对指定文本中的人物进行快速、高效地挖掘,且能够充分保证挖掘的指定文本中的人物的召回率、全面性以及准确性,为后续进一步地进行人物分析提供了必要基础,能够有助于AI的多角色有声朗读的大规模运营。且经过实验验证,采用本实施例的技术方案对一本书中的人物进行挖掘时,仅花费约10-20分钟,而且可达到100%准确率的精度,充分证明本实施例的技术方案的高准确率和高效性。
图3是根据本申请第三实施例的示意图;如图3所示,本实施例提供一种文本中的人物挖掘装置300,包括:
预测模块301,用于采用预先训练的人名识别模型,预测指定文本中的候选人物集合;
获取模块302,用于对指定文本进行新词发现,获取新词列表;
确定模块303,用于基于候选人物集合和新词列表,确定指定文本中的人物信息。
本实施例的文本中的人物挖掘装置300,通过采用上述模块实现文本中的人物挖掘的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图4是根据本申请第四实施例的示意图;如图4所示,本实施例的文本中的人物挖掘装置400,在上述图3所示实施例的技术方案的基础上,进一步更加详细地描述本申请的技术方案。其中,图4中的文本中的人物挖掘装置400包括的预测模块401、获取模块402和确定模块403与上述图3所示实施例的预测模块301、获取模块302和确定模块303相同,详细参考上述实施例的记载,在此不再赘述。
如图4所示,本实施例的文本中的人物挖掘装置400中,预测模块401,包括:
提取单元4011,用于采用人名识别模型,基于指定文本中的各句子,进行人名提取,获取到数个备选人名;
筛选单元4012,用于从数个备选人名中筛选词频大于预设词频阈值的数个候选人名,构成候选人物集合。
进一步可选地,预测模块401中,还包括:
检测单元4013,用于检测各句子长度是否大于预设长度阈值;
拆分单元4014,用于若是,对句子进行断句处理,拆分为至少两个分句,使得各分句的长度不大于预设长度阈值。
进一步可选地,如图4所示,本实施例的文本中的人物挖掘装置400中,获取模块402,包括:
统计单元4021,用于统计指定文本中各文本片段的出现频率;
自由度获取单元4022,用于获取指定文本中各文本片段的自由度;
凝合度获取单元4023,用于获取指定文本中各文本片段的凝合度:
新词列表构成单元4024,用于基于各文本片段的自由度、各文本片段的凝合度和各文本片段的出现频率中的至少一个,提取满足预设条件的多个文本片段,作为多个新词,构成新词列表。
进一步可选地,获取模块402还包括:
获取单元4025,用于基于预设的词库,从指定文本中获取不属于词库中的词语的各文本片段。
进一步可选地,自由度获取单元4022,用于:
获取指定文本中各文本片段的左邻字集合和右邻字集合;
计算对应的文本片段分别与左邻字集合和右邻字集合中各字构成的片段的信息熵;
取文本片段分别与左邻字集合和右邻字集合中各字构成的片段的信息熵的最小值,作为对应的文本片段的自由度。
进一步可选地,凝合度获取单元4023,用于:
对于各文本片段,获取对应的文本片段包括的至少一组拆分片段;
统计对应的文本片段中各组拆分片段的出现频率;
基于对应的文本片段的出现频率以及各组拆分片段的出现频率,计算文本片段的凝合度。
进一步可选地,确定模块403,用于:
检测候选人物集合中的候选人名和新词列表中的新词是否有共同片段;若有,采用对应的新词更新候选人物集合中对应的候选人名;将更新后的候选人物集合中的候选人名作为指定文本中的人物信息;和/或
基于预先训练的信息抽取模型预测各句子的潜在说话人以及预测概率;从新词列表中获取属于潜在说话人的数个新词;将数个新词基于预测概率以及在指定文本中的频率权重系数,进行排序,获取前N个新词,和候选人物集合中的候选人名,一起作为指定文本中的人物信息。
本实施例的文本中的人物挖掘装置400,通过采用上述模块实现文本中的人物挖掘的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图5所示,是本申请实施例的实现文本中的人物挖掘方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。
存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文本中的人物挖掘方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本中的人物挖掘方法。
存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本中的人物挖掘方法对应的程序指令/模块(例如,附图3和附图4所示的相关模块)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本中的人物挖掘方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据实现文本中的人物挖掘方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至实现文本中的人物挖掘方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现文本中的人物挖掘方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。
输入装置503可接收输入的数字或字符信息,以及产生与实现文本中的人物挖掘方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过采用预先训练的人名识别模型,预测指定文本中的候选人物集合;对指定文本进行新词发现,获取新词列表;基于候选人物集合和新词列表,确定指定文本中的人物信息,能够对指定文本中的人物进行快速、高效地挖掘,且能够充分保证挖掘的指定文本中的人物的召回率、全面性以及准确性,为后续进一步地进行人物分析提供了必要基础,能够有助于AI的多角色有声朗读的大规模运营。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (18)

1.一种文本中的人物挖掘方法,其中,所述方法包括:
采用预先训练的人名识别模型,预测指定文本中的候选人物集合;
对所述指定文本进行新词发现,获取新词列表;
基于所述候选人物集合和所述新词列表,确定所述指定文本中的人物信息。
2.根据权利要求1所述的方法,其中,采用预先训练的人名识别模型,预测指定文本中的候选人物集合,包括:
采用所述人名识别模型,基于所述指定文本中的各句子,进行人名提取,获取到数个备选人名;
从所述数个备选人名中筛选词频大于预设词频阈值的数个候选人名,构成所述候选人物集合。
3.根据权利要求2所述的方法,其中,采用所述人名识别模型,基于所述指定文本中的各句子,进行人名提取,获取到数个备选人名之前,所述方法还包括:
检测各所述句子长度是否大于预设长度阈值;
若是,对所述句子进行断句处理,拆分为至少两个分句,使得各所述分句的长度不大于所述预设长度阈值。
4.根据权利要求1所述的方法,其中,对所述指定文本进行新词发现,获取新词列表,包括:
统计所述指定文本中各文本片段的出现频率;
获取所述指定文本中各所述文本片段的自由度;
获取所述指定文本中各所述文本片段的凝合度:
基于各所述文本片段的自由度、各所述文本片段的凝合度和各所述文本片段的出现频率中的至少一个,提取满足预设条件的多个文本片段,作为多个新词,构成所述新词列表。
5.根据权利要求4所述的方法,其中,统计所述指定文本中各文本片段的出现频率之前,所述方法还包括:
基于预设的词库,从所述指定文本中获取不属于所述词库中的词语的各所述文本片段。
6.根据权利要求4所述的方法,其中,获取所述指定文本中各文本片段的自由度,包括:
获取所述指定文本中各所述文本片段的左邻字集合和右邻字集合;
计算对应的所述文本片段分别与所述左邻字集合和所述右邻字集合中各字构成的片段的信息熵;
取所述文本片段分别与所述左邻字集合和所述右邻字集合中各字构成的片段的信息熵的最小值,作为对应的所述文本片段的自由度。
7.根据权利要求4所述的方法,其中,获取所述指定文本中各所述文本片段的凝合度,包括:
对于各所述文本片段,获取对应的所述文本片段包括的至少一组拆分片段;
统计对应的所述文本片段中各组所述拆分片段的出现频率;
基于对应的所述文本片段的出现频率以及各组所述拆分片段的出现频率,计算所述文本片段的凝合度。
8.根据权利要求1-7任一所述的方法,其中,基于所述候选人物集合和所述新词列表,确定所述指定文本中的人物信息,包括:
检测所述候选人物集合中的候选人名和所述新词列表中的新词是否有共同片段;若有,采用对应的所述新词更新所述候选人物集合中对应的所述候选人名;将更新后的所述候选人物集合中的候选人名作为所述指定文本中的人物信息;和/或
基于预先训练的信息抽取模型预测各句子的潜在说话人以及预测概率;从所述新词列表中获取属于潜在说话人的数个新词;将所述数个新词基于所述预测概率以及在所述指定文本中的频率权重系数,进行排序,获取前N个所述新词,和所述候选人物集合中的所述候选人名,一起作为所述指定文本中的人物信息。
9.一种文本中的人物挖掘装置,其中,所述装置包括:
预测模块,用于采用预先训练的人名识别模型,预测指定文本中的候选人物集合;
获取模块,用于对所述指定文本进行新词发现,获取新词列表;
确定模块,用于基于所述候选人物集合和所述新词列表,确定所述指定文本中的人物信息。
10.根据权利要求9所述的装置,其中,所述预测模块,包括:
提取单元,用于采用所述人名识别模型,基于所述指定文本中的各句子,进行人名提取,获取到数个备选人名;
筛选单元,用于从所述数个备选人名中筛选词频大于预设词频阈值的数个候选人名,构成所述候选人物集合。
11.根据权利要求10所述的装置,其中,所述预测模块还包括:
检测单元,用于检测各所述句子长度是否大于预设长度阈值;
拆分单元,用于若是,对所述句子进行断句处理,拆分为至少两个分句,使得各所述分句的长度不大于所述预设长度阈值。
12.根据权利要求9所述的装置,其中,所述获取模块,包括:
统计单元,用于统计所述指定文本中各文本片段的出现频率;
自由度获取单元,用于获取所述指定文本中各所述文本片段的自由度;
凝合度获取单元,用于获取所述指定文本中各所述文本片段的凝合度:
新词列表构成单元,用于基于各所述文本片段的自由度、各所述文本片段的凝合度和各所述文本片段的出现频率中的至少一个,提取满足预设条件的多个文本片段,作为多个新词,构成所述新词列表。
13.根据权利要求12所述的装置,其中,所述获取模块还包括:
获取单元,用于基于预设的词库,从所述指定文本中获取不属于所述词库中的词语的各所述文本片段。
14.根据权利要求12所述的装置,其中,所述自由度获取单元,用于:
获取所述指定文本中各所述文本片段的左邻字集合和右邻字集合;
计算对应的所述文本片段分别与所述左邻字集合和所述右邻字集合中各字构成的片段的信息熵;
取所述文本片段分别与所述左邻字集合和所述右邻字集合中各字构成的片段的信息熵的最小值,作为对应的所述文本片段的自由度。
15.根据权利要求12所述的装置,其中,所述凝合度获取单元,用于:
对于各所述文本片段,获取对应的所述文本片段包括的至少一组拆分片段;
统计对应的所述文本片段中各组所述拆分片段的出现频率;
基于对应的所述文本片段的出现频率以及各组所述拆分片段的出现频率,计算所述文本片段的凝合度。
16.根据权利要求9-15任一所述的装置,其中,所述确定模块,用于:
检测所述候选人物集合中的候选人名和所述新词列表中的新词是否有共同片段;若有,采用对应的所述新词更新所述候选人物集合中对应的所述候选人名;将更新后的所述候选人物集合中的候选人名作为所述指定文本中的人物信息;和/或
基于预先训练的信息抽取模型预测各句子的潜在说话人以及预测概率;从所述新词列表中获取属于潜在说话人的数个新词;将所述数个新词基于所述预测概率以及在所述指定文本中的频率权重系数,进行排序,获取前N个所述新词,和所述候选人物集合中的所述候选人名,一起作为所述指定文本中的人物信息。
17.一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
CN202011162912.0A 2020-10-27 2020-10-27 文本中的人物挖掘方法、装置、电子设备及存储介质 Active CN112270173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011162912.0A CN112270173B (zh) 2020-10-27 2020-10-27 文本中的人物挖掘方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011162912.0A CN112270173B (zh) 2020-10-27 2020-10-27 文本中的人物挖掘方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112270173A true CN112270173A (zh) 2021-01-26
CN112270173B CN112270173B (zh) 2021-10-26

Family

ID=74342296

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011162912.0A Active CN112270173B (zh) 2020-10-27 2020-10-27 文本中的人物挖掘方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112270173B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128205A (zh) * 2021-05-12 2021-07-16 北京奇艺世纪科技有限公司 一种剧本信息处理方法、装置、电子设备及存储介质
CN113312358A (zh) * 2021-06-23 2021-08-27 北京有竹居网络技术有限公司 构建人物库的方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201117024A (en) * 2009-11-13 2011-05-16 Yu-Chieh Wu A unified machine learning-based Chinese word segmentation and part-of-speech tagging algorithm
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN108090039A (zh) * 2016-11-21 2018-05-29 中移(苏州)软件技术有限公司 一种人名识别方法和装置
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法
CN111414459A (zh) * 2018-12-18 2020-07-14 北京嘀嘀无限科技发展有限公司 人物关系获取方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201117024A (en) * 2009-11-13 2011-05-16 Yu-Chieh Wu A unified machine learning-based Chinese word segmentation and part-of-speech tagging algorithm
CN108090039A (zh) * 2016-11-21 2018-05-29 中移(苏州)软件技术有限公司 一种人名识别方法和装置
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN111414459A (zh) * 2018-12-18 2020-07-14 北京嘀嘀无限科技发展有限公司 人物关系获取方法、装置、电子设备及存储介质
CN110222199A (zh) * 2019-06-20 2019-09-10 青岛大学 一种基于本体和多种神经网络集成的人物关系图谱构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN LIN ET AL.: "Chinese Personal Name Recognition Using N-gram Model and Rules", 《2012 7TH INTERNATIONAL CONFERENCE ON COMPUTING AND CONVERGENCE TECHNOLOGY(ICCCT)》 *
李康康 等: "基于词的关联特征的中文分词方法", 《通信技术》 *
钱小飞 等: "面向大型叙事作品的指人成分识别", 《语言文字应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128205A (zh) * 2021-05-12 2021-07-16 北京奇艺世纪科技有限公司 一种剧本信息处理方法、装置、电子设备及存储介质
CN113128205B (zh) * 2021-05-12 2023-07-18 北京奇艺世纪科技有限公司 一种剧本信息处理方法、装置、电子设备及存储介质
CN113312358A (zh) * 2021-06-23 2021-08-27 北京有竹居网络技术有限公司 构建人物库的方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112270173B (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
CN111221983A (zh) 时序知识图谱生成方法、装置、设备和介质
CN104584003B (zh) 词检测和域字典推荐
WO2016197577A1 (zh) 评论信息的标注方法、装置和计算机设备
CN111783468B (zh) 文本处理方法、装置、设备和介质
CN111967262A (zh) 实体标签的确定方法和装置
CN112507700A (zh) 事件抽取方法、装置、电子设备及存储介质
CN110020422A (zh) 特征词的确定方法、装置和服务器
JP2016508264A (ja) 入力文字列に対応する入力候補アイテムを提供する方法及び装置
TW201519075A (zh) 文字範圍的智慧選擇
CN112001190A (zh) 自然语言处理模型的训练方法、装置、设备及存储介质
CN112270173B (zh) 文本中的人物挖掘方法、装置、电子设备及存储介质
CN111522967A (zh) 知识图谱构建方法、装置、设备以及存储介质
CN112148881B (zh) 用于输出信息的方法和装置
CN111274397B (zh) 建立实体关系检测模型的方法以及装置
CN111858883A (zh) 三元组样本的生成方法、装置、电子设备及存储介质
CN111859953A (zh) 训练数据的挖掘方法、装置、电子设备及存储介质
CN112052397A (zh) 用户特征生成方法、装置、电子设备及存储介质
KR20230104983A (ko) 대화 이해를 위한 회화적 측면 감정 분석(casa)
CN111984774A (zh) 搜索方法、装置、设备以及存储介质
KR20160134564A (ko) 사용자의 감성을 분석하는 방법 및 디바이스
CN112650919A (zh) 实体资讯分析方法、装置、设备及存储介质
CN113516491A (zh) 推广信息展示方法、装置、电子设备及存储介质
CN111274353A (zh) 文本切词方法、装置、设备和介质
CN111523019A (zh) 用于输出信息的方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant