CN110516255A

CN110516255A - 一种角色姓名提取方法及系统

Info

Publication number: CN110516255A
Application number: CN201910815197.7A
Authority: CN
Inventors: 涂斌; 蔡剑文; 欧阳育军; 叶键晖
Original assignee: Guangzhou Huaduo Network Technology Co Ltd
Current assignee: Guangzhou Huaduo Network Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-11-29

Abstract

本发明提供一种角色姓名提取方法及系统，该方法为：获取待提取文本信息；对待提取文本信息进行分句处理，得到多条待提取语句；利用预设的语义识别数据库，确定每一待提取语句对应的语言逻辑；根据每一待提取语句对应的语言逻辑，确定每一待提取语句的词信息；利用排除条件对每一待提取语句中的词信息进行筛选，提取待提取文本信息中用于指示角色姓名的词。本方案中，利用语义识别数据库确定每一待提取语句对应的语言逻辑，并根据每一待提取语句对应的语言逻辑提取每一待提取语句的词信息。利用预设的排除条件对所有词信息进行筛选，提取待提取文本信息中用于指示角色姓名的词，不需要人工提取角色姓名，提高提取准确率和提取效率。

Description

一种角色姓名提取方法及系统

技术领域

本发明涉及文本处理技术领域，具体涉及一种角色姓名提取方法及系统。

背景技术

随着科学技术的发展，利用电子设备阅读电子文本逐渐成为阅读文本的主流方式。

在将文本内容制作成电子文本的过程中，通常需要整理文本内容中的角色信息，即需要提取文本内容中的角色信息。目前提取文本内容中的角色信息的方式为：提取人员先通读文本内容，再根据提取人员的理解将文本内容中的角色信息提取出来。但是一方面，人工阅读文本内容可能出现漏读和错读的情况，导致提取的角色信息不完整和角色信息不准确。另一方面，人工阅读文本需要大量时间，提取角色信息也需要大量时间，导致提取效率低。

发明内容

有鉴于此，本发明实施例提供一种角色姓名提取方法及系统，以解决人工提取角色姓名存在的提取不准确和提取效率低等问题。

为实现上述目的，本发明实施例提供如下技术方案：

本发明实施例第一方面公开一种角色姓名提取方法，所述方法包括：

获取待提取文本信息；

对所述待提取文本信息进行分句处理，得到多条待提取语句；

针对每一条待提取语句，利用预设的语义识别数据库，确定所述待提取语句对应的语言逻辑，所述语义识别数据库包括预先设定的语言逻辑和排除条件，所述语言逻辑由句法结构构成，所述排除条件用于指示非角色姓名的词信息；

根据每一所述待提取语句对应的语言逻辑，确定每一所述待提取语句的词信息；

利用所述排除条件对每一所述待提取语句中的词信息进行筛选，提取所述待提取文本信息中用于指示角色姓名的词。

优选的，所述对所述待提取文本信息进行分句处理，得到多条待提取语句，包括：

获取所述待提取文本信息中的标点符号分布信息；

利用所述标点符号分布信息，对所述待提取文本信息进行分句处理，得到多条待提取语句。

优选的，所述利用预设的语义识别数据库，确定所述待提取语句对应的语言逻辑，包括：

利用预设的语义识别数据库中的语言逻辑，分析所述待提取语句句法结构；

从预设的语义识别数据库中获取与所述语句结构信息相匹配的语言逻辑，确定所述待提取语句对应的语言逻辑。

优选的，所述方法还包括：

基于预设时间，将所述语义识别数据库中的所有语言逻辑进行交叉类比，更新所述语义识别数据库中的语言逻辑。

优选的，所述提取所述待提取文本信息中用于指示角色姓名的词之后，还包括：

对所述所有角色姓名进行去重复处理。

本发明实施例第二方面公开一种角色姓名提取系统，所述系统包括：

获取单元，用于获取待提取文本信息；

分句单元，用于对所述待提取文本信息进行分句处理，得到多条待提取语句；

第一确定单元，用于针对每一条待提取语句，利用预设的语义识别数据库，确定所述待提取语句对应的语言逻辑，所述语义识别数据库包括预先设定的语言逻辑和排除条件构成，所述语言逻辑由句法结构构成，所述排除条件用于指示非角色姓名的词信息；

提取单元，用于根据每一所述待提取语句对应的语言逻辑，确定每一所述待提取语句的词信息；

第二确定单元，用于利用所述排除条件对每一所述待提取语句中的词信息进行筛选，提取所述待提取文本信息中用于指示角色姓名的词。

优选的，所述分句单元具体用于：获取所述待提取文本信息中的标点符号分布信息，以及利用所述标点符号分布信息，对所述待提取文本信息进行分句处理，得到多条待提取语句。

优选的，所述第一确定单元具体用于：利用预设的语义识别数据库中的语言逻辑，分析所述待提取语句，从预设的语义识别数据库中获取与所述语句结构信息相匹配的语言逻辑，确定所述待提取语句对应的语言逻辑。

本发明实施例第三方面公开一种电子设备，所述电子设备用于运行程序，其中，所述程序运行时执行如本发明实施例第一方面公开的角色姓名提取方法。

本发明实施例第四方面公开一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如本发明实施例第一方面公开的角色姓名提取方法。

基于上述本发明实施例提供的一种角色姓名提取方法及系统，该方法为：获取待提取文本信息；对待提取文本信息进行分句处理，得到多条待提取语句；利用预设的语义识别数据库，确定每一待提取语句对应的语言逻辑；根据每一待提取语句对应的语言逻辑，确定每一待提取语句的词信息；利用排除条件对每一待提取语句中的词信息进行筛选，提取待提取文本信息中用于指示角色姓名的词。本方案中，利用语义识别数据库确定每一待提取语句对应的语言逻辑，并根据每一待提取语句对应的语言逻辑提取每一待提取语句的词信息。利用预设的排除条件对所有词信息进行筛选，提取待提取文本信息中用于指示角色姓名的词，不需要人工提取角色姓名，提高提取准确率和提取效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种角色姓名提取方法流程图；

图2为本发明实施例提供的一种角色姓名提取系统的结构框图；

图3为本发明实施例提供的另一种角色姓名提取系统的结构框图；

图4为本发明实施例提供的又一种角色姓名提取系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

由背景技术可知，目前先通过提取人员通读文本内容，再根据提取人员的理解将文本内容中的角色信息提取出来。但是一方面，人工阅读文本内容可能出现漏读和错读的情况，导致提取的角色信息不完整和角色信息不准确。另一方面，人工阅读文本需要大量时间，提取角色信息也需要大量时间，导致提取效率低。

因此，本发明实施例提供一种角色姓名提取方法及系统，通过确定待提取文本信息中每一待提取语句的语言逻辑，根据每一待提取语句的语言逻辑提取每一待提取语句的词信息，利用预设的排除条件对所有词信息进行筛选得到待提取文本信息中用于指示角色名字的词，以提高提取准确率和提取效率。

参见图1，示出了本发明实施例提供的一种角色姓名提取方法流程图，所述方法包括以下步骤：

步骤S101：获取待提取文本信息。

步骤S102：对所述待提取文本信息进行分句处理，得到多条待提取语句。

在具体实现步骤S102的过程中，解析所述待提取文本信息，获取所述待提取文本信息中的标点符号分布信息。利用所述待提取文本信息的标点符号分布信息，对所述待提取文本信息进行分句处理，得到多条待提取语句。

例如：获取所述待提取文本信息中的句号和逗号的分布信息，根据所述句号和逗号的分布信息对所述待提取文本信息进行分句处理，得到多条待提取语句。

步骤S103：针对每一条待提取语句，利用预设的语义识别数据库，确定所述待提取语句对应的语言逻辑。

需要说明的是，利用语法规则，在所述语义识别数据库中构建语言逻辑，其中每一语言逻辑句法结构构成。例如利用主语、谓语、宾语和定语等规律词性构建语言逻辑。例如构建的语言逻辑为：主语+谓语+宾语。

进一步需要说明的是，对于一条待提取语句，该待提取语句中的词信息并不全是角色名字，例如：待提取语句“小红喜欢北京”中，主语“小红”为角色名字，但是宾语“北京”不是角色名字。又例如：待提取语句“我们讨厌苦瓜”中，主语“我们”和宾语“苦瓜”都不是角色名字。因此，需要预设排除条件，将待提取语句中指示非角色姓名的词信息筛除，只提取所述待提取语句中用于指示角色姓名的词信息。

可选的，设置排除条件为筛除人称代词，则将指示人称代词的词信息从待提取语句中筛除。

在具体实现步骤S103的过程中，利用预设的语义识别数据库中的语言逻辑，分析所述待提取语句，。从预设的语义识别数据库中获取与所述语句结构信息相匹配的语言逻辑，确定所述待提取语句对应的语言逻辑。

例如：所述待提取语句为“小红的书”，所述待提取语句的句法结构信息为“小红+的+书”，确定与所述待提取语句相匹配的语言逻辑为“A的B”。

优选的，预先设置更新时间，对所述语义识别数据库中的语言逻辑，具体更新方式为：基于预设时间，将所述语义识别数据库中的所有语言逻辑进行交叉类比，更新所述语义识别数据库中的语言逻辑。

例如：对于所述语义识别数据库中的两条语言逻辑“A+的+B(ex：‘苹果’，‘书’)”和“A+在工作”，对前述两条语言逻辑进行交叉组合得到新的语言逻辑“A+的+B(ex：‘苹果’，‘书’)在工作”。

需要说明的是，上述举例中的(ex：‘苹果’，‘书’)为排除条件，即排除词信息中的“苹果”和“书”等词。

步骤S104：根据每一所述待提取语句对应的语言逻辑，确定每一所述待提取语句的词信息。

在具体实现步骤S104的过程中，根据每一所述待提取语句的语言逻辑，获取每一所述待提取语句中的词信息。例如：所述待提取语句为“小红的书”，对应的语言逻辑为“A的B”，则提取该待提取语句的词信息为“小红”和“书”。又例如：所述待提取语句为“我的苹果”，对应的语言逻辑为“A的B”，则提取该待提取语句的词信息为“我”和“苹果”。

步骤S105：利用所述排除条件对每一所述待提取语句中的词信息进行筛选，提取所述待提取文本信息中用于指示角色姓名的词。

由前述内容可知，对于一条待提取语句，该待提取语句中的词信息并不全是角色名字，因此，需要对所有所述词信息进行筛选，提取所述待提取文本信息中用于指示角色姓名的词。例如：提取的词信息为“小红”、“书”、“我”和“苹果”，利用排除人称代词和排除物体名词的排除条件，对前述“小红”、“书”、“我”和“苹果”4个词信息进行筛选，提取角色姓名为“小红”。

需要说明的是，从所述待提取文本信息中提取的所有角色姓名，可用于文本概述、文本字典、角色画像描述和多角色音频播放等场景。

优选的，在提取所述待提取文本信息中的所有角色姓名之后，对所述所有角色姓名包括但不仅限于以下两种处理方式。

处理方式一、对于所述待提取文本信息的每个角色姓名，每个角色姓名在所述待提取文本信息中可能出现多次，从所述待提取文本信息中提取所有角色姓名时，会获取到多个重复的角色姓名。若不需要获取重复的角色姓名，则对所述所有角色姓名进行去重复处理。

例如：假设角色姓名“张三”在所述待提取文本信息中出现10次，经由上述步骤S101至步骤S105的处理后，提取到10个角色姓名“张三”，只保留1个角色姓名“张三”，将其余9个角色姓名“张三”删除。

处理方式二、对于所述待提取文本信息的每个角色姓名，每个角色姓名在所述待提取文本信息中可能出现多次，但是每个角色姓名在所述待提取文本信息中的位置都不相同。从所述待提取文本信息中提取所有角色姓名时，对每一角色姓名进行标注，

例如：标注每一角色姓名在所述待提取文本信息中的位置。

在本发明实施例中，利用语义识别数据库确定每一待提取语句对应的语言逻辑，并根据每一待提取语句对应的语言逻辑确定每一待提取语句的词信息。利用预设的排除条件对所有词信息进行筛选，提取待提取文本信息中用于指示角色姓名的词，不需要人工通道文本内容来提取角色姓名，提高提取准确率和提取效率。

与上述本发明实施例提供的一种角色姓名提取方法相对应，参见图2，本发明实施例还提供一种角色姓名提取系统的结构框图，所述系统包括：获取单元201、分句单元202、第一确定单元203、提取单元204和第二确定单元205；

获取单元201，用于获取待提取文本信息。

分句单元202，用于对所述待提取文本信息进行分句处理，得到多条待提取语句。

在具体实现中，所述分句单元202具体用于：获取所述待提取文本信息中的标点符号分布信息，以及利用所述标点符号分布信息，对所述待提取文本信息进行分句处理，得到多条待提取语句。

第一确定单元203，用于针对每一条待提取语句，利用预设的语义识别数据库，确定所述待提取语句对应的语言逻辑，所述语义识别数据库包括预先设定的语言逻辑和排除条件构成，所述语言逻辑由句法结构构成，所述排除条件用于指示非角色姓名的词信息。

在具体实现中，所述第一确定单元203具体用于：利用预设的语义识别数据库中的语言逻辑，分析所述待提取语句，从预设的语义识别数据库中获取与所述语句结构信息相匹配的语言逻辑，确定所述待提取语句对应的语言逻辑。

提取单元204，用于根据每一所述待提取语句对应的语言逻辑，确定每一所述待提取语句的词信息。

第二确定单元205，用于利用所述排除条件对每一所述待提取语句中的词信息进行筛选，提取所述待提取文本信息中用于指示角色姓名的词。

优选的，结合图2，参见图3，示出了本发明实施例提供的一种角色姓名提取系统的结构框图，所述系统还包括：

更新单元206，用于基于预设时间，将所述语义识别数据库中的所有语言逻辑进行交叉类比，更新所述语义识别数据库中的语言逻辑。

在本发明实施例中，预先设置更新时间，对语义识别数据库中的所有语言逻辑进行交叉类比，从而更新语义识别数据库中的语言逻辑，保证确定待提取语句对应的语言逻辑的准确性。

优选的，结合图2，参见图4，示出了本发明实施例提供的一种角色姓名提取系统的结构框图，所述系统还包括：

去重单元207，用于对所述所有角色姓名进行去重复处理。

基于上述本发明实施例公开的一种角色姓名提取系统，上述各个模块可以通过一种由处理器和存储器构成的电子设备实现。具体为：上述各个模块作为程序单元存储于存储器中，由处理器执行存储在存储器中的上述程序单元来实现提取角色姓名。

其中，处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现提取角色姓名。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

进一步的，本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行角色姓名提取方法。

进一步的，本发明实施例提供了一种电子设备，所述电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现如上任一实施例中示出的角色姓名提取方法。

本发明实施例中公开的设备可以是PC、PAD、手机等。

进一步的，本发明实施例还提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现提取角色姓名。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如上任一实施例中示出的角色姓名提取方法。

综上所述，本发明实施例提供一种角色姓名提取方法及系统，该方法为：获取待提取文本信息；对待提取文本信息进行分句处理，得到多条待提取语句；利用预设的语义识别数据库，确定每一待提取语句对应的语言逻辑；根据每一待提取语句对应的语言逻辑，确定每一待提取语句的词信息；利用排除条件对每一待提取语句中的词信息进行筛选，提取待提取文本信息中用于指示角色姓名的词。本方案中，利用语义识别数据库确定每一待提取语句对应的语言逻辑，并根据每一待提取语句对应的语言逻辑提取每一待提取语句的词信息。利用预设的排除条件对所有词信息进行筛选，提取待提取文本信息中用于指示角色姓名的词，不需要人工提取角色姓名，提高提取准确率和提取效率。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种角色姓名提取方法，其特征在于，所述方法包括：

获取待提取文本信息；

2.根据权利要求1所述的方法，其特征在于，所述对所述待提取文本信息进行分句处理，得到多条待提取语句，包括：

获取所述待提取文本信息中的标点符号分布信息；

3.根据权利要求1所述的方法，其特征在于，所述利用预设的语义识别数据库，确定所述待提取语句对应的语言逻辑，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述提取所述待提取文本信息中用于指示角色姓名的词之后，还包括：

对所述所有角色姓名进行去重复处理。

6.一种角色姓名提取系统，其特征在于，所述系统包括：

获取单元，用于获取待提取文本信息；

7.根据权利要求6所述的系统，其特征在于，所述分句单元具体用于：获取所述待提取文本信息中的标点符号分布信息，以及利用所述标点符号分布信息，对所述待提取文本信息进行分句处理，得到多条待提取语句。

8.根据权利要求6所述的系统，其特征在于，所述第一确定单元具体用于：利用预设的语义识别数据库中的语言逻辑，分析所述待提取语句，从预设的语义识别数据库中获取与所述语句结构信息相匹配的语言逻辑，确定所述待提取语句对应的语言逻辑。

9.一种电子设备，其特征在于，所述电子设备用于运行程序，其中，所述程序运行时执行如权利要求1-5中任一所述的角色姓名提取方法。

10.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行如权利要求1-5中任一所述的角色姓名提取方法。