CN111767715A - 人物识别的方法、装置、设备及存储介质 - Google Patents
人物识别的方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111767715A CN111767715A CN202010524814.0A CN202010524814A CN111767715A CN 111767715 A CN111767715 A CN 111767715A CN 202010524814 A CN202010524814 A CN 202010524814A CN 111767715 A CN111767715 A CN 111767715A
- Authority
- CN
- China
- Prior art keywords
- candidate
- word
- candidate words
- character
- mapping relation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013507 mapping Methods 0.000 claims abstract description 101
- 230000011218 segmentation Effects 0.000 claims abstract description 43
- 238000001914 filtration Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000004891 communication Methods 0.000 claims description 16
- 210000001072 colon Anatomy 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种人物识别的方法、装置、设备及存储介质,方法包括:对剧本文本进行分词处理,获得包含有至少一个词语的分词集合;从所述分词集合中,提取具有预设人物属性的候选词语,得到候选词语集合;根据每个所述候选词语在所述剧本文本中的位置和/或上下文文本,获得至少两个所述候选词语之间的映射关系,其中,一个所述映射关系中包含的所述候选词语用于指代同一个人物;根据所述映射关系,对所述候选词语集合进行过滤,得到所述剧本中识别到的人物。本申请用以解决由于剧本中一个人物存在多种称呼,会对人物识别造成干扰,导致人物识别的召回率不准确的问题。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种人物识别的方法、装置、设备及存储介质。
背景技术
出场人物说明是指在一个剧本的每个场次中,单独写明的本场出场的角色列表。但是在剧本的原始作品中,大部分剧本没有出场人物说明,因此需要人工识别出场人物。
目前出现了对剧本中人物自动识别的方法,但是该方法在剧本人物识别过程中,对于某些人物,会同时存在该人物的身份名和称谓名,例如,剧本中有人物“张三丰”,而在有些场景中也将“张三丰”称为“师父”、“一代宗师”等,而“师父”这类称谓词、“一代宗师”这类身份词,会对“张三丰”形成重复,在同时识别出来的情况下,会被判定为是三个人物,从而对人物识别造成干扰。
可见,现有剧本人物自动识别过程中,由于一个人物存在多种称呼,会对人物识别造成干扰,导致人物识别的召回率不准确。
发明内容
本申请提供了一种人物识别的方法、装置、设备及存储介质,用以解决由于剧本中一个人物存在多种称呼,会对人物识别造成干扰,导致人物识别的召回率不准确的问题。
第一方面,本申请提供了一种人物识别方法,包括:
对剧本文本进行分词处理,获得包含有至少一个词语的分词集合;
从所述分词集合中,提取具有预设人物属性的候选词语,得到候选词语集合;
根据每个所述候选词语在所述剧本文本中的位置和/或上下文文本,获得至少两个所述候选词语之间的映射关系,其中,一个所述映射关系中包含的所述候选词语用于指代同一个人物;
根据所述映射关系,对所述候选词语集合进行过滤,得到所述剧本中识别到的人物。
可选地,所述从所述分词集合中,提取具有预设人物属性的候选词语,得到候选词语集合,包括:
分别将所述分词集合中的每个词语,与已知的人物属性词词库中的词汇进行字符匹配,若匹配结果为所述词语属于所述人物属性词词库,将所述词语识别为所述候选词语并提取;
根据提取的所述候选词语,得到所述候选词语集合。
可选地,所述预设人物属性包括人物名、身份名和称谓名三个类别的属性,所述候选词语集合中包括所述候选词语及所属的属性;
根据每个所述候选词语在所述剧本文本中的位置,获得至少两个所述候选词语之间的映射关系,包括:
根据所述候选词语在所述剧本文本中的位置,获取位置呈并列关系的至少两个所述候选词语;
如果所述呈并列关系的至少两个所述候选词语满足:每个所述候选词语具有不同的属性,则建立所述呈并列关系的至少两个所述候选词语之间的映射关系。
可选地,所述根据每个所述候选词语在所述剧本文本中的位置和上下文文本,获得至少两个所述候选词语之间的映射关系,包括:
获取所述候选词语所在位置的上下文文本;
提取所述上下文文本中的对话语句以及配对的对话标识短语,其中,所述对话语句为一对双引号之间的语句,所述对话标识短语为冒号至上一个结束符号之间的短语;
根据所述对话语句中出现的所述候选词语,以及所述对话标识短语中出现的所述候选词语,获得属于同一人物的至少两个所述候选词语之间的映射关系。
可选地,所述根据所述对话短语中出现的所述候选词语,以及所述对话标识短语中出现的所述候选词语,获得属于同一人物的至少两个所述候选词语之间的映射关系,包括:
获取第一对话标识短语出现的属于人物名或身份名类别的所述候选词语,作为第一候选词语;
获取第二对话语句中出现的属于称谓名类别的所述候选词语,作为第二候选词语;
建立所述第一候选词语和所述第二候选词语之间的映射关系;
其中,所述第二对话语句位于所述第一对话标识短语之前,且位置相邻;或者,所述第二对话语句位于第二对话标识短语之后,所述第二对话语句配对的第二标识短语,与所述第一对话标识短语配对的第一对话语句位置相邻。
可选地,所述根据每个所述候选词语在所述剧本文本中的位置和上下文文本,获得至少两个所述候选词语之间的映射关系,包括:
获取所述上下文文本中,通过一个词语连接的两个所述候选词语;
将所述一个词语与指代类谓语词典进行字符匹配,获得匹配结果;
若所述匹配结果指示所述一个词语属于所述指代类谓语词典,建立所述两个所述候选词语之间的映射关系。
可选地,所述根据所述映射关系,对所述候选词语集合进行过滤,得到所述剧本中识别到的人物,包括:
若确定所述映射关系中同时包含人物名类别的候选词语和身份名类别的候选词语,将所述映射关系包含的所述身份名类别的候选词语,从所述候选词语集合中滤除;
若确定所述映射关系中同时包含人物名类别的候选词语和称谓名类别的候选词语,将所述映射关系包含的所述称谓名类别的候选词语,从所述候选词语集合中滤除;
若确定所述映射关系中同时包含身份名类别的候选词语和称谓名类别的候选词语,将所述映射关系包含的所述称谓名类别的候选词语,从所述候选词语集合中滤除;
根据过滤后的所述候选词语集合,得到所述剧本中识别到的人物。
第二方面,本申请提供了一种人物识别装置,包括:
分词模块,用于对剧本文本进行分词处理,获得包含有至少一个词语的分词集合;
提取模块,用于从所述分词集合中,提取具有预设人物属性的候选词语,得到候选词语集合;
映射模块,用于根据每个所述候选词语在所述剧本文本中的位置和/或上下文文本,获得至少两个所述候选词语之间的映射关系,其中,一个所述映射关系中包含的所述候选词语用于指代同一个人物;
过滤模块,用于根据所述映射关系,对所述候选词语集合进行过滤,得到所述剧本中识别到的人物。
第三方面,本申请提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的人物识别方法。
第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的人物识别方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,在获得具有预设人物属性的候选词语集合后,通过识别该候选词语集合中指代同一人物的至少两个候选词语之间的映射关系,获得指代同一个人物,即同一个实体的不同的候选词语,根据该映射关系,对同时存在的用于指代同一人物的候选词语进行去重处理,使得去重后的候选词语集合与剧本中人物实体一致,实现了剧本识别出人物的实体统一,降低了对剧本中人物的重复识别率,以及降低了对人物识别的干扰,使得人物识别的召回率更加准确。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本申请实施例中人物识别的方法流程示意图;
图2为本申请实施例中人物识别装置的结构示意图;
图3为本申请实施例中电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请实施例中为了实现对剧本中识别出人物的实体统一,降低智能识别导致的剧本人物重复识别的概率,提出了一种对剧本进行人物识别方法,该方法可以应用于任意一个电子设备。
如图1所示,人物识别的具体过程如下:
步骤101,对剧本文本进行分词处理,获得包含有至少一个词语的分词集合。
具体地,可以使用分词工具对剧本文件进行分词,例如,采用jieba分词对剧本文本进行分词,得到若干个分词,获得包含该若干个分词的分词集合。当然,具体采用的分词工具并不限于jieba分词,也可以是其他分词工具,此处并不限制具体采用何种分词工具。
步骤102,从分词集合中,提取具有预设人物属性的候选词语,得到候选词语集合。
具体地,候选词语集合的获得过程主要包括:分别将分词集合中的每个词语,与已知的人物属性词词库中的词汇进行字符匹配,若匹配结果为该词语属于该人物属性词词库,将该词语识别为候选词语并提取;根据提取的候选词语,得到该候选词语集合。
例如,将分词集合中的每个词语,与HowNet知识库中的“人”、“职业”、“家庭”等人物属性类别的词汇进行字符匹配,如果包含在这些类别中,则将分词集合中的词语,识别为候选词语,反之,如果不包含在这些类别中,则不将该词语作为候选词语。
当然,这里仅以采用HowNet知识库为例进行说明,也可以采用其他知识库,此处并不限制具体所采用的知识库。
其中,预设人物属性包括人物名、身份名和称谓名三个类别的属性。候选词语集合中包括候选词语及该候选词语所属的属性。
在将分词与人物属性词词库中的词汇进行字符匹配过程中,获取该候选词语具体所在的人物属性类别,作为该候选词语所属的属性。例如,假设候选词语属于HowNet知识库中的“人”这一人物名属性类别,则获得该候选词语的属性为人物名;假设候选词语属于HowNet知识库中的“家庭”这一称谓名属性类别,则获得该候选词语的属性为称谓名;假设候选词语属于HowNet知识库中的“职业”这一身份名属性类别,则获得该候选词语的属性为身份名。
步骤103,根据每个候选词语在剧本文本中的位置和/或上下文文本,获得至少两个候选词语之间的映射关系,其中,一个映射关系中包含的候选词语用于指代同一个人物。
具体地,可以根据每个候选词语在剧本文本中的位置,获得至少两个候选词语之间的映射关系,也可以根据每个候选词语在剧本文本中的上下文文本,获得至少两个候选词语之间的映射关系,也可以是同时根据每个候选词语在剧本文本中的位置和上下文文本,获得至少两个候选词语之间的映射关系。
需要说明的是,可以采用多种方式获得该映射关系,采取的方式越多、越全面,获得的映射关系越全面,识别出的指代同一人物的候选词语越全面,基于该映射关系进行人物实体统一的效果越佳。
本申请实施例中,包括但不限于采用以下多种方式中的一种或多种的组合,识别该映射关系:
第一种实现方式,根据候选词语在剧本文本中的位置,获取位置呈并列关系的至少两个候选词语;如果呈并列关系的该至少两个候选词语满足:每个候选词语具有不同的属性,则建立呈并列关系的该至少两个候选词语之间的映射关系。
该方式中,通过识别呈并列关系的多个候选词语,识别剧本场景中,作为同位语出现的人物名、身份名以及称谓名三种属性的候选词语中的至少两个,建立作为同位语出现的人物名、身份名以及称谓名三种属性的至少两个候选词语之间的映射关系。这里所描述的呈并列关系的该至少两个候选词语,是指其中位置相邻的两个候选词语之间不存在任何文本。
例如,基于人物名和身份名的共现,得到人物名和身份名之间的映射关系。假设已经识别的候选词语有A和B,在剧本中A和B存在并列关系,A和B位置相邻,且A和B之间不存在任何文本,即为同位语,且B具有称谓名属性,那么可以判定B在剧本中是A的身份名。“一代宗师张三丰”中,“一代宗师”是“张三丰”的身份名,“一代宗师”和“张三丰”指代的是同一个人物;“许三多团长”中“团长”是“许三多”的身份名,“团长”和“许三多”指代的是同一个人物。
第二种实现方式,获取候选词语所在位置的上下文文本;提取该上下文文本中的对话语句以及配对的对话标识短语,其中,对话语句为一对双引号之间的语句,对话标识短语为冒号至上一个结束符号之间的短语;根据对话语句中出现的候选词语,以及对话标识短语中出现的候选词语,获得属于同一人物的至少两个候选词语之间的映射关系。
其中,设置双引号符号库、冒号库和结束符号库,该双引号符号库中包括双引号的左半部分的大小写,和双引号右半部分的大小写,冒号库中包括冒号的大小写,结束符号库中包括各结束符号的大小写。在分词过程中也对标点符号进行划分,与各类词汇知识库进行字符匹配的同时,也分别与双引号符号库、冒号库、结束符号库进行字符匹配,根据匹配结果识别出文本中的双引号。
当然,也可以通过设置正则表达式,提取文本中的双引号、冒号、结束符号等标点符号。
具体地,结束符号包括逗号、感叹号、问号、分号、省略号等。通常在一个剧本中,出场人物包括说话的人物,以及有具体动作的人物,且说话的人物是剧本的核心人物,通常说话的人物在冒号之前。对话标识短语是从冒号向前遍历直至遇到第一个结束符号之间的短语,即,上一个结束符号之后至第一个冒号之间的短语。
其中,对话标识短语和对话语句组合配对为一个分句。在对话语句或对话标识短语中出现候选词语时,识别该候选词语所在位置的前一分句或后一分句中出现的另一候选词语,建立这两个候选词语之间的映射关系。
具体地,获取第一对话标识短语出现的属于人物名或身份名类别的候选词语,作为第一候选词语;获取第二对话语句中出现的属于称谓名类别的候选词语,作为第二候选词语;建立第一候选词语和第二候选词语之间的映射关系。
其中,第二对话语句位于第一对话标识短语之前,且位置相邻,即第二对话语句属于第一对话语句的前一分句。或者,第二对话语句位于第二对话标识短语之后,第二对话语句配对的第二标识短语,与第一对话标识短语配对的第一对话语句位置相邻,即第二对话语句属于第一对话语句的后一分句。
也就是说,识别剧本场景中,人物间对话出现的候选词语,以及该候选词语所在分句的后一分句或前一分句中出现的另一具有不同属性的候选词语,建立这两个候选词语之间的映射关系。其中,一个分句包括对话标识短语和对话语句两部分。
在一组对话中,人物A和人物B的对白为“C,XXXX”,且C属于通用的称谓类属性词汇,那么C为B的称谓名。例如,剧本中出现人物对话,小明:“你快点”。小红:“哥哥,你等我会”。分析得出“哥哥”是“小明”的称谓名,假设有多人对话,那么称谓名一般是指该称谓名所在分句的前一分句中出现的人物。
如果人物间对话出现的候选词语,与该候选词语所在分句的后一分句或前一分句中出现的候选词语相同,则不建立这两个候选词语之间的映射关系。例如,对话中人物A对人物B的称谓名C,和人物B在剧本中的人物名一致,这时该称谓名不是要过滤的对象,即称谓名C=B。如,团长:“最近你表现挺优秀的”。小李:“团长,我还要更加努力”。这里的团长在本剧中的称谓名,也是人物名,但是由于两个词语相同,则不建立映射关系。
第三种实现方式,获取上下文文本中,通过一个词语连接的两个候选词语;将该一个词语与指代类谓语词典进行字符匹配,获得匹配结果;若匹配结果指示该一个词语属于指代类谓语词典,建立该两个候选词语之间的映射关系。
也就是说,识别剧本中符合依存语法规则的主谓宾结构语句,确定主谓宾结构语句中的主语为人物名,宾语为称谓名或身份名,谓语属于表示主语和宾语为同一人物的词典,建立人物名、称谓名以及身份名三者之间的映射关系。
例如,剧本文本中出现“许三多是团长”这句话,分析得到“许三多”和“团长”都属于候选词语,且“许三多”是人物名,“团长”是身份名,该两个候选词语通过“是”这一词语连接,查询指代类谓语词典,发现“是”属于指代类谓语,则这句话符合主谓宾结构,且两个候选词语通过指代类谓语连接,则建立“许三多”和“团长”之间的映射关系。
将第一、第二和第三种实现方式建立的映射关系组合,得到最终的映射关系。当然,也可以只采用第一种方式建立的映射关系、第二种方式建立的映射关系和第三种方式建立的映射关系中的一个或两个的组合作为最终的映射关系。
步骤104,根据该映射关系,对候选词语集合进行过滤,得到剧本中识别到的人物。
本申请实施例中,为了得到剧本中人物的实体统一,基于映射关系中指代同一人物的多个候选词语,按照一定的规则对候选词语集合进行过滤,使得过滤后的候选词语集合中,只保留一个映射关系中的一个候选词语。
具体地,按照以下规则对候选词语集合进行过滤:若确定映射关系中同时包含人物名类别的候选词语和身份名类别的候选词语,将映射关系包含的身份名类别的候选词语,从候选词语集合中滤除;若确定映射关系中同时包含人物名类别的候选词语和称谓名类别的候选词语,将映射关系包含的称谓名类别的候选词语,从候选词语集合中滤除;若确定映射关系中同时包含身份名类别的候选词语和称谓名类别的候选词语,将映射关系包含的称谓名类别的候选词语,从候选词语集合中滤除;根据过滤后的候选词语集合,得到剧本中识别到的人物。
也就是说,在过滤时,能够保留人物名类别候选词语的情况下,尽量保留人物名类别候选词语。在不存在人物名类别候选词语,能够保留身份名类别候选词语的情况下,尽量保留身份名类别候选词语。
例如,假设一个映射关系中同时存在“张三丰”和“一代宗师”,则将“一代宗师”从候选词语集合中删除,以去重,原因在于“张三丰”相对于“一代宗师”指代的人物更加具有唯一性。
需要说明的是,如果简单以实体统一为目的,则可以不设置过滤规则,只需要保留一个映射关系中的任意一个候选词语即可。考虑到剧本人物自动识别和实体统一,都是为了后续剧本的统计分析和拍摄统筹工作的顺利开展,因此,以更有利于后续剧本统计分析和拍摄统筹的开展为目的,设置以上过滤规则,以保留更加具有指代唯一性的候选词语。
本申请实施例中,由于每个场次会有不同的出场人物,剧本的统计分析和指导剧组拍摄统筹等工作,均是以场次为单位进行的,为了便于后续剧本的统计分析和指导剧组拍摄统筹等工作,这里以场次为去重处理单位,即每识别一个场次中的人物后,对识别出的该场次中的人物的各种称呼进行去重,而不是对整个剧本进行识别后再进行去重。也就是说,上述步骤101至步骤104中的剧本文本,是指一个场次的剧本文本,本文是以场次为单位执行上述步骤101至步骤104。
其中,可以使用正则表达式进行场次划分,例如,剧本的每个场次的开头都有场次名,通过对场次名进行检索,可以对剧本文本划分场次。
本申请实施例中,在获得具有预设人物属性的候选词语集合后,通过识别该候选词语集合中指代同一人物的至少两个候选词语之间的映射关系,获得指代同一个人物,即同一个实体的不同的候选词语,根据该映射关系,对同时存在的用于指代同一人物的候选词语进行去重处理,使得去重后的候选词语集合与剧本中人物实体一致,实现了剧本是识别出人物的实体统一,降低了对剧本中人物的重复识别率,以及降低了对人物识别的干扰,提高了人物识别召回率的准确性。并且,使得实体统一后的人物识别结果,能够用于后续的剧本统筹和剧本评估。
基于同一构思,本申请实施例中提供了一种人物识别装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述。如图2所示,该装置主要包括:
分词模块201,用于对剧本文本进行分词处理,获得包含有至少一个词语的分词集合;
提取模块202,用于从所述分词集合中,提取具有预设人物属性的候选词语,得到候选词语集合;
映射模块203,用于根据每个所述候选词语在所述剧本文本中的位置和/或上下文文本,获得至少两个所述候选词语之间的映射关系,其中,一个所述映射关系中包含的所述候选词语用于指代同一个人物;
过滤模块204,用于根据所述映射关系,对所述候选词语集合进行过滤,得到所述剧本中识别到的人物。
本申请实施例提供的该装置,提取模块202在获得具有预设人物属性的候选词语集合后,映射模块203通过识别该候选词语集合中指代同一人物的至少两个候选词语之间的映射关系,获得指代同一个人物,即同一个实体的不同的候选词语,过滤模块204根据该映射关系,对同时存在的用于指代同一人物的候选词语进行去重处理,使得去重后的候选词语集合与剧本中人物实体一致,实现了剧本是识别出人物的实体统一,降低了对剧本中人物的重复识别率,以及降低了对人物识别的干扰,提高了人物识别召回率的准确性。并且,使得实体统一后的人物识别结果,能够用于后续的剧本统筹和剧本评估。
基于同一构思,本申请实施例中还提供了一种电子设备,如图3所示,该电子设备主要包括:处理器301、通信接口302、存储器303和通信总线304,其中,处理器301、通信接口302和存储器303通过通信总线304完成相互间的通信。其中,存储器303中存储有可被至处理器301执行的程序,处理器301执行存储器303中存储的程序,实现如下步骤:对剧本文本进行分词处理,获得包含有至少一个词语的分词集合;从所述分词集合中,提取具有预设人物属性的候选词语,得到候选词语集合;根据每个所述候选词语在所述剧本文本中的位置和/或上下文文本,获得至少两个所述候选词语之间的映射关系,其中,一个所述映射关系中包含的所述候选词语用于指代同一个人物;根据所述映射关系,对所述候选词语集合进行过滤,得到所述剧本中识别到的人物。
上述电子设备中提到的通信总线304可以时外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线304可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口302用于上述电子设备与其他设备之间的通信。
存储器303可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器301的存储装置。
上述的处理器301可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的人物识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种人物识别方法,其特征在于,包括:
对剧本文本进行分词处理,获得包含有至少一个词语的分词集合;
从所述分词集合中,提取具有预设人物属性的候选词语,得到候选词语集合;
根据每个所述候选词语在所述剧本文本中的位置和/或上下文文本,获得至少两个所述候选词语之间的映射关系,其中,一个所述映射关系中包含的所述候选词语用于指代同一个人物;
根据所述映射关系,对所述候选词语集合进行过滤,得到所述剧本中识别到的人物。
2.根据权利要求1所述的人物识别方法,其特征在于,所述从所述分词集合中,提取具有预设人物属性的候选词语,得到候选词语集合,包括:
分别将所述分词集合中的每个词语,与已知的人物属性词词库中的词汇进行字符匹配,若匹配结果为所述词语属于所述人物属性词词库,将所述词语识别为所述候选词语并提取;
根据提取的所述候选词语,得到所述候选词语集合。
3.根据权利要求1所述的人物识别方法,其特征在于,所述预设人物属性包括人物名、身份名和称谓名三个类别的属性,所述候选词语集合中包括所述候选词语及所属的属性;
根据每个所述候选词语在所述剧本文本中的位置,获得至少两个所述候选词语之间的映射关系,包括:
根据所述候选词语在所述剧本文本中的位置,获取位置呈并列关系的至少两个所述候选词语;
如果所述呈并列关系的至少两个所述候选词语满足:每个所述候选词语具有不同的属性,则建立所述呈并列关系的至少两个所述候选词语之间的映射关系。
4.根据权利要求3所述的人物识别方法,其特征在于,所述根据每个所述候选词语在所述剧本文本中的位置和上下文文本,获得至少两个所述候选词语之间的映射关系,包括:
获取所述候选词语所在位置的上下文文本;
提取所述上下文文本中的对话语句以及配对的对话标识短语,其中,所述对话语句为一对双引号之间的语句,所述对话标识短语为冒号至上一个结束符号之间的短语;
根据所述对话语句中出现的所述候选词语,以及所述对话标识短语中出现的所述候选词语,获得属于同一人物的至少两个所述候选词语之间的映射关系。
5.根据权利要求4所述的人物识别方法,其特征在于,所述根据所述对话短语中出现的所述候选词语,以及所述对话标识短语中出现的所述候选词语,获得属于同一人物的至少两个所述候选词语之间的映射关系,包括:
获取第一对话标识短语出现的属于人物名或身份名类别的所述候选词语,作为第一候选词语;
获取第二对话语句中出现的属于称谓名类别的所述候选词语,作为第二候选词语;
建立所述第一候选词语和所述第二候选词语之间的映射关系;
其中,所述第二对话语句位于所述第一对话标识短语之前,且位置相邻;或者,所述第二对话语句位于第二对话标识短语之后,所述第二对话语句配对的第二标识短语,与所述第一对话标识短语配对的第一对话语句位置相邻。
6.根据权利要求3所述的人物识别方法,其特征在于,所述根据每个所述候选词语在所述剧本文本中的位置和上下文文本,获得至少两个所述候选词语之间的映射关系,包括:
获取所述上下文文本中,通过一个词语连接的两个所述候选词语;
将所述一个词语与指代类谓语词典进行字符匹配,获得匹配结果;
若所述匹配结果指示所述一个词语属于所述指代类谓语词典,建立所述两个所述候选词语之间的映射关系。
7.根据权利要求3至6任一项所述的人物识别方法,其特征在于,所述根据所述映射关系,对所述候选词语集合进行过滤,得到所述剧本中识别到的人物,包括:
若确定所述映射关系中同时包含人物名类别的候选词语和身份名类别的候选词语,将所述映射关系包含的所述身份名类别的候选词语,从所述候选词语集合中滤除;
若确定所述映射关系中同时包含人物名类别的候选词语和称谓名类别的候选词语,将所述映射关系包含的所述称谓名类别的候选词语,从所述候选词语集合中滤除;
若确定所述映射关系中同时包含身份名类别的候选词语和称谓名类别的候选词语,将所述映射关系包含的所述称谓名类别的候选词语,从所述候选词语集合中滤除;
根据过滤后的所述候选词语集合,得到所述剧本中识别到的人物。
8.一种人物识别装置,其特征在于,包括:
分词模块,用于对剧本文本进行分词处理,获得包含有至少一个词语的分词集合;
提取模块,用于从所述分词集合中,提取具有预设人物属性的候选词语,得到候选词语集合;
映射模块,用于根据每个所述候选词语在所述剧本文本中的位置和/或上下文文本,获得至少两个所述候选词语之间的映射关系,其中,一个所述映射关系中包含的所述候选词语用于指代同一个人物;
过滤模块,用于根据所述映射关系,对所述候选词语集合进行过滤,得到所述剧本中识别到的人物。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1至7任一项所述的人物识别方法。
10.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的人物识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010524814.0A CN111767715A (zh) | 2020-06-10 | 2020-06-10 | 人物识别的方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010524814.0A CN111767715A (zh) | 2020-06-10 | 2020-06-10 | 人物识别的方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111767715A true CN111767715A (zh) | 2020-10-13 |
Family
ID=72720400
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010524814.0A Pending CN111767715A (zh) | 2020-06-10 | 2020-06-10 | 人物识别的方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767715A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270169A (zh) * | 2020-10-14 | 2021-01-26 | 北京百度网讯科技有限公司 | 对白角色预测方法、装置、电子设备及存储介质 |
CN112270198A (zh) * | 2020-10-27 | 2021-01-26 | 北京百度网讯科技有限公司 | 角色确定方法、装置、电子设备及存储介质 |
CN112906380A (zh) * | 2021-02-02 | 2021-06-04 | 北京有竹居网络技术有限公司 | 文本中角色的识别方法、装置、可读介质和电子设备 |
CN112989822A (zh) * | 2021-04-16 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 识别对话中句子类别的方法、装置、电子设备和存储介质 |
CN113128205A (zh) * | 2021-05-12 | 2021-07-16 | 北京奇艺世纪科技有限公司 | 一种剧本信息处理方法、装置、电子设备及存储介质 |
CN113312358A (zh) * | 2021-06-23 | 2021-08-27 | 北京有竹居网络技术有限公司 | 构建人物库的方法、装置、存储介质及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090182554A1 (en) * | 2008-01-15 | 2009-07-16 | International Business Machines Corporation | Text analysis method |
CN104182535A (zh) * | 2014-08-29 | 2014-12-03 | 苏州大学 | 一种人物关系抽取方法和装置 |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
WO2016199160A2 (en) * | 2015-06-12 | 2016-12-15 | Satyanarayana Krishnamurthy | Language processing and knowledge building system |
CN106844326A (zh) * | 2015-12-04 | 2017-06-13 | 北京国双科技有限公司 | 一种获取词语的方法及装置 |
JP2018010481A (ja) * | 2016-07-13 | 2018-01-18 | 日本電信電話株式会社 | 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム |
CN107766320A (zh) * | 2016-08-23 | 2018-03-06 | 中兴通讯股份有限公司 | 一种中文代词消解模型建立方法及装置 |
CN108986785A (zh) * | 2018-08-08 | 2018-12-11 | 科大讯飞股份有限公司 | 一种文本改编方法及装置 |
-
2020
- 2020-06-10 CN CN202010524814.0A patent/CN111767715A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090182554A1 (en) * | 2008-01-15 | 2009-07-16 | International Business Machines Corporation | Text analysis method |
CN105468605A (zh) * | 2014-08-25 | 2016-04-06 | 济南中林信息科技有限公司 | 一种实体信息图谱生成方法及装置 |
CN104182535A (zh) * | 2014-08-29 | 2014-12-03 | 苏州大学 | 一种人物关系抽取方法和装置 |
WO2016199160A2 (en) * | 2015-06-12 | 2016-12-15 | Satyanarayana Krishnamurthy | Language processing and knowledge building system |
CN106844326A (zh) * | 2015-12-04 | 2017-06-13 | 北京国双科技有限公司 | 一种获取词语的方法及装置 |
JP2018010481A (ja) * | 2016-07-13 | 2018-01-18 | 日本電信電話株式会社 | 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム |
CN107766320A (zh) * | 2016-08-23 | 2018-03-06 | 中兴通讯股份有限公司 | 一种中文代词消解模型建立方法及装置 |
CN108986785A (zh) * | 2018-08-08 | 2018-12-11 | 科大讯飞股份有限公司 | 一种文本改编方法及装置 |
Non-Patent Citations (1)
Title |
---|
林琛;李弼程;周杰;: "网络新闻口语评论文本中人物对象识别方法", 中文信息学报, no. 04 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270169A (zh) * | 2020-10-14 | 2021-01-26 | 北京百度网讯科技有限公司 | 对白角色预测方法、装置、电子设备及存储介质 |
CN112270169B (zh) * | 2020-10-14 | 2023-07-25 | 北京百度网讯科技有限公司 | 对白角色预测方法、装置、电子设备及存储介质 |
CN112270198A (zh) * | 2020-10-27 | 2021-01-26 | 北京百度网讯科技有限公司 | 角色确定方法、装置、电子设备及存储介质 |
CN112906380A (zh) * | 2021-02-02 | 2021-06-04 | 北京有竹居网络技术有限公司 | 文本中角色的识别方法、装置、可读介质和电子设备 |
CN112989822A (zh) * | 2021-04-16 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 识别对话中句子类别的方法、装置、电子设备和存储介质 |
CN112989822B (zh) * | 2021-04-16 | 2021-08-27 | 北京世纪好未来教育科技有限公司 | 识别对话中句子类别的方法、装置、电子设备和存储介质 |
CN113128205A (zh) * | 2021-05-12 | 2021-07-16 | 北京奇艺世纪科技有限公司 | 一种剧本信息处理方法、装置、电子设备及存储介质 |
CN113128205B (zh) * | 2021-05-12 | 2023-07-18 | 北京奇艺世纪科技有限公司 | 一种剧本信息处理方法、装置、电子设备及存储介质 |
CN113312358A (zh) * | 2021-06-23 | 2021-08-27 | 北京有竹居网络技术有限公司 | 构建人物库的方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767715A (zh) | 人物识别的方法、装置、设备及存储介质 | |
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
CN110197672B (zh) | 一种语音通话质量检测方法、服务器、存储介质 | |
CN110297880B (zh) | 语料产品的推荐方法、装置、设备及存储介质 | |
TWI536183B (zh) | 語言歧義消除系統及方法 | |
CN107967250B (zh) | 一种信息处理方法及装置 | |
CN108304377B (zh) | 一种长尾词的提取方法及相关装置 | |
WO2021159812A1 (zh) | 癌症分期信息处理方法、装置及存储介质 | |
CN106021532B (zh) | 关键词的显示方法和装置 | |
CN111159334A (zh) | 用于房源跟进信息处理的方法及系统 | |
CN111061838B (zh) | 文本特征关键词确定方法、装置和存储介质 | |
CN109992651B (zh) | 一种问题目标特征自动识别和抽取方法 | |
CN114360678A (zh) | 信息处理方法、装置、设备和存储介质 | |
CN111291535B (zh) | 剧本处理方法、装置、电子设备及计算机可读存储介质 | |
CN112581297A (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
CN112148837A (zh) | 维修方案的获取方法、装置、设备及存储介质 | |
CN111126201A (zh) | 剧本中人物识别方法及装置 | |
US20220270589A1 (en) | Information processing device, information processing method, and computer program product | |
CN114402384A (zh) | 数据处理方法、装置、服务器和存储介质 | |
CN113052544A (zh) | 工作流依用户行为智能适配方法、装置以及存储介质 | |
JP7476138B2 (ja) | ビデオ処理方法、装置、電子機器及び記憶媒体 | |
CN112347121B (zh) | 一种可配置的自然语言转sql的方法及系统 | |
WO2021051600A1 (zh) | 基于信息熵识别新词的方法、装置、设备及存储介质 | |
US10002450B2 (en) | Analyzing a document that includes a text-based visual representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |