CN112861534B - 一种对象名称识别方法及装置 - Google Patents

一种对象名称识别方法及装置 Download PDF

Info

Publication number
CN112861534B
CN112861534B CN202110060884.XA CN202110060884A CN112861534B CN 112861534 B CN112861534 B CN 112861534B CN 202110060884 A CN202110060884 A CN 202110060884A CN 112861534 B CN112861534 B CN 112861534B
Authority
CN
China
Prior art keywords
segment
text
white
segments
fragments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110060884.XA
Other languages
English (en)
Other versions
CN112861534A (zh
Inventor
郏昕
阳任科
赵冲翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202110060884.XA priority Critical patent/CN112861534B/zh
Publication of CN112861534A publication Critical patent/CN112861534A/zh
Application granted granted Critical
Publication of CN112861534B publication Critical patent/CN112861534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种对象名称识别方法及装置,上述方法包括:确定文本中的对白发出片段,其中,所述对白发出片段为:与对白内容片段相邻、且位于对白内容片段之前预设长度的文本片段;从各个对白发出片段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本片段,作为候选文本片段,其中,所述第一频次为:每一对白发出片段在所述文本的所有对白发出片段中出现的频次,所述第二频次为:每一对白发出片段在所述文本的所有非对白发出片段中出现的频次;在各个候选文本段中识别对象名称。应用本实施例提供的方案进行对象名称识别时,能够提高对象名称识别的准确度。

Description

一种对象名称识别方法及装置
技术领域
本发明涉及文本分析技术领域,特别是涉及一种对象名称识别方法及装置。
背景技术
小说、剧本等文本中可能会涉及多个对象,上述对象可以为:人、动物等。为了使得用户快速的了解文本内容,往往需要确定文本中各个对象之间的关系。获得文本中的对象名称是确定对象之间关系的前提。
由于在文本中对白发出片段出现对象名称的概率较高,因此,现有技术中,通常采用开源的分词工具和词性分析技术对文本中的对白发出片段进行对象名称识别,具体的,采用开源的分词工具将文本中的对白发出片段进行分词处理,对分词后的各个词语的词性进行识别,将识别为名词的词语确定为对象名称。
然而,现有对象名称识别由于是依赖开源的分词工具和词性分析技术,当分词工具未准确地对文本中的各个对白发出片段进行分词处理时,对分词处理后的对白发出片段进行词性识别,易将非对象名称的词语确定为对象名称,例如:假设对白发出片段为“北京市长小明说”,采用分词工具得到的词语可能为:“长小明”,对分词处理后的对白发出片段进行词性识别时,易将上述词语识别为名词,从而可能将“长小明”确定为对象名称。因此,应用上述方式识别文本中的对象名称时准确率较低。
发明内容
本发明实施例的目的在于提供一种对象名称识别方法及装置,以提高对象名称识别的准确率。具体技术方案如下:
第一方面,本发明实施例提供了一种对象名称识别方法,所述方法包括:
确定文本中的对白发出片段,其中,所述对白发出片段为:与对白内容片段相邻、且位于对白内容片段之前预设长度的文本片段;
从各个对白发出片段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本片段,作为候选文本片段,其中,所述第一频次为:每一对白发出片段在所述文本的所有对白发出片段中出现的频次,所述第二频次为:每一对白发出片段在所述文本的所有非对白发出片段中出现的频次;
在各个候选文本片段中识别对象名称。
本发明的一个实施例中,上述从各个对白发出片前文本段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本片段,作为候选文本片段,包括:
将第一对白发出片段确定为第一候选文本片段,其中,所述第一对白发出片段为:长度最小的对白发出片段;
针对每一第二对白发出片段,从长度小于该第二对白发出片段的已有候选文本片段中,判断是否存在与该第二对白发出片段连续相同至少两个字符的已有第二候选文本片段;若不存在,将该第二对白发出片段确定为候选文本片段;若存在,当该第二对白发出片段的第一频次与第二频次之间的差异在预设差异范围内时,将该第二对白发出片段确定为第二候选文本片段,其中,所述第二对白发出片段为:对白发出片段中除第一对白发出片段之外的片段;
将所述第一候选文本片段、第二候选文本片段作为候选文本片段。
本发明的一个实施例中,上述在各个候选文本片段中识别对象名称,包括:
从各个候选文本片段中,选择包含用于描述对象信息的字符的候选文本片段;
在各个所选择的候选文本片段中识别对象名称。
本发明的一个实施例中,上述从各个候选文本片段中,选择包含用于描述对象信息的字符的候选文本片段,包括:
针对每一候选文本片段,从长度小于该候选文本片段的其他候选文本片段中,确定与该候选文本片段之间长度最长的连续非相同字符;当所述连续非相同字符包含用于描述对象信息的字符时,将该候选文本片段确定为包含用于描述对象信息的字符的候选文本片段。
本发明的一个实施例中,上述确定文本中的对白发出片段,包括:
在文本中查找表征对白内容片段开始的字符,作为开始字符;
将所述文本中位于所述开始字符之前相邻的、长度为预设长度范围的片段确定为对白发出片段。
本发明的一个实施例中,在各个候选文本片段中识别对象名称之后,还包括:
选择识别得到的对象名称中具有至少两个连续相同字符的对象名称;
当所选择出的对象名称的数量等于2时,确定所选择出的对象名称中非相同字符,并识别所述非相同字符的语义信息;
根据所识别的非相同字符的语义信息,判断所选择出的对象名称是否为指向同一对象的对象名称;
若为是,建立所选择出的对象名称之间的映射关系。
第二方面,本发明实施例提供了一种对象名称识别装置,所述装置包括:
片段确定模块,用于确定文本中的对白发出片段,其中,所述对白发出片段为:与对白内容片段相邻、且位于对白内容片段之前预设长度的文本片段;
片段选择模块,用于从各个对白发出片段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本片段,作为候选文本片段,其中,所述第一频次为:每一对白发出片段在所述文本的所有对白发出片段中出现的频次,所述第二频次为:每一对白发出片段在所述文本的所有非对白发出片段中出现的频次;
对象名称识别模块,在各个候选文本片段中识别对象名称。
本发明的一个实施例中,上述片段选择模块,包括:
第一片段确定子模块,用于将第一对白发出片段确定为候选文本片段,其中,所述第一对白发出片段为:长度最小的对白发出片段;
第二片段确定子模块,用于针对每一第二对白发出片段,从长度小于该第二对白发出片段的已有候选文本片段中,判断是否存在与该第二对白发出片段连续相同至少两个字符的已有候选文本片段;若不存在,将该第二对白发出片段确定为候选文本片段;若存在,当该第二对白发出片段的第一频次与第二频次之间的差异在预设差异范围内时,将该第二对白发出片段确定为候选文本片段,其中,所述第二对白发出片段为:对白发出片段中除第一对白发出片段之外的文本片段;
第三片段确定子模块,用于将所述第一候选文本片段、第二候选文本片段作为候选文本片段。
本发明的一个实施例中,上述对象名称识别模块,包括:
片段选择子模块,用于从各个候选文本片段中,选择包含用于描述对象信息的字符的候选文本片段;
对象名称识别子模块,用于在各个所选择的候选文本片段中识别对象名称。
本发明的一个实施例中,上述片段选择子模块,具体用于针对每一候选文本片段,从长度小于该候选文本片段的其他候选文本片段中,确定与该候选文本片段之间长度最长的连续非相同字符;当所述连续非相同字符包含用于描述对象信息的字符时,将该候选文本片段确定为包含用于描述对象信息的字符的候选文本片段。
本发明的一个实施例中,上述片段确定模块,包括:
字符查找子模块,用于在文本中查找表征对白内容片段开始的字符,作为开始字符;
第三片段确定子模块,用于将所述文本中位于所述开始字符之前相邻的、长度为预设长度范围的文本片段确定为对白发出片段。
本发明的一个实施例中,上述装置还包括:
对象名称选择模块,用于在对象名称识别模块之后,选择识别得到的对象名称中具有至少两个连续相同字符的对象名称;
信息识别模块,用于当所选择出的对象名称的数量等于2时,确定所选择出的对象名称中非相同字符,并识别所述非相同字符的语义信息;
名称判断模块,用于根据所识别的非相同字符的语义信息,判断所选择出的对象名称是否为指向同一对象的对象名称;若为是,触发关系建立模块;
所述关系建立模块,用于建立所选择出的对象名称之间的映射关系。
第三方面,本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的方法步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法步骤。
由以上可见,应用本发明实施例提供的方案进行对象名称识别时,由于文本中的对白发出片段包含对象名称的概率较高,又由于对白发出片段的第一频次可以用于表示各个对白发出片段在文本的所有对白发出片段中的分布情况,对白发出片段的第二频次可以用于表示各个对白发出片段在文本的所有非对白发出片段中的分布情况,因此,第一频次与第二频次之间的差异可以用于表示对白发出片段在文本的所有对白发出片段中的分布情况与该对白发出片段在文本的所有非对白发出片段中的分布情况之间的差异,当第一频次与第二频次之间的差异在预设差异范围内时,表示对白发出片段在文本中各个部分都出现,且出现频次较平均,也就是对白发出片段在文本中的分布情况是平均分布的,而对象名称往往在文本中的分布情况也大致为平均分布的。因此,从各个对白发出片段中,所选择的第一频次与第二频次之间的差异在预设差异范围内的文本段,也就是候选文本段中包含对象的对象名称的概率相较于各个对白发出片段中包含的对象的对象名称的概率进一步提高,从而在对候选文本片段中对象名称进行识别时,从而提高了获得对象的对象名称的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的第一种对象识别方法的流程示意图;
图2为本发明实施例提供的第二种对象识别方法的流程示意图;
图3a为本发明实施例提供的一种第一频次和第二频次确定方法的流程示意图;
图3b为本发明实施例提供的一种对象名称识别方法的流程示意图;
图3c为本发明实施例提供的一种建立对象名称映射关系方法的流程示意图;
图4为本发明实施例提供的第一种对象识别装置的结构示意图;
图5为本发明实施例提供的第二种对象识别装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于现有技术中存在对象名称识别的准确度不高的问题,为解决这一技术问题,本发明实施例提供了一种对象名称识别方法及装置。
本发明的一个实施例中,提供了一种对象名称识别方法,该方法包括:
确定文本中的对白发出片段,其中,对白发出片段为:与对白内容片段相邻、且位于对白内容片段之前预设长度的文本段。
从各个对白发出片段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本段,作为候选文本段,其中,第一频次为:每一对白发出片段在所述文本的所有对白发出片段中出现的频次,第二频次为:每一对白发出片段在所述文本的所有非对白发出片段中出现的频次。
在各个候选文本段中识别对象名称。
由以上可见,应用本发明实施例提供的方案进行对象名称识别时,由于文本中的对白发出片段包含对象名称的概率较高,又由于对白发出片段的第一频次可以用于表示各个对白发出片段在文本的所有对白发出片段中的分布情况,对白发出片段的第二频次可以用于表示各个对白发出片段在文本的所有非对白发出片段中的分布情况,因此,第一频次与第二频次之间的差异可以用于表示对白发出片段在文本的所有对白发出片段中的分布情况与该对白发出片段在文本的所有非对白发出片段中的分布情况之间的差异,当第一频次与第二频次之间的差异在预设差异范围内时,可以表示对白发出片段在文本中的分布情况是平均分布的,而对象名称往往在文本中的分布情况也大致为平均分布的。因此,从各个对白发出片段中,所选择的第一频次与第二频次之间的差异在预设差异范围内的文本段,也就是候选文本段中包含对象的对象名称的概率相较于各个对白发出片段中包含的对象的对象名称的概率进一步提高。在对各个候选文本段进行对象名称识别时,由于各个候选文本段中包含对象的对象名称的概率非常高,因此,所识别到的名称为对象的名称的概率也非常高,从而提高了获得对象的对象名称的准确度。
参见图1,图1为本发明实施例提供的一种对象名称识别方法的流程示意图,上述方法包括S101-S103。
S101:确定文本中的对白发出片段。
上述文本可以为存在对白片段的小说、剧本、新闻文章等文本。在小说、剧本等文本中通常包括对象的对白片段,其中,对象的对白片段由对白发出片段和对白正文片段组成。
具体的,上述对白发出片段为:与对白内容片段相邻、且在对白内容片段之前预设长度的文本片段。上述文本片段的预设长度可以由工作人员根据经验设定。例如:由于对象名称的长度通常小于或者等于6个字符长度,因此上述预设长度可以设定为大于或者等于6个字符长度等。
例如:张三说:“今天天气很好!”,“今天天气很好!”为对白内容片段,“张三说”为与对白内容片段相邻、且在对白内容片段之前的片段,也就是对白发出片段。
由于在剧本、小说等文本中,可能会出现字符类型不同的情况,在这种情况下,可以将文本中的字符类型转换成同一字符类型。
例如:当文本中同时出现中文简体、中文繁体时,可以将文本中所有中文繁体的字符转换为中文简体的字符,或者将文本中所有中文简体的字符转换为中文繁体的字符。
在确定文本中对白发出片段时,可以识别文本中的对白内容片段,并截取与识别到的对白内容片段相邻、且位于对白内容片段之前预设长度的文本段,作为对白发出片段。具体的,识别对白内容片段的方法可以参见现有技术中任何一种方法。
例如:假设预设长度为6个字符长度,且文本为:“在一个风和日丽的下午,小明对小红说:“今天天气真好”,小红说:“是呀!”。
对文本中的对白内容片段进行识别,获得文本中的对白内容片段为:“今天天气很好”“是呀”。截取与对白内容片段相邻、且位于对白内容片段之前预设6个字符长度的文本段为:“小明对小红说”“小红说”。因此,可以将“小明对小红说”“小红说”确定为对白发出片段。
具体的,在确定文本中对白发出片段时,由于对白发出片段中可能会出现一些与对象名称无关的字符,例如:标点符号等。基于此,可以删除文本中对白发出片段中的标点符号等字符,仅保留可能为对象名称的中文字符、英文字符、阿拉伯数字以及名称分隔符号等。
S102:从各个对白发出片段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本段,作为候选文本段。
上述第一频次为:每一对白发出片段在文本的所有对白发出片段中出现的频次。
上述第二频次为:每一对白发出片段在文本的所有非对白发出片段中出现的频次。
上述文本的所有非对白发出片段可以为用于描述对象动作的文本段,例如:“小明和小红在一起玩耍”为用于描述对象动作的文本段,还可以为用于描述环境的文本段等,例如:“一个风和日丽的下午”为用于描述环境的文本段。
上述第一频次可以用于表示各个对白发出片段在文本的所有对白发出片段中的分布情况,当对白发出片段在文本的所有对白发出片段中的分布得较多时,那么对白发出片段对应的第一频次较高,当对白发出片段在文本的所有对白发出片段中的分布得较少时,那么对白发出片段对应的第一频次较低。
上述第二频次可以用于表示各个对白发出片段在文本的所有非对白发出片段中的分布情况。当对白发出片段在文本的所有非对白发出片段中的分布得较多时,那么对白发出片段对应的第二频次较高,当对白发出片段在文本的所有非对白发出片段中的分布得较少时,那么对白发出片段对应的第二频次较低。
基于此,第一频次与第二频次之间的差异可以用于表示对白发出片段在文本的所有对白发出片段中的分布情况与该对白发出片段在文本的所有非对白发出片段中的分布情况之间的差异。
由于文本是用于描述对象的情感、动作、对白等内容,例如:文本用于描述人物A的生平经历,人物A在文本中对白发出片段和非对白发出片段中均会出现,而不会出现人物A仅在对白发出片段中出现,在非对白发出片段中完全不出现或者出现次数很少的情况。也就是对象在对白发出片段和非对白发出片段中均会出现,且在二者出现的频次差异较小。因此,当对白发出片段的第一频次与第二频次之间的差异在预设差异范围内时,可以认为对白发出片段在对白发出片段和非对白发出片段中均会出现,且出现的频次差异较小,从而可以将对白发出片段作为候选文本段。
上述第一频次与第二频次之间的差异可以用第一频次与第二频次之间的差值进行表征,还可以用第一频次与第二频次之间的比值进行表征。
上述预设差异范围可以由工作人员根据经验设定,例如,当上述第一频次与第二频次之间的差异用差值表征时,预设差异范围为预设差值范围,可以为[-30,30],[-50,100]等,当上述上述第一频次与第二频次之间的差异用比值表征时,预设差异范围为预设比值范围,可以为[0.5,3],[0.8,4]等。
具体的,从各个对白发出片段中,选择第一频次大于第二频次的文本段时,针对每一对白发出片段,可以统计该对白发出片段在文本的所有对白发出片段中出现的频次,作为第一频次,以及统计该对白发出片段在文本的所有非对白发出片段中出现的频次,作为第二频次。当统计得到的第一频次与第二频次之间的差异在预设差异范围内时,将该对白发出片段作为候选文本段。
例如:假设上述第一频次与第二频次之间的差异用比值表征时,上述预设差异范围为[0.5,3],当对白发出片段Be1的第一频次为100次,对白发出片段Be1的第二频次为80次时,由于100/80=1.65,在[0.5,3]之间,因此可以将上述对白发出片段Be1作为候选文本段;当对白发出片段Be2的第一频次为80次,对白发出片段Be2的第二频次为200次时,由于80/200=0.4,不在[0.5,3]之间,因此上述对白发出片段Be2不作为候选文本段。
S103:在各个候选文本片段中识别对象名称。
上述对象名称为候选文本片段中对象的名称,其中,上述对象可以为候选文本片段中出现的人物、动物等。例如:上述候选文本片段可以为剧本中的文本片段,对象可以为剧本中出现的角色。
由于上述候选文本片段中大概率包含对象名称,因此,可以对各个候选文本片段中进行对象名称的识别,确定对象名称。
由以上可见,应用本实施例提供的方案进行对象名称识别时,由于文本中的对白发出片段包含对象名称的概率较高,又由于对白发出片段的第一频次可以用于表示各个对白发出片段在文本的所有对白发出片段中的分布情况,对白发出片段的第二频次可以用于表示各个对白发出片段在文本的所有非对白发出片段中的分布情况,因此,第一频次与第二频次之间的差异可以用于表示对白发出片段在文本的所有对白发出片段中的分布情况与该对白发出片段在文本的所有非对白发出片段中的分布情况之间的差异,当第一频次与第二频次之间的差异在预设差异范围内时,表示对白发出片段在文本中各个部分都出现,且出现频次较平均,也就是对白发出片段在文本中的分布情况是平均分布的,而对象名称往往在文本中的分布情况也大致为平均分布的。因此,从各个对白发出片段中,所选择的第一频次与第二频次之间的差异在预设差异范围内的文本段,也就是候选文本段中包含对象的对象名称的概率相较于各个对白发出片段中包含的对象的对象名称的概率进一步提高,从而在对候选文本片段中对象名称进行识别时,所识别到的名称为对象的名称的概率也非常高,从而提高了获得对象的对象名称的准确度。
参见图2,图2为本发明实施例提供的第二种对象名称识别方法的流程示意图,在上述S102中,可以包括S102A1-S102A3。
S102A1:将第一对白发出片段确定为第一候选文本片段。
可选的,上述第一对白发出片段为:长度最小的对白发出片段。
由于对白发出片段中通常包含两种格式的文本段,分别为:“对象名称”以及“对象名称+动词短语”,当对白发出片段为长度最小的对白发出片段时,上述文本段为“对象名称”格式的文本段的可能性非常高,也就是第一对白发出片段中包含对象的对象名称的概率非常大。因此,可以直接将第一对白发出片段确定为第一候选文本片段。
具体的,在将第一对白发出片段确定为第一候选文本片段时,可以计算S101中所获得的各个对白发出片段的长度,将长度最小的对白发出片段作为第一候选文本片段。
具体的,可以创建一个空集合,上述空集合用于保存候选文本段。将所确定的第一对白发出片段添加至上述空集合中。
S102A2:针对每一第二对白发出片段,从长度小于该第二对白发出片段的已有候选文本段中,判断是否存在与该第二对白发出片段连续相同至少两个字符的已有候选文本片段;若不存在,将该第二对白发出片段确定为第二候选文本片段;若存在,当该第二对白发出片段的第一频次与第二频次之间的差异在预设差异范围内时,将该第二对白发出片段确定为第二候选文本片段。
上述第二对白发出片段为:对白发出片段中除第一对白发出片段之外的文本段。例如:假设所获得的对白发出片段为文本片段W1、文本片段W2、文本片段W3、文本片段W4,其中,文本片段W1为第一对白发出片段,那么第二对白发出片段为文本段W2、文本段W3、文本段W4
由于第一对白发出片段已确定为第一候选文本片段,因此,上述已有候选文本片段中可以包括第一对白发出片段。若在第二对白发出片段中也确定出了第二候选文本片段,那么上述已有候选文本片段中可以包括第一对白发出片段以及已确定为第二候选文本片段的第二对白发出片段。
具体的,由于已有候选文本片段包含对象的对象名称的概率非常大,因此,在已有候选文本片段中未存在与该第二对白发出片段连续相同至少两个字符的候选文本片段时,表示该第二对白发出片段中可能包含的对象的对象名称与候选文本片段中可能包含的对象名称未发生重合的可能性非常高,表示第二对白发出片段中包含新的对象名称的可能性较高。因此,可以直接将该第二对白发出片段确定为第二候选文本片段。
当第二对白发出片段的第一频次与第二频次之间的差异不在预设差异范围内时,表示第二对白发出片段的第一频次与第二频次之间的差异较大,具体的,一种情况可以是第二对白发出片段的第一频次远大于第二频次,另一种情况可以是第二对白发出片段的第一频次远小于第二频次。
对于上述第一种情况:当第二对白发出片段的第一频次远大于第二频次时。由于第二对白发出片段中通常包含两种格式的文本,分别为:“对象名称”、“对象名称+动词短语”。而“对象名称+动词短语”这一文本片段通常是描述对象在说话时的动作或神态,因此,“对象名称+动词短语”这一文本片段通常在文本中的非对白发出片段中出现的频次极低。例如:“对象名称+动词短语”的文本片段可以为“张三说”文本片段,“张三说”这一文本片段通常在文本中对白发出片段中出现的频次较高,而在文本中非对白发出片段中出现的频次较低。
因此,当第二对白发出片段的第一频次远大于第二频次时,表示上述第二对白发出片段为“对象名称+动词短语”的文本片段的概率非常大。由于文本片段中包含动词短语时会干扰对象名称的识别,所以,为了提高识别对象名称的精确度,可以将第二对白发出片段中,第一频次远大于第二频次的文本片段进行排除,不作为第二候选文本片段。
对于上述第二种情况:当第二对白发出片段的第一频次远小于第二频次时。由于文本中非对白发出片段中还包含描述非对象的文本片段,例如:描述环境的文本。当第二对白发出片段的第一频次远小于第二频次时,表示第二对白发出片段为描述非对象的文本片段的概率非常大,而描述非对象的文本片段中出现对象名称的概率非常低。因此,可以将第二对白发出片段中,第一频次远小于第二频次的文本片段进行排除,不作为第二候选文本片段。
并且与S102中相同的理由,从各个对白发出片段中,仅保留第一频次与第二频次之间的差异在预设差异范围内的文本片段,作为第二候选文本片段。
在针对每一第二对白发出片段,判断长度小于该第二对白发出片段的已有候选文本片段中是否存在与该第二对白发出片段连续相同至少两个字符的文本片段时,可以首先在已有候选文本片段中确定长度小于该第二对白发出片段的文本片段,然后依次比较所确定的文本片段中是否存在与该第二对白发出片段连续相同至少两个字符的文本片段。
例如:假设第二对白发出片段包括文本片段S1、文本片段S2,已有候选文本片段包括文本片段H1、文本片段H2、文本片段H3、第二对白发出片段中包括的各个第二对白发出片段的长度以及字符组成如表1所示,以及已有候选文本片段中各个文本片段的长度以及字符组成如下表2所示。
表1
长度 字符组成
文本片段S1 4 李四怒说
文本片段S2 4 王小明说
由上表1可知,文本片段S1的长度为4个字符长度、字符组成为“李四怒说”,文本片段S2的长度为4个字符长度、字符组成为“王小明说”。
表2
长度 字符组成
文本片段H1 2 张三
文本片段H2 3 李四说
文本片段H3 5 王五大声说
由上表2可知,文本片段H1的长度为2个字符长度、字符组成为“张三”,文本片段H2的长度为3个字符长度、字符组成为“李四说”,文本片段H3的长度为5个字符长度、字符组成为“王五大声说”。
由上述表1、表2可知,对于第二对白发出片段S1,长度小于第二对白发出片段S1的已有候选文本片段为文本片段H1、文本片段H2,且存在与第二对白发出片段S1连续相同至少两个字符的文本片段,也就是文本片段H2。假设第二对白发出片段S1的第一频次与第二频次之间的差异在预设差异范围内,那么可以将对白发出片段S1确定为候选文本片段。假设第二对白发出片段S1的第一频次与第二频次之间的差异不在预设差异范围内,那么可以将对白发出片段S1排除为候选文本片段。由上述表1、表2可知,对于第二对白发出片段S2,长度小于第二对白发出片段S2的已有候选文本片段为文本片段H1、文本片段H2,但均不存在与第二对白发出片段S2连续相同至少两个字符的文本片段。因此,可以将对白发出片段本段S2确定为候选文本片段。
S102A3:将第一候选文本片段、第二候选文本片段作为候选文本片段。
这样,利用文本的格式以及对象的对象名称在文本中的分布情况,从所确定的对白发出片段中确定候选阿文本片段,提高了所确定的候选文本片段中包含对象的对象名称的概率。
本发明的一个实施例中,在上述S102A2中针对每一第二对白发出片段,从长度小于该第二对白发出片段中,判断是否存在与该第二对白发出片段连续相同至少两个字符的文本段时,可以按照每一第二对白发出片段的长度由小到大的顺序,依次判断长度小于该第二对白发出片段的已有候选文本片段中是否存在与该第二对白发出片段连续相同至少两个字符的文本段。
可以根据上述S102A1中创建的用于保存候选文本段的集合,按照每一第二对白发出片段的长度由小到大的顺序,依次确定每一第二对白发出片段是否为候选文本段,若确定第二对白发出片段是候选文本段,将上述第二对白发出片段添加至上述集合中。
例如:假设各个第二对白发出片段的长度由小到大的顺序依次为文本片段X1、文本片段X2,对于文本片段X1,长度小于文本片段X1已有候选文本片段为文本片段Y1,判断文本片段Y1中是否存在与文本片段X1连续相同至少两个字符的文本段;对于文本片段X2,长度小于文本片段X2已有候选文本片段为文本片段Y2,判断文本片段Y2中是否存在与文本片段X2连续相同至少两个字符的文本段。
这样,按照各个第二对白发出片段的长度由小到大的顺序,依次确定第二对白发出片段是否为候选文本片段时,节省了判断时间,提高了获得候选文本片段的效率。
本发明的一个实施例中,可以按照以下步骤B1-B2实现上述S103中在各个候选文本片段中识别对象名称。
步骤B1:从各个候选文本片段中,选择包含用于描述对象信息的字符的候选文本片段。
由于上述描述对象信息的字符用于描述对象信息,因此,在包含用于描述对象信息的字符文本片段中,出现对象的对象名称的可能性非常高,因此,可以从各个候选文本片段中,选择包含用于描述对象信息的字符的文本片段。
上述描述对象信息的字符可以包括:描述对象职业信息的字符、描述对象姓氏信息的字符、描述对象关系信息的字符等。例如:上述描述对象职业信息的字符可以为:老师、主持人、教主、上神等。上述描述对象姓氏的字符可以为:张、李、欧阳、司马等。上述描述对象关系信息的字符可以为:同学、奶奶、朋友、姑夫、追求者等。
具体的,可以预先构建包含描述对象信息的字符的字典。例如:上述字典可以包括职业字典、关系字典、姓氏字典等,其中,职业字典中包含描述对象职业信息的字符,关系字典中包含描述对象关系信息的字符,姓氏字典中包含描述对象姓氏信息的字符。
具体的,在构建上述字典时,可以根据数量较多的样本素材中包含的各类字符进行构建。
例如:在构建职业字典时,可以根据不同类型的文本中可能出现的对象的职业构建职业字典,范围涵盖现代、古代等不同的职业,共计个数为300余个。
在构建关系字典时,根据不同类型的文本中可能出现的对象间关系构建关系字典,区分亲属关系、朋友关系、同事或同学关系、对手关系和情侣关系五大类别,143项身份关系小类,共计500余身份关系词。
在构建姓氏字典时,根据不同类型的文本中可能出现的对象的姓氏,包括单姓和复姓。
步骤B2:在各个所选择的候选文本片段中识别对象名称。
由于所选择的候选文本片段中包含用于描述对象信息的字符,那么上述所选择的候选文本片段中包含对象的对象名称的概率较大,因此,可以对各个候选文本段进行对象名称的识别,从而获得对象的对象名称。
这样,由于描述对象信息的字符用于描述对象信息,因此,在包含用于描述对象信息的第一待识别文本中,出现对象的对象名称的概率非常大,在对各个所选择的候选文本片段进行对象名称识别,所识别到的对象名称为对象的对象名称的概率较大,从而提高了获得对象名称的准确度。
本发明的一个实施例中,可以按照以下方式实现上述步骤B2中从各个候选文本片段中,选择包含用于描述对象信息的字符的候选文本片段。
针对每一候选文本片段,从长度小于该候选文本片段的其他候选文本片段中,确定与该候选文本片段之间长度最长的连续非相同字符;当连续非相同字符包含用于描述对象信息的字符时,将该候选文本片段确定为包含用于描述对象信息的字符的候选文本片段。
上述连续非相同字符是指:候选文本段之间连续的、不相同字符,例如:以候选文本段为“王”和“王明明”为例,“王”和”王明明”之间连续非相同字符为“明明。”。
上述长度最长的连续非相同字符是指:连续非相同字符的长度为最长长度。
由于候选文本片段中包含对象的对象名称的概率非常高,当候选文本片段与长度小于候选文本片段的其他候选文本片段之间长度最长的连续非相同字符中包含用于描述对象信息的字符时,可以表示候选文本片段与长度小于候选文本片段的其他候选文本片段之间的连续相同字符为对象名称的字符的可能性非常大,也就是待候选文本片段中包含对象的对象名称的概率进一步提高。
这样,由于第一待识别文本中包含对象的对象名称的概率相较于待候选文本中包含对象的对象名称的概率进一步提高,因此,提高了获得对象名称的准确度。
本发明的一个实施例中,还可以按照以下步骤C1-步骤C2实现上述S103中在各个候选文本片段中识别对象名称。
步骤C1:从各个候选文本片段中,选择不包含表征文本内容类型的字符的候选文本片段,作为第一待识别文本片段。
上述表征文本内容类型的字符可以为:剧本术语字符、小说术语字符等。由于文本中会存在一些表征文本内容类型的字符,例如,在剧本中存在特殊的专业术语,用于表示镜头设置、画面效果等,通常以“术语:正文”的形式存在。而文本片段中包含上述表征文本内容类型的字符时,而上述文本片段中通常不包含对象的对象名称,因此,从各个候选文本片段中,可以选择不包含表征文本内容类型的字符的文本片段,作为第一待识别文本片段。
具体的,可以构建文本内容类型字典,用于存储各种表征文本内容类型的字符,例如:上述文本内容类型字典可以存储有闪回画面、切换、主观、声音、特技、对切等字符。
步骤C2:在各个第一待识别文本片段中识别对象名称。
由于候选文本片段中包含对象的对象名称的概率较大,而第一待识别文本片段是在候选文本片段中所选择的不包含表征文本内容类型的字符的文本片段,由于包含表征文本内容类型的字符的文本片段包含对象的对象名称的概率较低,因此,所选择的第一待识别文本片段中包含对象的对象名称的概率进一步提高。因此,对各个第一待识别文本片段进行对象名称的识别,提高了所获得的对象名称为对象的对象名称的概率。
本发明的一个实施例中,可以按照以下步骤D1-D2实现上述S101中确定文本中的对白发出片段。
D1:在文本中查找表征对白内容片段开始的字符,作为开始字符。
由于对白内容片段通常以冒号、逗号等字符开始,因此,上述表征对白内容片段开始的字符可以为冒号、逗号等字符。
在文本中查找表征对白内容片段开始的字符时,可以以表征对白内容片段开始的字符为关键字符,在文本中搜索关键字符,从而确定文本中表征对白内容片段开始的字符。
D2:将文本中位于开始字符之前相邻的、长度为预设长度范围的文本片段确定为对白发出片段。
由于查找到的字符为表征对白内容片段开始的字符,因此,文本中在查找到的字符之后的文本段为对白内容片段,在查找到的字符之前的文本段为对白发出片段。
截取文本中位于查找到的字符之前,且与查找到的字符相邻的预设长度的文本段,作为对白前文段。
例如:假设预设长度为6个字符长度,表征对白内容片段开始的字符为冒号,且文本为:“在一个风和日丽的下午,小明对小红说:“今天天气真好”,小红说:“是呀!”。
截取文本中在冒号之前,且与冒号相邻的6个字符长度的文本段为:“小明对小红说”“小红说”。因此,可以将“小明对小红说”“小红说”确定为对白发出片段。
这样,由于文本中在表征对白内容片段开始的字符之前、且与上述字符相邻的预设长度的文本段为对白发出片段,因此,将文本中位于查找到的字符之前、且与查找到的字符相邻的预设长度的文本段确定为对白发出片段,能够提高获得对白发出片段的效率。
本发明的一个实施例中,在上述S101中,还可以从文本中的各个对白发出片段中,选择对白发出片段在文本中出现的频率高于预设频率阈值的文本段,作为文本中的对白发出片段。
具体的,由于文本中通常会包含非常多的对象,在这些对象中,有些对象为边缘对象,在文本中出现主要对象的对象名称的频率往往高于文本中出现边缘对象的对象名称的概率。因此,当对白发出片段在文本中出现的频率高于预设频率阈值,可以认为该对白发出片段中可能包含主要对象的对象名称;当对白发出片段在文本中出现的频率低于预设频率阈值,可以认为该对白发出片段中可能包含边缘对象的对象名称。
由于是对文本中的对象名称进行识别,识别后可以对文本中用于描述所识别到的各个对象的情感、动作等内容进行分析,从而获得文本的主要内容。而对边缘对象的情感、动作等内容进行分析对于获得文本的主要内容的帮助并不大,因此,从各个对白发出片段中,选择根据对白发出片段在文本中出现的频率高于预设频率阈值的文本段,能够排除可能包含边缘对象的对象名称的文本段,从而获得可能包含主要对象的对象名称的文本段。
这样,选择对白发出片段在文本中出现的频率高于预设频率阈值的文本段,作为文本中的对白发出片段,能够大概率获得包含主要对象的对象名称的文本段。
本发明的一个实施例中,在上述S103之后,还可以包括步骤E1-步骤E4。
步骤E1:选择识别得到的对象名称中具有至少两个连续的相同字符的对象名称。
由于在同一文本中,不同对象的对象名称之间存在一个相同字符的可能性非常高,例如:“张小马”与“王小明”,“张三”与“李三”,因此,当对象名称中包含仅一个相同字符时,上述各个对象名称为同一对象的名称的概率非常低。
当对象名称具有至少两个连续的相同字符时,可以表示上述对象名称为同一对象的名称的概率相对仅有一个相同字符时对象名称为同一对象的名称的概率较高。例如:假设对象名称为:小明、王小明,小明、“小明”为连续相同字符,可以认为“王小明”与“小明”为同一对象的名称。
具体的,在选择上述对象名称时,可以将选择到的对象名称划分为一个分组内,每一分组内各个对象名称之间具有至少两个连续的相同字符。
当所选择出的对象名称的数量等于2时,执行步骤E2。
步骤E2:确定所选择出的对象名称中非相同字符,并识别非相同字符的语义信息。
由于仅有两个对象名称具有至少两个连续的相同字符时,可以表示上述两个对象名称为同一对象的名称的概率较高。例如:对象名称为“小明”“王小明”,上述两个对象名称为同一个对象的名称的概率则较高。
由于三个或者三个以上对象名称具有至少两个连续的相同字符时,上述各个对象名称为同一对象的名称的概率相对较低。例如:假设对象名称为:小明、王小明、李小明,而上述三个对象名称为同一对象的名称的可能性较低。因此,当有超过三个或者三个以上对象名称具有至少两个连续的相同字符时,不执行步骤E2。
为了更加准确确定两个对象名称是否为指向同一对象的对象名称,可以确定所选择出的对象名称中非相同字符,并识别所确定的非相同字符的语义信息,根据所确定的语义信息,判断所选择出的对象名称是否为指向同一对象的对象名称。
上述非相同字符是指所选择出的对象名称之间不相同的字符。具体的,所选择出的对象名称之间可能有多个非相同字符,上述非相同字符可以为长度最长的连续非相同字符。
在确定非相同字符时,可以比较所选择出的对象名称,得到对象名称中非相同字符,例如:假设所选择出的对象名称为:“王小明”“小明”,比较“王小明”和“小明”,可以确定“王”为非相同字符。
在识别非相同字符的语义信息时,可以提取非相同字符所表达语义的语义特征,基于所提取的语义特征确定语义信息。
步骤E3:根据所识别的非相同字符的语义信息,判断所选择出的对象名称是否为指向同一对象的对象名称。
在根据所识别的非相同字符的语义信息,判断所选择出的对象名称是否为指向同一对象的对象名称时,可以根据所识别的非相同字符的语义信息表达的语义是否为描述同一对象的语义信息,若为是,可以判断所选择出的对象名称指向同一对象的对象名称,若为否,可以判断所选择出的对象名称不为指向同一对象的对象名称。
上述描述同一对象的语义信息可以包括:描述对象姓氏的语义信息、描述对象职业的语义信息等。
例如:假设所确定的两个对象名称为:张三、张三老师,“老师”为上述两个对象名称之间非相同字符,由于“老师”的语义信息为描述对象职业,也就是描述同一对象的语义信息,所以可以判断“张三”“张三老师”指向同一对象的对象名称。假设所确定的两个对象名称为:张三、张三太太,“太太”为上述两个对象名称之间非相同字符,而“太太”的语义信息为描述对象关系,并不是描述同一对象的语义信息,所以可以判断“张三”“张三太太”并不指向同一对象的对象名称。
步骤E4:建立所选择出的对象名称之间的映射关系。
具体的,由于在各个候选文本片段中识别对象名称之后,所识别到的对象名称可以包括同一对象的省略名称、全名等,在建立所选择出的对象名称之间的映射关系时,可以确定所识别到的各个省略名称与各个全名之间的映射关系,从而可以对所识别得到的各个对象名称进行分类,这样,可以确定所识别到的各个对象名称指向的对象。
以下结合图3a、图3b、图3c对本发明实施例提供的对象名称识别方法进行具体的说明。以对象名称为剧本中出现的人物的名称为例。
参见图3a,图3a为本发明实施例提供的一种第一频次和第二频次确定方法的流程示意图。
在图3a中,第一步:将剧本原文进行繁简体转换,得到简体文本。
第二步:根据冒号对简体文本进行分割,得到对白发出片段和其他片段。
具体的,可以将对白发出片段作为候选文本片段。
其他片段为非对白发出片段,主要包括对白内容片段、环境描写片段、动作描写片段等。
第三步:对对白发出片段去除标点符号,得到简化后的候选文本片段。
第四步,判断简化后的候选文本片段的长度是否小于等于6个字符长度,若为是,执行第五步,若为否,舍弃该候选文本片段。
第五步:判断简化后的候选文本片段的全文出现频次是否大于预设阈值,若为是,将该简化后的候选文本片段加入频次字典freq_dict中,若为否,舍弃该候选文本片段。
第六步,针对频次字典freq_dict中每一候选文本片段,统计该候选文本片段在对白发出片段的出现频次speaker_dict,以及在其他片段中的出现频次other_dict。
参见图3b,图3b为本发明实施例提供的一种对象名称识别方法的流程示意图。
在图3b中,第一步:获得对白发出片段string_current。
第二步:判断对白发出片段string_current是否与当前name_set中任一个片段存在公共字符串。若为是,执行第三步,若为否,执行第六步。
上述name_set用于保存大概率为“人名”的文本片段。
第三步:判断对白发出片段第一频次与第二频次之间的差异是否在预设差异范围内。若为是,则执行第四步,若为否,则结束流程。
其中,第一频次为:对白发出片段在文本的所有对白发出片段中出现的频次,第二频次为:对白发出片段在文本的所有非对白发出片段中出现的频次。
第四步:确定候选文本片段与name_set中各个文本片段中长度最长的连续非相同字符。
第五步:判断所确定的连续非相同字符是否包含描述对象信息的字符,若为是,执行第七步;若为否,则结束流程。
第六步,将该候选文本片段加入nane_set中。
第七步,遍历name_set中每一文本片段,判断该文本片段中是否包含描述文本内容类型的字符的文本段,若为是,结束流程,若为否,识别该文本片段中的对象名称。
参见图3c,图3c为本发明实施例提供的一种建立对象名称映射关系方法的流程示意图。
在图3c中,第一步:针对各个已识别到的对象名称,抽取具有公共片段的人名。归为各个人名组。
第二步:针对每一人名组,判断该人名组内的对象名称数量是否大于或者等于3,若为是,执行第三步,若为否,执行第四步,
第三步:确定各个对象名称为不同对象的名称,不建立各个对象名称之间的映射关系。
第四步:确定人名组内对象名称中最长非公共片段string_diff。
第五步:判断string_diff是否在关系字典中,若为是,执行第六步,若为否,执行第七步。
第六步:确定各个对象名称为不同对象的名称,不建立各个对象名称之间的映射关系。
第七步:当string_diff在身份、姓氏字典中时,确定所选择出的对象名称为同一对象的名称,并建立所选择出的对象名称之间的映射关系。
与上述对象名称识别方法相对应,本发明实施例还提供了一种对象名称识别装置。
参见图4,图4为本发明实施例提供的第一种对象名称识别装置的结构示意图,上述装置包括401-403。
片段确定模块401,用于确定文本中的对白发出片段,其中,所述对白发出片段为:与对白内容片段相邻、且位于对白内容片段之前预设长度的文本片段;
片段选择模块402,用于从各个对白发出片段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本片段,作为候选文本片段,其中,所述第一频次为:每一对白发出片段在所述文本的所有对白发出片段中出现的频次,所述第二频次为:每一对白发出片段在所述文本的所有非对白发出片段中出现的频次;
对象名称识别模块403,在各个候选文本片段中识别对象名称。
由以上可见,应用本实施例提供的方案进行对象名称识别时,由于文本中的对白发出片段包含对象名称的概率较高,又由于对白发出片段的第一频次可以用于表示各个对白发出片段在文本的所有对白发出片段中的分布情况,对白发出片段的第二频次可以用于表示各个对白发出片段在文本的所有非对白发出片段中的分布情况,因此,第一频次与第二频次之间的差异可以用于表示对白发出片段在文本的所有对白发出片段中的分布情况与该对白发出片段在文本的所有非对白发出片段中的分布情况之间的差异,当第一频次与第二频次之间的差异在预设差异范围内时,表示对白发出片段在文本中各个部分都出现,且出现频次较平均,也就是对白发出片段在文本中的分布情况是平均分布的,而对象名称往往在文本中的分布情况也大致为平均分布的。因此,从各个对白发出片段中,所选择的第一频次与第二频次之间的差异在预设差异范围内的文本段,也就是候选文本段中包含对象的对象名称的概率相较于各个对白发出片段中包含的对象的对象名称的概率进一步提高,从而在对候选文本片段中对象名称进行识别时,所识别到的名称为对象的名称的概率也非常高,从而提高了获得对象的对象名称的准确度。
参见图5,图5为本发明实施例提供的第二种对象名称识别装置的结构示意图,在上述片段选择模块402中还可以包括402F1-402F3。
第一片段确定子模块402F1,用于将第一对白发出片段确定为第一候选文本片段,其中,所述第一对白发出片段为:长度最小的对白发出片段;
第二片段确定子模块402F2,用于针对每一第二对白发出片段,从长度小于该第二对白发出片段的已有候选文本片段中,判断是否存在与该第二对白发出片段连续相同至少两个字符的已有候选文本片段;若不存在,将该第二对白发出片段确定为第二候选文本片段;若存在,当该第二对白发出片段的第一频次与第二频次之间的差异在预设差异范围内时,将该第二对白发出片段确定为第二候选文本片段,其中,所述第二对白发出片段为:对白发出片段中除第一对白发出片段之外的文本片段;
第三片段确定子模块402F3,用于将所述第一候选文本片段、第二候选文本片段作为候选文本片段。
这样,利用文本的格式以及对象的对象名称在文本中的分布情况,从所确定的对白发出片段中确定候选文本段,提高了所确定的候选文本段中包含对象的对象名称的概率。
本发明的一个实施例中,上述对象名称识别模块403,包括:
片段选择子模块,用于从各个候选文本片段中,选择包含用于描述对象信息的字符的候选文本片段;
对象名称识别子模块,用于在各个所选择的候选文本片段中识别对象名称。
本发明的一个实施例中,上述片段选择子模块,具体用于针对每一候选文本片段,从长度小于该候选文本片段的其他候选文本片段中,确定与该候选文本片段之间长度最长的连续非相同字符;当所述连续非相同字符包含用于描述对象信息的字符时,将该候选文本片段确定为包含用于描述对象信息的字符的候选文本片段。
这样,由于描述对象信息的字符用于描述对象信息,因此,在包含用于描述对象信息的第一待识别文本中,出现对象的对象名称的概率非常大,在对各个第一待识别文本段进行对象名称识别,所识别到的对象名称为对象的对象名称的概率较大,从而提高了获得对象名称的准确度。
本发明的一个实施例中,上述片段确定模块,包括:
字符查找子模块,用于在文本中查找表征对白内容片段开始的字符,作为开始字符;
第三片段确定子模块,用于将所述文本中位于所述开始字符之前相邻的、长度为预设长度范围的文本片段确定为对白发出片段。
由于候选文本段中包含对象的对象名称的概率较大,而第二待识别文本段是在候选文本段中所选择的不包含表征文本内容类型的字符的文本段,由于包含表征文本内容类型的字符的文本段包含对象的对象名称的概率较低,因此,所选择的第二待识别文本段中包含对象的对象名称的概率进一步提高。因此,对各个第二待识别文本段进行对象名称的识别,提高了所获得的对象名称为对象的对象名称的概率。
本发明的一个实施例中,上述装置还包括:
对象名称选择模块,用于在对象名称识别模块之后,选择识别得到的对象名称中具有至少两个连续相同字符的对象名称;
信息识别模块,用于当所选择出的对象名称的数量等于2时,确定所选择出的对象名称中非相同字符,并识别所述非相同字符的语义信息;
名称判断模块,用于根据所识别的非相同字符的语义信息,判断所选择出的对象名称是否为指向同一对象的对象名称;若为是,触发关系建立模块;
所述关系建立模块,用于建立所选择出的对象名称之间的映射关系。
这样,可以确定所识别到的对象名称之间的关系,从而确定文本中对象的各个名称。
与上述对象名称识别方法相对应,本发明实施例还提供了一种电子设备。
本发明实施例还提供了一种电子设备,如图6所示,图6为本发明实施例提供的一种电子设备的结构示意图,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现本发明实施例提供的对象名称识别方法。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例提供的对象名称识别方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行时实现本发明实施例提供的对象名称识别方法。
由以上可见,应用本实施例提供的方案进行对象名称识别时,由于文本中的对白发出片段包含对象名称的概率较高,又由于对白发出片段的第一频次可以用于表示各个对白发出片段在文本的所有对白发出片段中的分布情况,对白发出片段的第二频次可以用于表示各个对白发出片段在文本的所有非对白发出片段中的分布情况,因此,第一频次与第二频次之间的差异可以用于表示对白发出片段在文本的所有对白发出片段中的分布情况与该对白发出片段在文本的所有非对白发出片段中的分布情况之间的差异,当第一频次与第二频次之间的差异在预设差异范围内时,表示对白发出片段在文本中各个部分都出现,且出现频次较平均,也就是对白发出片段在文本中的分布情况是平均分布的,而对象名称往往在文本中的分布情况也大致为平均分布的。因此,从各个对白发出片段中,所选择的第一频次与第二频次之间的差异在预设差异范围内的文本段,也就是候选文本段中包含对象的对象名称的概率相较于各个对白发出片段中包含的对象的对象名称的概率进一步提高,从而在对候选文本片段中对象名称进行识别时,所识别到的名称为对象的名称的概率也非常高,从而提高了获得对象的对象名称的准确度。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、终端设备、计算机可读存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (14)

1.一种对象名称识别方法,其特征在于,所述方法包括:
确定文本中的对白发出片段,其中,所述对白发出片段为:与对白内容片段相邻、且位于对白内容片段之前预设长度的文本片段;
从各个对白发出片段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本片段,作为候选文本片段,其中,所述第一频次为:每一对白发出片段在所述文本的所有对白发出片段中出现的频次,所述第二频次为:每一对白发出片段在所述文本的所有非对白发出片段中出现的频次;
在各个候选文本片段中识别对象名称。
2.根据权利要求1所述的方法,其特征在于,所述从各个对白发出片段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本片段,作为候选文本片段,包括:
将第一对白发出片段确定为第一候选文本片段,其中,所述第一对白发出片段为:长度最小的对白发出片段;
针对每一第二对白发出片段,从长度小于该第二对白发出片段的已有候选文本片段中,判断是否存在与该第二对白发出片段连续相同至少两个字符的已有候选文本片段;若不存在,将该第二对白发出片段确定为第二候选文本片段;若存在,当该第二对白发出片段的第一频次与第二频次之间的差异在预设差异范围内时,将该第二对白发出片段确定为第二候选文本片段,其中,所述第二对白发出片段为:对白发出片段中除第一对白发出片段之外的片段;
将所述第一候选文本片段、第二候选文本片段作为候选文本片段。
3.根据权利要求1所述的方法,其特征在于,所述在各个候选文本片段中识别对象名称,包括:
从各个候选文本片段中,选择包含用于描述对象信息的字符的候选文本片段;
在各个所选择的候选文本片段中识别对象名称。
4.根据权利要求3所述的方法,其特征在于,所述从各个候选文本片段中,选择包含用于描述对象信息的字符的候选文本片段,包括:
针对每一候选文本片段,从长度小于该候选文本片段的其他候选文本片段中,确定与该候选文本片段之间长度最长的连续非相同字符;当所述连续非相同字符包含用于描述对象信息的字符时,将该候选文本片段片段确定为包含用于描述对象信息的字符的候选文本片段。
5.根据权利要求1所述的方法,其特征在于,所述确定文本中的对白发出片段的对白发出片段,包括:
在文本中查找表征对白内容片段开始的字符,作为开始字符;
将所述文本中位于所述开始字符之前相邻的、长度为预设长度范围的片段确定为对白发出片段。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在各个候选文本片段中识别对象名称之后,还包括:
选择识别得到的对象名称中具有至少两个连续相同字符的对象名称;
当所选择出的对象名称的数量等于2时,确定所选择出的对象名称中非相同字符,并识别所述非相同字符的语义信息;
根据所识别的非相同字符的语义信息,判断所选择出的对象名称是否为指向同一对象的对象名称;
若为是,建立所选择出的对象名称之间的映射关系。
7.一种对象名称识别装置,其特征在于,所述装置包括:
片段确定模块,用于确定文本中的对白发出片段,其中,所述对白发出片段为:与对白内容片段相邻、且位于对白内容片段之前预设长度的文本片段;
片段选择模块,用于从各个对白发出片段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本片段,作为候选文本片段,其中,所述第一频次为:每一对白发出片段在所述文本的所有对白发出片段中出现的频次,所述第二频次为:每一对白发出片段在所述文本的所有非对白发出片段中出现的频次;
对象名称识别模块,在各个候选文本片段中识别对象名称。
8.根据权利要求7所述的装置,其特征在于,所述片段选择模块,包括:
第一片段确定子模块,用于将第一对白发出片段确定为第一候选文本片段,其中,所述第一对白发出片段为:长度最小的对白发出片段;
第二片段确定子模块,用于针对每一第二对白发出片段,从长度小于该第二对白发出片段的已有候选文本片段中,判断是否存在与该第二对白发出片段连续相同至少两个字符的已有候选文本片段;若不存在,将该第二对白发出片段确定为第二候选文本片段;若存在,当该第二对白发出片段的第一频次与第二频次之间的差异在预设差异范围内时,将该第二对白发出片段确定为第二候选文本片段,其中,所述第二对白发出片段为:对白发出片段中除第一对白发出片段之外的文本片段;
第三片段确定子模块,用于将所述第一候选文本片段、第二候选文本片段作为候选文本片段。
9.根据权利要求7所述的装置,其特征在于,所述对象名称识别模块,包括:
片段选择子模块,用于从各个候选文本片段中,选择包含用于描述对象信息的字符的候选文本片段;
对象名称识别子模块,用于在各个所选择的候选文本片段中识别对象名称。
10.根据权利要求9所述的装置,其特征在于,
所述片段选择子模块,具体用于针对每一候选文本片段,从长度小于该候选文本片段的其他候选文本片段中,确定与该候选文本片段之间长度最长的连续非相同字符;当所述连续非相同字符包含用于描述对象信息的字符时,将该候选文本片段确定为包含用于描述对象信息的字符的候选文本片段。
11.根据权利要求7所述的装置,其特征在于,所述片段确定模块,包括:
字符查找子模块,用于在文本中查找表征对白内容片段开始的字符,作为开始字符;
第三片段确定子模块,用于将所述文本中位于所述开始字符之前相邻的、长度为预设长度范围的文本片段确定为对白发出片段。
12.根据权利要求7-11中任一项所述的装置,其特征在于,所述装置还包括:
对象名称选择模块,用于在对象名称识别模块之后,选择识别得到的对象名称中具有至少两个连续相同字符的对象名称;
信息识别模块,用于当所选择出的对象名称的数量等于2时,确定所选择出的对象名称中非相同字符,并识别所述非相同字符的语义信息;
名称判断模块,用于根据所识别的非相同字符的语义信息,判断所选择出的对象名称是否为指向同一对象的对象名称;若为是,触发关系建立模块;
所述关系建立模块,用于建立所选择出的对象名称之间的映射关系。
13.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN202110060884.XA 2021-01-18 2021-01-18 一种对象名称识别方法及装置 Active CN112861534B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110060884.XA CN112861534B (zh) 2021-01-18 2021-01-18 一种对象名称识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110060884.XA CN112861534B (zh) 2021-01-18 2021-01-18 一种对象名称识别方法及装置

Publications (2)

Publication Number Publication Date
CN112861534A CN112861534A (zh) 2021-05-28
CN112861534B true CN112861534B (zh) 2023-07-21

Family

ID=76006157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110060884.XA Active CN112861534B (zh) 2021-01-18 2021-01-18 一种对象名称识别方法及装置

Country Status (1)

Country Link
CN (1) CN112861534B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008144964A1 (en) * 2007-06-01 2008-12-04 Google Inc. Detecting name entities and new words
JP2019082987A (ja) * 2017-10-30 2019-05-30 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置およびプログラム
CN110969021A (zh) * 2019-12-23 2020-04-07 竹间智能科技(上海)有限公司 单轮对话中的命名实体识别方法、装置、设备及介质
CN111597822A (zh) * 2020-05-19 2020-08-28 北京奇艺世纪科技有限公司 一种对象名称识别方法及装置
CN111667811A (zh) * 2020-06-15 2020-09-15 北京百度网讯科技有限公司 语音合成方法、装置、设备和介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121053A1 (en) * 2016-08-31 2018-05-03 Andrew Thomas Nelson Textual Content Speed Player
CN108241667B (zh) * 2016-12-26 2019-10-15 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008144964A1 (en) * 2007-06-01 2008-12-04 Google Inc. Detecting name entities and new words
JP2019082987A (ja) * 2017-10-30 2019-05-30 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置およびプログラム
CN110969021A (zh) * 2019-12-23 2020-04-07 竹间智能科技(上海)有限公司 单轮对话中的命名实体识别方法、装置、设备及介质
CN111597822A (zh) * 2020-05-19 2020-08-28 北京奇艺世纪科技有限公司 一种对象名称识别方法及装置
CN111667811A (zh) * 2020-06-15 2020-09-15 北京百度网讯科技有限公司 语音合成方法、装置、设备和介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中文机构名称的识别与分析;张小衡,王玲玲;中文信息学报(第04期);全文 *

Also Published As

Publication number Publication date
CN112861534A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN108304375B (zh) 一种信息识别方法及其设备、存储介质、终端
WO2020253350A1 (zh) 网络内容发布的审核方法、装置、计算机设备及存储介质
US5062143A (en) Trigram-based method of language identification
CN109710087B (zh) 输入法模型生成方法及装置
WO2017088363A1 (zh) 筛选发音词典有效词条的方法及装置
CN112541095B (zh) 视频标题生成方法、装置、电子设备及存储介质
CN107861948B (zh) 一种标签提取方法、装置、设备和介质
JP6208794B2 (ja) 会話分析装置、方法及びコンピュータプログラム
CN111492364B (zh) 数据标注方法、装置及存储介质
CN112699671B (zh) 一种语言标注方法、装置、计算机设备和存储介质
CN111291535B (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN112541109A (zh) 答案摘要抽取方法及装置、电子设备、可读介质、产品
CN112700203B (zh) 智能阅卷方法及装置
CN112861534B (zh) 一种对象名称识别方法及装置
CN108899016B (zh) 一种语音文本规整方法、装置、设备及可读存储介质
CN113609864B (zh) 一种基于工业控制系统的文本语义识别处理系统及方法
CN111126201A (zh) 剧本中人物识别方法及装置
CN113656575B (zh) 训练数据的生成方法、装置、电子设备及可读介质
CN114048740B (zh) 敏感词检测方法、装置及计算机可读存储介质
CN113378000B (zh) 一种视频标题生成方法及装置
CN115630643A (zh) 语言模型的训练方法、装置、电子设备及存储介质
CN111161707B (zh) 一种自动补充质检关键词表的方法、电子设备和存储介质
CN110276001B (zh) 盘点页识别方法、装置、计算设备和介质
CN109192198B (zh) 一种基于声波感知的文本输入方法
CN113689860A (zh) 语音识别模型的训练、语音识别方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant