CN112270167B - 角色标注方法、装置、电子设备和存储介质 - Google Patents
角色标注方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN112270167B CN112270167B CN202011098949.1A CN202011098949A CN112270167B CN 112270167 B CN112270167 B CN 112270167B CN 202011098949 A CN202011098949 A CN 202011098949A CN 112270167 B CN112270167 B CN 112270167B
- Authority
- CN
- China
- Prior art keywords
- role name
- role
- candidate
- name
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 claims description 30
- 230000015654 memory Effects 0.000 claims description 20
- 238000013145 classification model Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 9
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000981 bystander Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 206010036872 Prolonged labour Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了角色标注方法、装置、电子设备及存储介质,涉及深度学习等人工智能技术领域。具体实现方案为:获取待标注的对白语句以及对应的上下文信息,并对上下文信息和对白语句进行拼接,以得到拼接文本;从拼接文本中,抽取出与对白语句相对应的角色名称在拼接文本中的位置信息;根据位置信息,确定与对白语句相对应的第一候选角色名称;从拼接文本中出现过的角色名称中,确定与对白语句相对应的第二候选角色名称;根据第一候选角色名称和第二候选角色名称,确定与对白语句相对应的目标角色名称,并根据目标角色名称对对白语句进行角色标注。由此,通过自动化角色标注,能够提高标注效率,节省了人工标注成本和时间。
Description
技术领域
本申请涉及计算机技术领域,具体涉及自然语言处理、深度学习等人工智能技术领域,尤其涉及一种角色标注方法、装置、电子设备及存储介质。
背景技术
当前市场主流的有声小说主要有两个产品形态:单角色和多角色。多角色有声小说又分为真人朗读和语音合成两种呈现形式,现有技术中,获取到文档文本后,通常需要标注人员通读全文,以便对文档文本中的对白语句进行标注,进而获知每句对白语句的角色名称。但是,采用人工标注角色对白的方式,导致耗时较长,标注成本较高,且效率低。因此,如何更好的实现对角色标注成为目前亟待解决的问题。
发明内容
本申请提供了一种角色标注方法、装置、电子设备以及存储介质。
根据本申请的第一方面,提供了一种角色标注方法,包括:
获取待标注的对白语句以及对应的上下文信息,并对所述上下文信息和所述对白语句进行拼接,以得到拼接文本;
从所述拼接文本中,抽取出与所述对白语句相对应的角色名称在所述拼接文本中的位置信息;
根据所述位置信息,确定与所述对白语句相对应的第一候选角色名称;
从所述拼接文本中出现过的角色名称中,确定与所述对白语句相对应的第二候选角色名称;
根据所述第一候选角色名称和所述第二候选角色名称,确定与所述对白语句相对应的目标角色名称,并根据所述目标角色名称对所述对白语句进行角色标注。
根据本申请的第二方面,提供了一种角色标注装置,包括:
第一获取模块,用于获取待标注的对白语句以及对应的上下文信息,并对所述上下文信息和所述对白语句进行拼接,以得到拼接文本;
第二获取模块,用于从所述拼接文本中,抽取出与所述对白语句相对应的角色名称在所述拼接文本中的位置信息;
第一确定模块,用于根据所述位置信息,确定与所述对白语句相对应的第一候选角色名称;
第二确定模块,用于从所述拼接文本中出现过的角色名称中,确定与所述对白语句相对应的第二候选角色名称;
第一执行模块,用于根据所述第一候选角色名称和所述第二候选角色名称,确定与所述对白语句相对应的目标角色名称,并根据所述目标角色名称对所述对白语句进行角色标注。
根据本申请的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请的第一方面所述的角色标注方法。
根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请第一方面所述的角色标注方法。
根据本申请的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请第一方面所述的角色标注方法。
本申请提供的实施例,至少具有如下有益技术效果:
获取待标注的对白语句以及对应的上下文信息,并对上下文信息和对白语句进行拼接,以得到拼接文本,从拼接文本中,抽取出与对白语句相对应的角色名称在拼接文本中的位置信息,根据位置信息,确定与对白语句相对应的第一候选角色名称,之后从拼接文本中出现过的角色名称中,确定与对白语句相对应的第二候选角色名称,然后根据第一候选角色名称和第二候选角色名称,确定与对白语句相对应的目标角色名称,并根据目标角色名称对对白语句进行角色标注,由此,通过从拼接文本中,确定与对白语句相对应的第一候选角色名称和第二候选角色名称,进而确定目标角色名称,以便根据目标角色名称实现对对白语句自动化角色标注,节省了人工成本和时间,提高了标注效率,避免了采用人工方式进行角色标注,导致的人工标注成本较高,标注较耗时,且标注效率低的问题。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是根据本申请第三实施例的示意图;
图4是根据本申请第四实施例的示意图;
图5是根据本申请第五实施例的示意图;
图6是根据本申请第六实施例的示意图;
图7是用来实现本申请实施例的角色标注方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
为了解决相关技术中的采用人工方式进行角色标注,采用人工标注角色对白的方式,导致耗时较长,标注成本较高,且效率低的技术问题,本申请提出了一种角色标注方法、装置、电子设备及存储介质,本申请通过获取待标注的对白语句以及对应的上下文信息,并对上下文信息和对白语句进行拼接,以得到拼接文本,从拼接文本中,抽取出与对白语句相对应的角色名称在拼接文本中的位置信息,根据位置信息,确定与对白语句相对应的第一候选角色名称,之后从拼接文本中出现过的角色名称中,确定与对白语句相对应的第二候选角色名称,然后根据第一候选角色名称和第二候选角色名称,确定与对白语句相对应的目标角色名称,并根据目标角色名称对对白语句进行角色标注,由此,通过从拼接文本中,确定与对白语句相对应的第一候选角色名称和第二候选角色名称,进而确定目标角色名称,以便根据目标角色名称实现对对白语句自动化角色标注,节省了人工标注成本和时间,进而提高了标注效率。
下面参考附图描述本申请实施例的角色标注方法、装置、电子设备以及存储介质。
图1是根据本申请一个实施例的角色标注方法的流程图。需要说明的是,本申请实施例的角色标注方法可应用于本申请实施例的角色标注装置,该装置可应用在电子设备中,其中,电子设备可以包括终端设备或者服务器。例如移动终端包括智能手机、平板电脑、PAD、个人数字助理等。本申请实施例对此不作限定。
S101、获取待标注的对白语句以及对应的上下文信息,并对上下文信息和对白语句进行拼接,以得到拼接文本。
在本申请的实施例中,可通过电子设备获取文档中待标注的对白语句以及对应的上下文信息,并将上下文信息和对白语句进行拼接,以得到拼接文本。其中,文档可理解为任意形式的文档,包括但不仅仅限于电子文本、音频等,例如,小说电子文本、新闻音频、剧本电子文本等,本申请对此不作限制。
其中,文档可以是通过用户界面由用户上传的,也可以是基于来自用户的请求或者所识别的请求而从网络上自动获取的。
举例而言,用户可通过电子设备请求查看A小说,电子设备接收到用户请求,可利用爬虫技术从网络上查找A小说,进而可获取A小说文档,之后可从所获得的A小说文档中检测对白语句和旁白语句,之后可获取待标注的对白语句以及对应的上下文信息,并对上下文信息和对白语句进行拼接,以得到拼接文本。其中,对白语句可以指文档中由角色所说出的语句,而旁白语句可以指文档中除了话语以外的语句。例如,在文档中<小李说“这里真美呀”,小赵说“确实是很美呢”,于是,小李和小赵继续往花园中央走去>中,其中,小李说“这里真美呀”,小赵说“确实是很美呢”是对白语句,而“于是,小李和小赵继续往花园中央走去”是旁白语句。
其中,在本申请的一个实施例中,可通过深度学习模型对电子文本进行对白和旁白的区分。例如,深度学习模型可对电子文本进行文本语句拆分、语句结构识别、语句语义分析等文本处理,以便区分出对白语句和旁白语句。其中,对白语句的语句结构形式通常由说话者与该说话者所说的话组成。
在本申请的实施例中,在区分对白语句和旁白语句后,基于电子设备实时对文档标注情况的检测,可获取待标注的对白语句,以及对应的上下文信息,并可将上下文信息和对白语句进行拼接,以得到拼接文本。
其中,待标注的对白语句对应的上下文信息可以是通过下述方式获得的:获取所述对白语句所在的文档,然后,根据对白语句在该文档中的位置,获取位于该位置之前的N句语句,以及获取位于该位置之后的M句语句,所获取的语句即为该对白语句的上下文信息。
其中,N和M是预先设置的值,例如,N可以为7,M可以为3,可以根据业务需求确定N和M的取值,该实施例对此不作限定。
S102、从拼接文本中,抽取出与对白语句相对应的角色名称在拼接文本中的位置信息。
在本申请的实施例中,获取到拼接文本,可将拼接文本输入到信息抽取模型中,以得到与对白语句相对应的角色名称在拼接文本中的位置信息。其中,位置信息包括起始位置和结束位置。
其中,在本申请的一个实施例中,信息抽取模型可基于对白语句的角色名称与位置信息之间的对应关系,可得到以得到与对白语句相对应的角色名称在拼接文本中的位置信息。
S103、根据位置信息,确定与对白语句相对应的第一候选角色名称。
在本申请的一个实施例中,可从拼接文本中提取出在起始位置和结束位置之间的目标文本,根据目标文本,确定与对白语句相对应的第一候选角色名称。
S104、从拼接文本中出现过的角色名称中,确定与对白语句相对应的第二候选角色名称。
在本申请的一个实施例中,可获取拼接文本中出现过的角色名称,然后将角色名称输入至深度学习模型中,深度学习模型可基于打分器,对角色名称进行评分,之后根据角色名称的评分结果,确定与对白语句相对应的第二候选角色名称。例如,可将角色名称中评分结果最优的角色名称,作为第二候选角色名称。
在本申请的另一个实施例中,可获取拼接文本中出现过的角色名称,然后将角色名称和拼接文本输入到角色分类模型中,以得到角色名称作为与对白语句的角色名称的概率,之后根据角色名称的概率,确定与对白语句相对应的第二候选角色名称。具体的实现方式可参考后续实施例。
S105、根据第一候选角色名称和第二候选角色名称,确定与对白语句相对应的目标角色名称,并根据目标角色名称对对白语句进行角色标注。
在本申请的实施例中,可获取对白语句所在文档对应的角色名称集合,然后确定角色名称集合中存在与第一候选角色名称相同的角色名称,且存在与第二候选角色名称相同的角色名称,之后在第一候选角色名称和第二候选角色名称相同的情况下,从第一候选角色名称和第二候选角色名称中,随机选择一个作为与对白语句相对应的目标角色名称。
根据本申请实施例的角色标注方法,获取待标注的对白语句以及对应的上下文信息,并对上下文信息和对白语句进行拼接,以得到拼接文本,从拼接文本中,抽取出与对白语句相对应的角色名称在拼接文本中的位置信息,根据位置信息,确定与对白语句相对应的第一候选角色名称,之后从拼接文本中出现过的角色名称中,确定与对白语句相对应的第二候选角色名称,然后根据第一候选角色名称和第二候选角色名称,确定与对白语句相对应的目标角色名称,并根据目标角色名称对对白语句进行角色标注,由此,通过从拼接文本中,确定与对白语句相对应的第一候选角色名称和第二候选角色名称,进而确定目标角色名称,以便根据目标角色名称实现对对白语句进行自动化角色标注,节省了人工成本和时间,进而提高了标注效率,避免了采用人工方式进行角色标注,导致的人工标注成本高、人工标注时间长,进而导致标注效率低的问题。
为了本领域的技术人员更容易理解本申请,图2是根据本申请一个具体实施例的角色标注方法的流程图。如图2所示,该角色标注方法可以包括:
S201、获取待标注的对白语句以及对应的上下文信息,并对上下文信息和对白语句进行拼接,以得到拼接文本。
举例而言,用户可通过电子设备请求查看A小说,电子设备接收到用户请求,可利用爬虫技术从网络上查找A小说,进而可获取A小说文档,之后可从所获得的A小说文档中检测对白语句和旁白语句,之后可获取待标注的对白语句以及对应的上下文信息,并对上下文信息和对白语句进行拼接,以得到拼接文本。其中,对白语句可以指文档中由角色所说出的语句,而旁白语句可以指文档中除了话语以外的语句。例如,在文档中<小李说“这里真美呀”,小赵说“确实是很美呢”,于是,小李和小赵继续往花园中央走去>中,其中,小李说“这里真美呀”,小赵说“确实是很美呢”是对白语句,而“于是,小李和小赵继续往花园中央走去”是旁白语句。
其中,在本申请的一个实施例中,可基于关键词来从文档中检测对白语句和旁白语句。关键词可以是能够指示话语出现的词语,例如,“说”、“喊叫”、“小声说”等。例如,如果在文档的一个语句中检测到关键词“说”,则可以将该语句中位于该关键词后面的部分确定为对白语句,而将该语句的其它部分确定为旁白语句。
在本申请的另一个实施例中,可基于关键标点符号来从文档中检测白语句和旁白语句。其中,关键标点符号可以是能够指示话语出现的标点符号,例如双引号、冒号等。例如,如果在文档的一个语句中检测到双引号,则可以将该语句中位于该双引号中的部分确定为对白语句,而将该语句的其它部分确定为旁白语句。
在本申请的实施例中,在区分对白语句和旁白语句后,基于电子设备实时对文档标注情况的检测,可获取待标注的对白语句,以及对应的上下文信息,并可将上下文信息和对白语句进行拼接,以得到拼接文本。
其中,在本申请的实施例中,可从文档中获取位于对白语句之前的多句语句,从文档中获取位于对白语句之后的多句语句。
S202、从拼接文本中,抽取出与对白语句相对应的角色名称在拼接文本中的位置信息。
其中,位置信息包括起始位置和结束位置。
也就是说,获取到拼接文本,可从拼接文本中,抽取出对白语句相对应的角色名称在拼接文本中的起始位置和结束位置。
其中,在抽取出与对白语句相对应的角色名称在拼接文本中的起始位置和结束位置之前,可先确定对白语句相对应的角色名称。
其中,在本申请的实施例中,可针对电子文本的故事情节预先设置多种角色名称,并按照人物标识与角色名称的对应关系,进行存储。例如,当确定对白语句中的说话者后,可根据该说话者的人物标识,确定对应的角色名称。
在本申请的一个实施例中,获取到拼接文本,可将拼接文本输入到信息抽取模型中,以得到与对白语句相对应的角色名称在拼接文本中的起始位置和结束位置。
举例而言,获取到拼接文本,可将拼接文本输入到命名实体模型中,命名实体模型可对拼接文本进行角色名称识别,以便识别出白语句相对应的角色名称,进而通过遍历拼接文本,得到对白语句相对应的角色名称在拼接文本中的起始位置和结束位置。
S203、根据位置信息,确定与对白语句相对应的第一候选角色名称。
在本申请的一个实施例中,可从拼接文本中提取出在起始位置和结束位置之间的目标文本,根据目标文本,确定与对白语句相对应的第一候选角色名称。
作为一种可能的实现方式,在获取目标文本后,可基于命名实体模型、新词发现模型、同义词词林模型等方式,对目标文本进行分析,以确定与对白语句相对应的第一候选角色名称。例如,拼接文本为:看着李四,武当派开山祖师轻声说道:“你好。”根据位置信息,确定目标文本为“武当派开山祖师”,根据角色名称与关键词之间的关系,假设“武当派开山祖师”对应的角色名称为“张三丰”,此时,可将“张三丰”作为对白语句相对应的一个候选角色名称。
S204、获取拼接文本中出现过的角色名称。
在本申请的一个实施例中,可通过遍历拼接文本,以便获取拼接文本中出现过的角色名称。
在本申请的另一个实施例中,可获取对白语句所在的文档,然后获取文档对应的角色名称集合,其中,角色名称集合包括多个第三候选角色名称,之后针对每个第三候选角色名称,在拼接文本中存在与第三候选角色名称对应的关键词的情况下,将第三候选角色名称作为在拼接文本中出现过的角色名称。
S205、将角色名称和拼接文本输入到角色分类模型中,以得到角色名称作为与对白语句的角色名称的概率。
其中,角色分类模型包括输入层、语义表示层和分类层,所述语义表示层包括预训练语言子模型,所述分类层包括分类子模型。
在本申请的一个实施例中,获取到拼接文本中出现过的角色名称,可将角色名称和拼接文本输入到角色分类模型中,以得到角色名称作为与对白语句的角色名称的概率。
其中,可通过角色分类模型中的输入层,对角色名称和拼接文本进行拼接,以得到中间拼接文本,然后将中间拼接文本输入到语义表示层中预训练语言子模型,以得到中间拼接文本的语义特征信息,之后将语义特征信息输入到分类层中的分类子模型中,以得到角色名称作为与对白语句的角色名称的概率。
其中,在本申请的实施例中,可采用BERT(Bidirectional EncoderRepresentation from Transformers,来自变换器的双向编码器表征量)预训练语言子模型,以便增强字的语义表示,可根据字的上下文动态生成语义向量,有效表征了字的多义性,提高了中文命名实体识别的精度,且与基于语言模型微调的方法相比减少了训练参数,节省了训练时间。
其中,在本申请的实施例中,分类子模型通常使用可以实现分类的机器学习模型实现,如集成树模型、贝叶斯模型、决策树模型等;模型在进行分类过程中,通常会以数值的形式输出语义特征信息的分类结果,该分类结果即为语义特征信息对应的分类值。以集成树模型为例,该模型中包含有多层分支,根据语义特征信息与各层分支的匹配程度,将语义特征信息逐步划分,直至到达分支末端(也可以称为叶子节点值),该分支末端对应的权重值,即语义特征信息的分类值。其中,语义特征信息的分类值可理解为角色名称作为与对白语句的角色名称的概率值。
S206、根据角色名称的概率,确定与对白语句相对应的第二候选角色名称。
在本申请的一个实施例中,得到角色名称作为与对白语句的角色名称的概率,可将出现概率较高的角色名称,作为对白语句相对应的第二候选角色名称。
在本申请的一个实施例中,角色名称存在多个角色名称时,可从多个角色名称中选择概率最大的角色名称。
S207、获取对白语句所在文档对应的角色名称集合。
在本申请的一个实施例中,可通过获取文档所对应的角色数据,将角色数据中的所有角色作为与所述对白对话相对应的候选角色名称集合。
S208、确定角色名称集合中存在与第一候选角色名称相同的角色名称,且存在与第二候选角色名称相同的角色名称。
也就是说,获取到对白语句所在文档对应的角色名称集合,可从角色名称集合中查找与第一候选角色名称相同的角色名称,与第二候选角色名称相同的角色名称。
举例而言,可通过遍历角色名称集合,查找与第一候选角色名称的标识信息相同的标识信息,与第二候选角色名称的标识信息相同的标识信息,进而可确定与第一候选角色名称相同的角色名称,与第二候选角色名称相同的角色名称。
S209、在第一候选角色名称和第二候选角色名称相同的情况下,从第一候选角色名称和第二候选角色名称中,随机选择一个作为与对白语句相对应的目标角色名称,并根据目标角色名称对对白语句进行角色标注。
在本申请的一个实施例中,在第一候选角色名称和第二候选角色名称不相同的情况下,可获取第一候选角色名称在预设的字典排序中的第一排序,并获取第二候选角色名称在字典排序中的第二排序,然后根据第一排序和第二排序,对第一候选角色名称和第二候选角色名称进行排序,以得到排序结果,之后在根据排序结果,确定第一候选角色名称排在第二候选角色名称之前的情况下,选择第一候选角色名称作为目标角色名称,并根据目标角色名称对对白语句进行角色标注。
其中,在本申请的一个实施例中,在根据排序结果,确定第二候选角色名称排在第一候选角色名称之前的情况下,选择第二候选角色名称作为目标角色名称,并根据目标角色名称对对白语句进行角色标注。
在本申请的一个实施例中,如图3所示,将拼接文本输入至信息抽取模型中,其中,信息抽取模型可以为1个或多个,例如可通过多个信息抽取模型对拼接文本中的角色名称进行抽取,以得到多个第一候选角色名称,即每个信息抽取模型中可抽取出多个第一候选角色名称;
在获取拼接文本中出现过的角色名称,将角色名称和拼接文本输入到角色分类模型中,其中,角色分类模型可以为1个或多个,例如可通过多个角色分类模型对角色名称和拼接文本进行处理,以得到多个第二候选角色名称,即每个角色分类模型中可得到出多个第二候选角色名称。进而根据多个第一候选角色名称和多个第二候选角色名称,确定对白语句相对应的目标角色名称,并根据目标角色名称对对白语句进行标注。
根据本申请实施例的角色标注方法,获取待标注的对白语句以及对应的上下文信息,并对上下文信息和对白语句进行拼接,以得到拼接文本,可将拼接文本输入到信息抽取模型中,以得到与对白语句相对应的角色名称在拼接文本中的位置信息,根据位置信息,确定与对白语句相对应的第一候选角色名称,之后通过获取拼接文本中出现过的角色名称,将角色名称和拼接文本输入到角色分类模型中,以得到角色名称作为与对白语句的角色名称的概率,并根据角色名称的概率,确定与对白语句相对应的第二候选角色名称,然后根据第一候选角色名称和第二候选角色名称,确定与对白语句相对应的目标角色名称,并根据目标角色名称对对白语句进行角色标注,由此,通过将拼接文本输入到信息抽取模型中,以便确定与对白语句相对应的第一候选角色名称,通过确定拼接文本中出现过的角色名称,将角色名称和拼接文本输入到角色分类模型中,进而确定与对白语句相对应的第二候选角色名称,通过判断第一候选角色名称和第二候选角色名称在相同情况下,随机选择一个作为与对白语句相对应的目标角色名称,以便根据目标角色名称实现对对白语句进行自动化角色标注,节省了人工成本和时间,进而提高了标注效率,避免了采用人工方式进行角色标注,导致的人工标注成本高、人工标注时间长,进而导致标注效率低的问题。
与上述几种实施例提供的角色标注方法相对应,本申请的一种实施例还提供一种角色标注装置,由于本申请实施例提供的角色标注装置与上述几种实施例提供的角色标注方法相对应,因此在角色标注方法的实施方式也适用于本实施例提供的角色标注装置,在本实施例中不再详细描述。图4~图6是根据本申请一个实施例的角色标注装置的结构示意图。
如图4所示,该角色标注装置400包括:第一获取模块401、第二获取模块402、第一确定模块403、第二确定模块404和第一执行模块405。其中:
第一获取模块401,用于获取待标注的对白语句以及对应的上下文信息,并对所述上下文信息和所述对白语句进行拼接,以得到拼接文本;作为一种示例,第一获取模块401用于:将所述拼接文本输入到信息抽取模型中,以得到与所述对白语句相对应的角色名称在所述拼接文本中的位置信息。
第二获取模块402,用于从所述拼接文本中,抽取出与所述对白语句相对应的角色名称在所述拼接文本中的位置信息。
第一确定模块403,用于根据所述位置信息,确定与所述对白语句相对应的第一候选角色名称;作为一种示例,第一确定模块403用于从所述拼接文本中提取出在所述起始位置和所述结束位置之间的目标文本;以及根据所述目标文本,确定与所述对白语句相对应的第一候选角色名称。
第二确定模块404,用于从所述拼接文本中出现过的角色名称中,确定与所述对白语句相对应的第二候选角色名称;作为一种示例,如图5所示,第二确定模块404,包括:第一获取单元4041,用于获取所述拼接文本中出现过的所述角色名称;第一输入单元4042,用于将所述角色名称和所述拼接文本输入到角色分类模型中,以得到所述角色名称作为与所述对白语句的角色名称的概率;第一确定单元4043,用于根据所述角色名称的所述概率,确定与所述对白语句相对应的第二候选角色名称。
在本申请的实施例中,第一获取单元4041,用于:获取所述对白语句所在的文档;获取所述文档对应的角色名称集合,其中,所述角色名称集合包括多个第三候选角色名称;针对每个所述第三候选角色名称,在所述拼接文本中存在与所述第三候选角色名称对应的关键词的情况下,将所述第三候选角色名称作为在所述拼接文本中出现过的角色名称。
在本申请的实施例中,所述角色分类模型包括输入层、语义表示层和分类层,所述语义表示层包括预训练语言子模型,所述分类层包括分类子模型,其中,第一输入单元4042,用于通过所述输入层对所述角色名称和所述拼接文本进行拼接,以得到中间拼接文本;将中间拼接文本输入到所述预训练语言子模型,以得到所述中间拼接文本的语义特征信息;以及将所述语义特征信息输入到所述分类子模型中,以得到所述角色名称作为与所述对白语句的角色名称的概率。
第一执行模块405,用于根据所述第一候选角色名称和所述第二候选角色名称,确定与所述对白语句相对应的目标角色名称,并根据所述目标角色名称对所述对白语句进行角色标注。作为一种示例,如图6所示,第一执行模块405,包括:第二获取单元4051,获取所述对白语句所在的文档;第三获取单元4052,用于获取所述文档对应的角色名称集合;第二确定单元4053,用于确定所述角色名称集合中存在与所述第一候选角色名称相同的角色名称,且存在与所述第二候选角色名称相同的角色名称;第三确定单元4054,用于在所述第一候选角色名称和所述第二候选角色名称相同的情况下,从所述第一候选角色名称和所述第二候选角色名称中,随机选择一个作为与所述对白语句相对应的目标角色名称。
在本申请的实施例中,第一执行模块405还包括:第四获取单元,用于在所述第一候选角色名称和所述第二候选角色名称不相同的情况下,获取所述第一候选角色名称在预设的字典排序中的第一排序,并获取所述第二候选角色名称在所述字典排序中的第二排序;排序单元,用于根据所述第一排序和所述第二排序,对所述第一候选角色名称和所述第二候选角色名称进行排序,以得到排序结果;第四确定单元,用于在根据所述排序结果,确定所述第一候选角色名称排在所述第二候选角色名称之前的情况下,选择所述第一候选角色名称作为所述目标角色名称。
在本申请的实施例中,第一执行模块405还包括:第五确定单元,用于在根据所述排序结果,确定所述第二候选角色名称排在所述第一候选角色名称之前的情况下,选择所述第二候选角色名称作为所述目标角色名称。
根据本申请实施例的角色标注装置,获取待标注的对白语句以及对应的上下文信息,并对上下文信息和对白语句进行拼接,以得到拼接文本,从拼接文本中,抽取出与对白语句相对应的角色名称在拼接文本中的位置信息,根据位置信息,确定与对白语句相对应的第一候选角色名称,之后从拼接文本中出现过的角色名称中,确定与对白语句相对应的第二候选角色名称,然后根据第一候选角色名称和第二候选角色名称,确定与对白语句相对应的目标角色名称,并根据目标角色名称对对白语句进行角色标注,由此,通过从拼接文本中,确定与对白语句相对应的第一候选角色名称和第二候选角色名称,进而确定目标角色名称,以便根据目标角色名称实现对对白语句进行自动化角色标注,节省了人工成本和时间,提高了标注效率,避免了采用人工方式进行角色标注,导致的人工成本较高,且标注效率低的问题。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图7所示,是根据本申请实施例的用以实现角色标注方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的角色标注方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的角色标注方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的角色标注方法对应的程序指令/模块(例如,附图4所示的第一获取模块401、第二获取模块402、第一确定模块403、第二确定模块404和第一执行模块405)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的角色标注方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据角色标注的电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至角色标注的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用以实现角色标注方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与角色标注的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。
根据本申请实施例的技术方案,获取待标注的对白语句以及对应的上下文信息,并对上下文信息和对白语句进行拼接,以得到拼接文本;从拼接文本中,抽取出与对白语句相对应的角色名称在拼接文本中的位置信息;根据位置信息,确定与对白语句相对应的第一候选角色名称;从拼接文本中出现过的角色名称中,确定与对白语句相对应的第二候选角色名称;根据第一候选角色名称和第二候选角色名称,确定与对白语句相对应的目标角色名称,并根据目标角色名称对对白语句进行角色标注。由此,通过从拼接文本中,确定与对白语句相对应的第一候选角色名称和第二候选角色名称,进而确定目标角色名称,以便根据目标角色名称实现对对白语句进行自动化角色标注,节省了人工成本和时间,提高了标注效率,避免了采用人工方式进行角色标注,导致的人工成本较高,且标注效率低的问题。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (20)
1.一种角色标注方法,包括:
获取待标注的对白语句以及对应的上下文信息,并对所述上下文信息和所述对白语句进行拼接,以得到拼接文本;
从所述拼接文本中,抽取出与所述对白语句相对应的角色名称在所述拼接文本中的位置信息;
根据所述位置信息,确定与所述对白语句相对应的第一候选角色名称;
从所述拼接文本中出现过的角色名称中,确定与所述对白语句相对应的第二候选角色名称;
根据所述第一候选角色名称和所述第二候选角色名称,确定与所述对白语句相对应的目标角色名称,并根据所述目标角色名称对所述对白语句进行角色标注。
2.根据权利要求1所述的方法,其中,所述从所述拼接文本中出现过的角色名称中,确定与所述对白语句相对应的第二候选角色名称,包括:
获取所述拼接文本中出现过的所述角色名称;
将所述角色名称和所述拼接文本输入到角色分类模型中,以得到所述角色名称作为与所述对白语句的角色名称的概率;
根据所述角色名称的所述概率,确定与所述对白语句相对应的第二候选角色名称。
3.根据权利要求2所述的方法,其中,所述获取所述拼接文本中出现过的所述角色名称,包括:
获取所述对白语句所在的文档;
获取所述文档对应的角色名称集合,其中,所述角色名称集合包括多个第三候选角色名称;
针对每个所述第三候选角色名称;
在所述拼接文本中存在与所述第三候选角色名称对应的关键词的情况下,将所述第三候选角色名称作为在所述拼接文本中出现过的角色名称。
4.根据权利要求2所述的方法,其中,所述角色分类模型包括输入层、语义表示层和分类层,所述语义表示层包括预训练语言子模型,所述分类层包括分类子模型,其中,所述将所述角色名称和所述拼接文本输入到角色分类模型中,以得到所述角色名称作为与所述对白语句的角色名称的概率,包括:
通过所述输入层对所述角色名称和所述拼接文本进行拼接,以得到中间拼接文本;
将中间拼接文本输入到所述预训练语言子模型,以得到所述中间拼接文本的语义特征信息;以及
将所述语义特征信息输入到所述分类子模型中,以得到所述角色名称作为与所述对白语句的角色名称的概率。
5.根据权利要求1所述的方法,其中,所述根据所述第一候选角色名称和所述第二候选角色名称,确定与所述对白语句相对应的目标角色名称,包括:
获取所述对白语句所在的文档;
获取所述文档对应的角色名称集合;
确定所述角色名称集合中存在与所述第一候选角色名称相同的角色名称,且存在与所述第二候选角色名称相同的角色名称;
在所述第一候选角色名称和所述第二候选角色名称相同的情况下,从所述第一候选角色名称和所述第二候选角色名称中,随机选择一个作为与所述对白语句相对应的目标角色名称。
6.根据权利要求5所述的方法,所述方法还包括:
在所述第一候选角色名称和所述第二候选角色名称不相同的情况下,获取所述第一候选角色名称在预设的字典排序中的第一排序,并获取所述第二候选角色名称在所述字典排序中的第二排序;
根据所述第一排序和所述第二排序,对所述第一候选角色名称和所述第二候选角色名称进行排序,以得到排序结果;
在根据所述排序结果,确定所述第一候选角色名称排在所述第二候选角色名称之前的情况下,选择所述第一候选角色名称作为所述目标角色名称。
7.根据权利要求6所述的方法,所述方法还包括:
在根据所述排序结果,确定所述第二候选角色名称排在所述第一候选角色名称之前的情况下,选择所述第二候选角色名称作为所述目标角色名称。
8.根据权利要求1所述的方法,其中,所述位置信息包括起始位置和结束位置,所述根据所述位置信息,确定与所述对白语句相对应的第一候选角色名称,包括:
从所述拼接文本中提取出在所述起始位置和所述结束位置之间的目标文本;以及
根据所述目标文本,确定与所述对白语句相对应的第一候选角色名称。
9.根据权利要求1所述的方法,其中,所述从所述拼接文本中,抽取出与所述对白语句相对应的角色名称在所述拼接文本中的位置信息,包括:
将所述拼接文本输入到信息抽取模型中,以得到与所述对白语句相对应的角色名称在所述拼接文本中的位置信息。
10.一种角色标注装置,包括:
第一获取模块,用于获取待标注的对白语句以及对应的上下文信息,并对所述上下文信息和所述对白语句进行拼接,以得到拼接文本;
第二获取模块,用于从所述拼接文本中,抽取出与所述对白语句相对应的角色名称在所述拼接文本中的位置信息;
第一确定模块,用于根据所述位置信息,确定与所述对白语句相对应的第一候选角色名称;
第二确定模块,用于从所述拼接文本中出现过的角色名称中,确定与所述对白语句相对应的第二候选角色名称;
第一执行模块,用于根据所述第一候选角色名称和所述第二候选角色名称,确定与所述对白语句相对应的目标角色名称,并根据所述目标角色名称对所述对白语句进行角色标注。
11.根据权利要求10所述的装置,其中,第二确定模块,包括:
第一获取单元,用于获取所述拼接文本中出现过的所述角色名称;
第一输入单元,用于将所述角色名称和所述拼接文本输入到角色分类模型中,以得到所述角色名称作为与所述对白语句的角色名称的概率;
第一确定单元,用于根据所述角色名称的所述概率,确定与所述对白语句相对应的第二候选角色名称。
12.根据权利要求11所述的装置,其中,所述第一获取单元,具体用于:
获取所述对白语句所在的文档;
获取所述文档对应的角色名称集合,其中,所述角色名称集合包括多个第三候选角色名称;
针对每个所述第三候选角色名称,
在所述拼接文本中存在与所述第三候选角色名称对应的关键词的情况下,将所述第三候选角色名称作为在所述拼接文本中出现过的角色名称。
13.根据权利要求11所述的装置,其中,所述角色分类模型包括输入层、语义表示层和分类层,所述语义表示层包括预训练语言子模型,所述分类层包括分类子模型,其中,所述第一输入单元,具体用于:
通过所述输入层对所述角色名称和所述拼接文本进行拼接,以得到中间拼接文本;
将中间拼接文本输入到所述预训练语言子模型,以得到所述中间拼接文本的语义特征信息;以及
将所述语义特征信息输入到所述分类子模型中,以得到所述角色名称作为与所述对白语句的角色名称的概率。
14.根据权利要求10所述的装置,其中,所述第一执行模块,包括:
第二获取单元,获取所述对白语句所在的文档;
第三获取单元,获取所述文档对应的角色名称集合;
第二确定单元,用于确定所述角色名称集合中存在与所述第一候选角色名称相同的角色名称,且存在与所述第二候选角色名称相同的角色名称;
第三确定单元,用于在所述第一候选角色名称和所述第二候选角色名称相同的情况下,从所述第一候选角色名称和所述第二候选角色名称中,随机选择一个作为与所述对白语句相对应的目标角色名称。
15.根据权利要求14所述的装置,所述第一执行模块还包括:
第四获取单元,用于在所述第一候选角色名称和所述第二候选角色名称不相同的情况下,获取所述第一候选角色名称在预设的字典排序中的第一排序,并获取所述第二候选角色名称在所述字典排序中的第二排序;
排序模块,用于根据所述第一排序和所述第二排序,对所述第一候选角色名称和所述第二候选角色名称进行排序,以得到排序结果;
第四确定单元,用于在根据所述排序结果,确定所述第一候选角色名称排在所述第二候选角色名称之前的情况下,选择所述第一候选角色名称作为所述目标角色名称。
16.根据权利要求15所述的装置,所述第一执行模块还包括:
第五确定单元,用于在根据所述排序结果,确定所述第二候选角色名称排在所述第一候选角色名称之前的情况下,选择所述第二候选角色名称作为所述目标角色名称。
17.根据权利要求10所述的装置,所述第一确定模块,具体用于:
从所述拼接文本中提取出在起始位置和结束位置之间的目标文本;以及
根据所述目标文本,确定与所述对白语句相对应的第一候选角色名称。
18.根据权利要求10所述的装置,所述第一获取模块,具体用于:
将所述拼接文本输入到信息抽取模型中,以得到与所述对白语句相对应的角色名称在所述拼接文本中的位置信息。
19.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的角色标注方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的角色标注方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011098949.1A CN112270167B (zh) | 2020-10-14 | 2020-10-14 | 角色标注方法、装置、电子设备和存储介质 |
JP2021122253A JP2021170394A (ja) | 2020-10-14 | 2021-07-27 | 役割のラベル付け方法、役割のラベル付け装置、電子機器及び記憶媒体 |
US17/450,595 US11907671B2 (en) | 2020-10-14 | 2021-10-12 | Role labeling method, electronic device and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011098949.1A CN112270167B (zh) | 2020-10-14 | 2020-10-14 | 角色标注方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112270167A CN112270167A (zh) | 2021-01-26 |
CN112270167B true CN112270167B (zh) | 2022-02-08 |
Family
ID=74338061
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011098949.1A Active CN112270167B (zh) | 2020-10-14 | 2020-10-14 | 角色标注方法、装置、电子设备和存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11907671B2 (zh) |
JP (1) | JP2021170394A (zh) |
CN (1) | CN112270167B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270198B (zh) * | 2020-10-27 | 2021-08-17 | 北京百度网讯科技有限公司 | 角色确定方法、装置、电子设备及存储介质 |
CN112906380B (zh) * | 2021-02-02 | 2024-09-27 | 北京有竹居网络技术有限公司 | 文本中角色的识别方法、装置、可读介质和电子设备 |
CN112906381B (zh) * | 2021-02-02 | 2024-05-28 | 北京有竹居网络技术有限公司 | 对话归属的识别方法、装置、可读介质和电子设备 |
CN112861509B (zh) * | 2021-02-08 | 2023-05-12 | 青牛智胜(深圳)科技有限公司 | 基于多头注意力机制的角色分析方法及系统 |
CN112989822B (zh) * | 2021-04-16 | 2021-08-27 | 北京世纪好未来教育科技有限公司 | 识别对话中句子类别的方法、装置、电子设备和存储介质 |
CN114822812B (zh) * | 2022-04-11 | 2024-09-13 | 平安科技(深圳)有限公司 | 角色对话模拟方法、装置、设备及存储介质 |
CN115034226B (zh) * | 2022-06-17 | 2024-07-23 | 北京有竹居网络技术有限公司 | 用于确定文本中说话者的方法、装置、设备和存储介质 |
CN114998631B (zh) * | 2022-08-08 | 2022-11-11 | 成都薯片科技有限公司 | 企业logo生成方法、装置及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667811A (zh) * | 2020-06-15 | 2020-09-15 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和介质 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5752016A (en) * | 1990-02-08 | 1998-05-12 | Hewlett-Packard Company | Method and apparatus for database interrogation using a user-defined table |
JPH05313685A (ja) * | 1992-05-14 | 1993-11-26 | N T T Data Tsushin Kk | 文章読み上げ装置 |
JPH0772888A (ja) * | 1993-09-01 | 1995-03-17 | Matsushita Electric Ind Co Ltd | 情報処理装置 |
JPH08248971A (ja) * | 1995-03-09 | 1996-09-27 | Hitachi Ltd | テキスト朗読読み上げ装置 |
JP5699789B2 (ja) * | 2011-05-10 | 2015-04-15 | ソニー株式会社 | 情報処理装置、情報処理方法、プログラム及び情報処理システム |
CN107632987B (zh) * | 2016-07-19 | 2018-12-07 | 腾讯科技(深圳)有限公司 | 一种对话生成方法及装置 |
US10170119B2 (en) * | 2017-05-18 | 2019-01-01 | International Business Machines Corporation | Identifying speaker roles in a streaming environment |
CN108091321B (zh) * | 2017-11-06 | 2021-07-16 | 芋头科技(杭州)有限公司 | 一种语音合成方法 |
CN107766565A (zh) * | 2017-11-06 | 2018-03-06 | 广州杰赛科技股份有限公司 | 对话角色区分方法与系统 |
US20190163691A1 (en) * | 2017-11-30 | 2019-05-30 | CrowdCare Corporation | Intent Based Dynamic Generation of Personalized Content from Dynamic Sources |
CN108735200B (zh) * | 2018-06-27 | 2020-05-29 | 北京灵伴即时智能科技有限公司 | 一种说话人自动标注方法 |
CN109101487A (zh) * | 2018-07-11 | 2018-12-28 | 广州杰赛科技股份有限公司 | 对话角色区分方法、装置、终端设备及存储介质 |
CN109658916B (zh) * | 2018-12-19 | 2021-03-09 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、存储介质和计算机设备 |
US10868785B2 (en) * | 2019-04-29 | 2020-12-15 | Microsoft Technology Licensing, Llc | Purpose detection in communications using machine learning |
CN110399461A (zh) * | 2019-07-19 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN111158630B (zh) * | 2019-12-25 | 2023-06-23 | 网易(杭州)网络有限公司 | 一种播放控制方法及装置 |
US11556716B2 (en) * | 2020-08-24 | 2023-01-17 | Intuit Inc. | Intent prediction by machine learning with word and sentence features for routing user requests |
US12001798B2 (en) * | 2021-01-13 | 2024-06-04 | Salesforce, Inc. | Generation of training data for machine learning based models for named entity recognition for natural language processing |
-
2020
- 2020-10-14 CN CN202011098949.1A patent/CN112270167B/zh active Active
-
2021
- 2021-07-27 JP JP2021122253A patent/JP2021170394A/ja active Pending
- 2021-10-12 US US17/450,595 patent/US11907671B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667811A (zh) * | 2020-06-15 | 2020-09-15 | 北京百度网讯科技有限公司 | 语音合成方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
US20220043985A1 (en) | 2022-02-10 |
US11907671B2 (en) | 2024-02-20 |
CN112270167A (zh) | 2021-01-26 |
JP2021170394A (ja) | 2021-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112270167B (zh) | 角色标注方法、装置、电子设备和存储介质 | |
CN112560912A (zh) | 分类模型的训练方法、装置、电子设备和存储介质 | |
CN110597994A (zh) | 事件元素识别方法和装置 | |
CN111967262A (zh) | 实体标签的确定方法和装置 | |
CN113553414B (zh) | 智能对话方法、装置、电子设备和存储介质 | |
CN111428514A (zh) | 语义匹配方法、装置、设备以及存储介质 | |
CN112528001B (zh) | 一种信息查询方法、装置及电子设备 | |
CN111339268A (zh) | 实体词识别方法和装置 | |
CN112528681A (zh) | 跨语言检索及模型训练方法、装置、设备和存储介质 | |
CN112541076A (zh) | 目标领域的扩充语料生成方法、装置和电子设备 | |
CN113380238A (zh) | 处理音频信号的方法、模型训练方法、装置、设备和介质 | |
CN111858883A (zh) | 三元组样本的生成方法、装置、电子设备及存储介质 | |
KR20240067971A (ko) | 음성 인식 방법, 음성 인식 장치, 전자장비, 저장매체 및 컴퓨터 프로그램 | |
CN112434492A (zh) | 文本标注方法、装置及电子设备 | |
US11947909B2 (en) | Training a language detection model for language autodetection from non-character sub-token signals | |
CN113204667A (zh) | 音频标注模型的训练与音频标注的方法、装置 | |
CN110473551B (zh) | 一种语音识别方法、装置、电子设备及存储介质 | |
CN115309994A (zh) | 地点检索方法、电子设备以及存储介质 | |
CN116257690A (zh) | 一种资源推荐方法、装置、电子设备和存储介质 | |
CN111738015A (zh) | 文章情感极性分析方法、装置、电子设备及存储介质 | |
CN112270169B (zh) | 对白角色预测方法、装置、电子设备及存储介质 | |
CN114758649B (zh) | 一种语音识别方法、装置、设备和介质 | |
CN114090885B (zh) | 产品标题核心词提取方法、相关装置及计算机程序产品 | |
CN113850290B (zh) | 文本处理及模型训练方法、装置、设备和存储介质 | |
CN113591908B (zh) | 事件指称匹配方法、模型训练方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |