CN112434492B - 文本标注方法、装置及电子设备 - Google Patents

文本标注方法、装置及电子设备 Download PDF

Info

Publication number
CN112434492B
CN112434492B CN202011148138.8A CN202011148138A CN112434492B CN 112434492 B CN112434492 B CN 112434492B CN 202011148138 A CN202011148138 A CN 202011148138A CN 112434492 B CN112434492 B CN 112434492B
Authority
CN
China
Prior art keywords
annotated
role
statement
sentence
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011148138.8A
Other languages
English (en)
Other versions
CN112434492A (zh
Inventor
王毅
白洁
潘政林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011148138.8A priority Critical patent/CN112434492B/zh
Publication of CN112434492A publication Critical patent/CN112434492A/zh
Application granted granted Critical
Publication of CN112434492B publication Critical patent/CN112434492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本标注方法、装置及电子设备,涉及深度学习、自然语言处理与人工智能技术领域。具体实现方案为:获取待标注的文本数据;对文本数据进行解析,以获取文本数据中的各个待标注语句、及每个待标注语句对应的关联语句;基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码;对每个待标注语句的语义编码进行角色预测,以确定每个待标注语句所属的角色;根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息。由此,通过这种文本标注方法,实现了同时预测对白文本的角色和角色属性信息,为AI多角色朗读提供了技术支持。

Description

文本标注方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及深度学习、自然语言处理与人工智能技术领域,提出一种文本标注方法、装置及电子设备。
背景技术
随着AI(Artificial Intelligence,人工智能)技术的发展,对白文本的角色标注的应用越来越广泛,比如,AI多角色朗读技术已被运用于多角色有声/语音小说中。
相关技术中,AI多角色朗读技术的运用需要准确并快速对对白文本中的角色及角色属性进行识别,以采用符合各角色属性的语音特征朗读相应的对白文本。
发明内容
本申请提供了一种用于文本标注的方法、装置、电子设备、存储介质以及计算机程序产品。
根据本申请的一方面,提供了一种文本标注方法,包括:获取待标注的文本数据;对所述文本数据进行解析,以获取所述文本数据中的各个待标注语句、及每个待标注语句对应的关联语句;基于每个所述待标注语句及对应的关联语句,构建每个所述待标注语句的语义编码;对每个所述待标注语句的语义编码进行角色预测,以确定每个所述待标注语句所属的角色;根据每个所述待标注语句所属的角色及对应的语义编码,确定每个所述待标注语句所属角色的属性信息。
根据本申请的另一方面,提供了一种文本标注装置,包括:第一获取模块,用于获取待标注的文本数据;第二获取模块,用于对所述文本数据进行解析,以获取所述文本数据中的各个待标注语句、及每个待标注语句对应的关联语句;构建模块,用于基于每个所述待标注语句及对应的关联语句,构建每个所述待标注语句的语义编码;第一确定模块,用于对每个所述待标注语句的语义编码进行角色预测,以确定每个所述待标注语句所属的角色;第二确定模块,用于根据每个所述待标注语句所属的角色及对应的语义编码,确定每个所述待标注语句所属角色的属性信息。
根据本申请的再一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前所述的文本标注方法。
根据本申请的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如前所述的文本标注方法。
根据本申请的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如前所述的文本标注方法。
根据本申请的技术方案,解决了相关技术中,AI多角色朗读技术的运用需要准确并快速对对白文本中的角色及角色属性进行识别,以采用符合各角色属性的语音特征朗读相应的对白文本的问题。通过对待标注的文本数据进行解析,以获取待标注的文本数据中的各个待标注语句及每个待标注语句对应的关联语句,并基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码,之后对每个待标注语句的语义编码进行角色预测,以确定每个待标注语句所属的角色,进而根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息。由此,通过根据待标注语句及与其关联的上下文信息的语义表示,对待标注语句的角色进行预测,并在预测待标注语句的角色属性时,融入待标注语句所属的角色信息,从而实现了同时预测对白文本的角色和角色属性信息,为AI多角色朗读提供了技术支持。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例所提供的一种文本标注方法的流程示意图;
图2为本申请实施例所提供的另一种文本标注方法的流程示意图;
图3为本申请实施例所提供的再一种文本标注方法的流程示意图;
图4为本申请实施例所提供的又一种文本标注方法的流程示意图;
图5为本申请实施例所提供的又一种文本标注方法的流程示意图;
图6为本申请实施例提供的一种文本标注装置的结构示意图;
图7为用来实现本申请实施例的文本标注方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
以下对本申请的方案涉及的技术领域进行简要说明:
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
深度学习是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。
本申请实施例针对相关技术中,AI多角色朗读技术的运用需要准确并快速对对白文本中的角色及角色属性进行识别,以采用符合各角色属性的语音特征朗读相应的对白文本的问题,提出一种文本标注方法。
下面参考附图对本申请提供的文本标注方法、装置、电子设备存储介质及计算机程序产品进行详细描述。
图1为本申请实施例所提供的一种文本标注方法的流程示意图。
如图1所示,该文本标注方法,包括以下步骤:
步骤101,获取待标注的文本数据。
需要说明的是,本申请实施例的文本标注方法可以由本申请实施例的文本标注装置执行,本申请实施例的文本标注装置可以配置在任意电子设备中,以执行本申请实施例的文本标注方法。
其中,待标注的文本数据,可以包括小说、新闻、剧本等包含大量对白的文学作品,但不仅限于此。
在本申请实施例中,本申请实施例的文本标注装置所在的电子设备可以获取用户发送的文本数据标注指令,并可以对文本数据标注指令进行解析处理,以获取文本数据标注指令中包含的待标注的文本数据。
步骤102,对文本数据进行解析,以获取文本数据中的各个待标注语句、及每个待标注语句对应的关联语句。
其中,待标注语句,可以是指待标注的文本数据中包含的对白语句。待标注语句对应的关联语句,可以是指待标注语句在待标注的文本数据中的上下文信息。
作为一种可能的实现方式,可以对待标注的文本数据进行标点符号识别,以确定出引号(包括“”和竖体排版引号「」、『』)等可以对对白语句进行标示的标点符号的位置,进而根据引号的位置,将处于每对引号之间的文本确定为一条待标注语句。
可以理解的是,由于对白语句本身可能无法完整表征对白语句所属的角色信息,而对白语句的上下文信息可能大概率包含对白语句所属的角色信息。因此,确定出待标注的文本数据中的各个待标注语句之后,可以根据各个待标注语句在待标注的文本数据中的上下文信息,确定各待标注语句对应的关联语句,以通过待标注语句与其对应的关联语句共同确定待标注语句所属的角色,以提升角色标注的准确性。
作为一种可能的实现方式,可以预设的窗口长度,并将待标注语句作为窗口中的,进而可以将待标注的文本数据中处于预设窗口长度范围内的各语句,确定为待标注语句对应的关联语句。其中,窗口长度的单位为句子。
举例来说,假设预设的窗口长度为3,则可以将待标注的文本数据中位于待标注语句t之前的一句话prev_t、以及位于待标注语句之后的一句话post_t,确定为待标注语句对应的关联语句。之后,即可以利用prev_t、t、post_t共同确定待标注语句t所属的角色和角色属性信息。
步骤103,基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码。
其中,待标注语句的语义编码,是指可以对待标注语句及其对应的关联语句的语义信息进行表示的向量。
在本申请实施例中,可以利用自然语言处理模型对待标注语句及其对应的关联语句进行识别处理,以生成待标注语句及其对应的关联语句的向量表示,进而对待标注语句及其对应的关联语句的向量表示进行语义识别,以确定待标注对应的语义编码。
步骤104,对每个待标注语句的语义编码进行角色预测,以确定每个待标注语句所属的角色。
在本申请实施例中,可以预先构建多任务学习模型,从而在确定出待标注语句的语义编码之后,可以将待标注语句的语义编码输入多任务学习模型的角色预测模块,以使多任务学习模型输出待标注语句所属的角色的起始字符与结束字符分别在待标注语句及其对应的关联语句中的位置,进而根据待标注语句所属的角色的起始字符与结束字符的位置,从待标注语句及其对应的关联语句中获取待标注语句所属的角色。
步骤105,根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息。
其中,待标注语句所属角色的属性信息,可包括性别、年龄、职业等信息,但不仅限于此。实际使用时,可以根据实际需要及具体的应用场景,确定所属角色的属性信息中包含的信息类型,本申请实施例对此不做限定。
作为一种可能的实现方式,由于待标注语句所属角色的角色名对于属性信息标注任务来说,是一个很强的特征;比如,角色名为王刚,则该角色的性别大概率为男性;角色名为老杰克,则该角色的年龄大概率为老年。因此,可以在预测待标注语句所属角色的属性信息时,引入待标注语句所属角色的角色名信息,以提升角色属性信息预测的准确度。
具体的,可以对待标注语句所属角色的角色名信息进行向量表示,并将待标注语句所属角色的角色名信息的向量表示与待标注语句的语义编码进行融合,进而将融合后的向量输入多任务学习模型的角色属性信息预测模块,以使多任务学习模型输出待标注语句所属角色的属性信息。
需要说明的是,将待标注语句所属角色的角色名信息的向量表示与待标注语句的语义编码进行融合,可以是将待标注语句所属角色的角色名信息的向量表示与待标注语句的语义编码进行拼接,也可以是确定待标注语句所属角色的角色名信息的向量表示与待标注语句的语义编码的加权和。实际使用时,可以根据实际需要及具体的应用场景选择合适的融合方式,本申请实施例对此不做限定。
需要说明的是,在构建多任务学习模型时,角色预测子任务与角色属性信息预测子任务可以预先建立固定的类别标签,将其建模为文本分类任务。比如,角色预测子任务对应的类别标签可以包括:人物A、人物B、人物C等等;角色属性信息预测子任务对应的类别标签可以包括:男-幼年、男-青年、男-中年、男-老年、女-幼年、女-青年、女-中年、女-老年,等等。
根据本申请实施例的技术方案,通过对待标注的文本数据进行解析,以获取待标注的文本数据中的各个待标注语句及每个待标注语句对应的关联语句,并基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码,之后对每个待标注语句的语义编码进行角色预测,以确定每个待标注语句所属的角色,进而根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息。由此,通过根据待标注语句及与其关联的上下文信息的语义表示,对待标注语句的角色进行预测,并在预测待标注语句的角色属性时,融入待标注语句所属的角色信息,从而实现了同时预测对白文本的角色和角色属性信息,为AI多角色朗读提供了技术支持。
在本申请一种可能的实现形式中,还可以对待标注语句的情感倾向进行预测,以为AI多角色多情感朗读提供技术支持。
下面结合图2,对本申请实施例提供的文本标注方法进行进一步说明。
图2为本申请实施例所提供的另一种文本标注方法的流程示意图。
如图2所示,该文本标注方法,包括以下步骤:
步骤201,获取待标注的文本数据。
步骤202,对文本数据进行解析,以获取文本数据中的各个待标注语句、及每个待标注语句对应的关联语句。
步骤203,基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码。
步骤204,对每个待标注语句的语义编码进行角色预测,以确定每个待标注语句所属的角色。
步骤205,根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息。
上述步骤201-205的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤206,根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句的情感倾向。
其中,待标注语句的情感倾向,可以包括高兴、悲伤、愤怒、担忧、惊讶、惊喜等情感,但不仅限于此。实际使用时,多任务学习模型中的情感倾向预测子任务可以根据输入模型的数据预测出任意的情感标签,即可以不在情感倾向预测子任务中预设情感标签类别。
在本申请实施例中,若待标注语句与其对应的关联语句中包含多个情感词,容易导致情感倾向预测不准确,从而可以在进行情感倾向预测时,引入待标注语句所属的角色特征,以提升情感倾向预测的准确性。
在本申请实施例一种可能的实现形式中,上述步骤206,可以包括:
根据每个待标注语句所属的角色的位置信息及对应的语义编码,确定每个待标注语句所属角色的角色名编码;
将每个角色名编码进行池化处理,以获取每个待标注语句对应的第一参考编码;
确定每个待标注语句的语义编码中,与每个待标注语句中的字符对应的第一编码片段;
对每个第一编码片段进行池化处理,以确定每个待标注语句对应的第二参考编码;
对每个待标注语句对应的第一参考编码及第二参考编码进行解码处理,以确定每个待标注语句对应的情感倾向。
作为一种可能的实现方式,可以根据角色预测子模型输出的待标注语句所属的角色的位置信息与待标注语句对应的语义编码,确定待标注语句所属角色的角色名编码。可选的,若待标注语句对应的语义编码为H,待标注语句所属的角色的位置信息包括:起始字符位置为P_rs,结束字符位置为P_re,则可以将H_r=(P_rs+P_re)×H确定为待标注语句所属角色的角色名编码。
之后,可以对角色名编码H_r进行池化处理,以确定待标注语句对应的第一参考编码H_r_pool。其中,池化处理可以为最大值池化、平均池化等,本申请实施例对此不做限定。
在本申请实施例中,由于待标注语句本身的语义信息与关联语句相比,能够更加准确的表达待标注语句所属角色的情感倾向,从而可以从待标注语句的语义编码中,获取待标注语句中的各字符对应的第一编码片段,以用于情感倾向预测。比如,待标注语句的语义编码为H=(h1,h2,h3,h4,h5),待标注语句中的字符为第2、3、4个字符,则可以确定第一编码片段为H_t=(h2,h3,h4)。之后,可以对第一编码片段H_t进行池化处理,以确定待标注语句对应的第二参考编码H_t_pool。比如,第一编码片段H_t=(h2,h3,h4),池化处理为最大值池化,则第二参考编码H_t_pool=max(h2,h3,h4)。
在本申请实施例中,确定出第一参考编码H_r_pool与第二参考编码H_t_pool之后,可以将第一参考编码H_r_pool与第二参考编码H_t_pool进行拼接处理,并将拼接结果输入多层全连接神经网络层(Dense层)进行融合,进而将Dense层输出的融合结果输入多任务学习模型的情感倾向预测模块,以对待标注语句对应的情感倾向进行预测。
根据本申请实施例的技术方案,通过对待标注的文本数据进行解析,以获取待标注的文本数据中的各个待标注语句及每个待标注语句对应的关联语句,并基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码,之后对每个待标注语句的语义编码进行角色预测,以确定每个待标注语句所属的角色,进而根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息与情感倾向。由此,通过根据待标注语句及与其关联的上下文信息的语义表示,对待标注语句的角色进行预测,并在预测待标注语句的角色属性与情感倾向时,融入待标注语句所属的角色信息,从而实现了同时预测对白文本的角色、角色属性信息、情感倾向,进一步提升了文本标注的实用性和通用性。
在本申请一种可能的实现形式中,确定出待标注语句所属角色对应的属性信息之后,若同一角色对应的属性信息不同,则还可以对角色对应的属性信息进行归一化,以进一步提升角色属性信息预测的准确性。
下面结合图3,对本申请实施例提供的文本标注方法进行进一步说明。
图3为本申请实施例所提供的再一种文本标注方法的流程示意图。
如图3所示,该文本标注方法,包括以下步骤:
步骤301,获取待标注的文本数据。
步骤302,对文本数据进行解析,以获取文本数据中的各个待标注语句、及每个待标注语句对应的关联语句。
步骤303,基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码。
步骤304,对每个待标注语句的语义编码进行角色预测,以确定每个待标注语句所属的角色。
步骤305,根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息。
上述步骤301-305的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤306,将待标注文本中每个角色对应的属性信息进行归一化处理。
在本申请实施例中,由于待标注的文本数据中,很多对白语句可以是同一个角色说的,因此确定出每个待标注语句所属的角色之后,多个待标注语句所属的角色可能是相同的。但是,由于待标注语句本身的差异性,容易导致同一角色对应的多个待标注语句对应的属性信息不同,从而降低了角色属性信息预测的准确性。因此,确定出待标注语句所属角色的属性信息之后,可以对每个角色对应的属性信息进行归一化,以保证相同角色的属性信息保持一致,进而提升了角色属性信息预测的准确性。
作为一种可能的实现方式,对于同一角色,其属性信息出现的频率越高,说明该属性信息越可靠。即在本申请实施例一种可能的实现形式中,上述步骤306,可以包括:
在任一角色对应多种属性信息的情况下,将多种属性信息中出现频次最高的属性信息,确定为任一角色对应的属性信息。
在本申请实施例中,由于对于对应多种属性信息的同一角色,出现频率越高的属性信息,说明该属性信息越可靠。从而,可以对对应多种属性信息的角色进行统计分析,以确定该角色对应的各属性信息,以及各属性信息分别对应的出现频率,并将出现频率最高的属性信息确定为该角色对应的属性信息,从而提升了角色属性信息预测的准确性和可靠性。
根据本申请实施例的技术方案,通过对待标注的文本数据进行解析,以获取待标注的文本数据中的各个待标注语句及每个待标注语句对应的关联语句,并基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码,之后对每个待标注语句的语义编码进行角色预测,以确定每个待标注语句所属的角色,进而根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息,并将待标注文本中每个角色对应的属性信息进行归一化处理。由此,通过在预测待标注语句的角色属性时,融入待标注语句所属的角色信息,并对对应多个属性信息的角色的属性信息进行归一化,从而不仅实现了同时预测对白文本的角色和角色属性信息,而且进一步提升了角色属性信息预测的准确性和可靠性。
在本申请一种可能的实现形式中,对角色对应的属性信息进行归一化时,还可以根据角色对应的各属性信息的置信度,确定角色对应的属性信息,以进一步提升角色属性信息预测的准确性。
下面结合图4,对本申请实施例提供的文本标注方法进行进一步说明。
图4为本申请实施例所提供的又一种文本标注方法的流程示意图。
如图4所示,该文本标注方法,包括以下步骤:
步骤401,获取待标注的文本数据。
步骤402,对文本数据进行解析,以获取文本数据中的各个待标注语句、及每个待标注语句对应的关联语句。
步骤403,基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码。
步骤404,对每个待标注语句的语义编码进行角色预测,以确定每个所述待标注语句所属的角色。
上述步骤401-404的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤405,根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息、及属性信息的置信度。
在本申请实施例中,还可以多任务学习模型中构建可以同时输出角色的属性信息与属性信息的置信度的角色属性信息预测模块,从而利用角色属性信息预测模型对待标注语句所属的角色及对应的语义编码进行识别处理,以输出待标注语句所属角色的属性信息,以及属性信息的置信度。其中,属性信息的置信度越大,说明该属性信息的可靠性越高;反之,说明该属性信息的可靠性越低。
上述步骤405的其他具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤406,在任一角色对应多种属性信息的情况下,确定任一角色对应的每种属性信息的置信度和。
步骤407,将置信度和最高的属性信息,确定为任一角色对应的属性信息。
在本申请实施例中,由于属性信息的置信度越大,说明该属性信息的可靠性越高,因此对于对应多种属性信息的角色,可以根据该角色对应的每种属性信息的置信度,确定该角色归一化之后对应的属性信息。
具体的,对于对应多种属性信息的角色,可以确定该角色对应的每种属性信息的置信度和,并将置信度和最高的属性信息,确定为该角色对应的属性信息,从而将角色对应的属性信息归一化为可靠性最高的属性信息,进一步提升了角色属性信息预测的准确性和可靠性。
根据本申请实施例的技术方案,通过对待标注的文本数据进行解析,以获取待标注的文本数据中的各个待标注语句及每个待标注语句对应的关联语句,并基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码,之后对每个待标注语句的语义编码进行角色预测,以确定每个待标注语句所属的角色,进而根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息及属性信息对应的置信度,并将每个角色对应的属性信息进行归一化置信度最高的属性信息。由此,通过在预测待标注语句的角色属性时,融入待标注语句所属的角色信息,并根据角色对应的各种属性信息的置信度对角色的属性信息进行归一化,从而不仅实现了同时预测对白文本的角色和角色属性信息,而且进一步提升了角色属性信息预测的准确性和可靠性。
在本申请一种可能的实现形式中,可以通过多层上下文感知确定蕴含了待标注文本的语义信息的语义编码,并利用待标注文本的语义编码获得待标注文本的高阶语义信息,以进一步提升角色预测与角色属性信息预测的准确度。
下面结合图5,对本申请实施例提供的文本标注方法进行进一步说明。
图5为本申请实施例所提供的又一种文本标注方法的流程示意图。
如图5所示,该文本标注方法,包括以下步骤:
步骤501,获取待标注的文本数据。
步骤502,对文本数据进行解析,以获取文本数据中的各个待标注语句、及每个待标注语句对应的关联语句。
上述步骤501-502的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤503,将每个待标注语句及对应的关联语句进行向量映射,以生成每个待标注语句对应的向量表示。
作为一种可能的实现方式,可以首先将待标注语句及对应的关联语句分别进行分词处理,以确定待标注语句中包括的各分词以及对应的关联语句中包括的各分词,之后查询预设的嵌入表,查询各分词分别对应的向量表示,进而将待标注语句包括的各分词对应的向量表示进行融合,以生成待标注语句的向量表示,以及将关联语句包括的各分词对应的向量表示进行融合,以生成关联语句的向量表示,最后将待标注语句的向量表示与关联语句的向量表示进行融合,以生成待标注语句对应的向量表示。
需要说明的是,上述对向量表示的融合操作可以是对各向量表示进行拼接,也可以是将各向量表示进行相加,或者确定各向量表示的加权和,等等,本申请实施例对此不做限定。比如,可以将待标注语句包括的各分词对应的向量表示相加,以生成待标注语句的向量表示,以及将关联语句包括的各分词对应的向量表示相加,以生成关联语句的向量表示,最后将待标注语句的向量表示与关联语句的向量表示相加,以生成待标注语句对应的向量表示。
步骤504,将每个待标注语句对应的向量表示进行多层上下文感知学习,以获取每个待标注语句的语义编码。
在本申请实施例中,确定出待标注语句对应的向量表示之后,可以对待标注语句对应的向量表示进行多层上下文感知学习,以学习到待标注语句的语义信息以及待标注语句与关联语句之间的上下文关联信息,进而生成待标注语句的语义编码。其中,待标注语句的语义编码可以表示待标注语句与关联语句的语义信息和上下文关联信息。
步骤505,确定每个待标注语句的语义编码中,与每个待标注语句中的字符对应的第一编码片段。
步骤506,对每个第一编码片段进行池化处理,以确定每个待标注语句对应的第二参考编码。
在本申请实施例中,由于待标注语句本身的语义信息与关联语句相比,能够更加准确的表达待标注语句的语义信息,从而可以从待标注语句的语义编码中,获取待标注语句中的各字符对应的第一编码片段,与语义编码进行融合,以生成待标注语句对应的高阶语义信息。比如,待标注语句的语义编码为H=(h1,h2,h3,h4,h5),待标注语句中的字符为第2、3、4个字符,则可以确定第一编码片段为H_t=(h2,h3,h4)。之后,可以对第一编码片段H_t进行池化处理,以确定待标注语句对应的第二参考编码H_t_pool。比如,第一编码片段H_t=(h2,h3,h4),池化处理为最大值池化,则第二参考编码H_t_pool=max(h2,h3,h4)。
步骤507,将每个待标注语句对应的第二参考编码与语义编码进行融合,以获取每个待标注语句对应的语义信息。
在本申请实施例中,可以将待标注语句对应的第二参考编码与语义编码在时序上进行融合,以生成待标注语句对应的语义信息,即待标注对应的高阶语义信息。
作为一种可能的实现方式,可以将第二参考编码与语义编码中的每个编码片段进行拼接,以生成待标注语句对应的语义信息。
举例来说,待标注语句的语义编码为H=(h1,h2,h3),其中,h1为位于待标注语句之前的关联语句中的各字符对应的编码片段,h2为待标注语句对应的第一编码片段,h3为位于待标注语句之后的关联语句中的各字符对应的编码片段,从而将第二参考编码H_t_pool与语义编码中的每个编码片段进行拼接,生成的待标注语句对应的语义信息为Ht=(h1,H_t_pool,h2,H_t_pool,h3,H_t_pool)。
作为另一种可能的实现方式,可以将第二参考编码与语义编码中的每个编码片段相加,以生成待标注语句对应的语义信息。
举例来说,待标注语句的语义编码为H=(h1,h2,h3),其中,h1为位于待标注语句之前的关联语句中的各字符对应的编码片段,h2为待标注语句对应的第一编码片段,h3为位于待标注语句之后的关联语句中的各字符对应的编码片段,从而将第二参考编码H_t_pool与语义编码中的每个编码片段相加,生成的待标注语句对应的语义信息为Ht=(h1+H_t_pool,h2+H_t_pool,h3+H_t_pool)。
步骤508,对每个待标注语句的语义信息进行角色识别,以确定每个待标注语句所属的角色。
在本申请实施例中,可以预先构建多任务学习模型,从而在确定出待标注语句的语义信息之后,可以将待标注语句的语义信息输入多任务学习模型的角色预测模块,以使多任务学习模型输出待标注语句所属的角色的起始字符与结束字符分别在待标注语句及其对应的关联语句中的位置,进而根据待标注语句所属的角色的起始字符与结束字符的位置,从待标注语句及其对应的关联语句中获取待标注语句所属的角色。
步骤509,根据每个待标注语句所属的角色的位置信息及对应的语义编码,确定每个待标注语句所属角色的角色名编码。
作为一种可能的实现方式,可以根据角色预测子模型输出的待标注语句所属的角色的位置信息与待标注语句对应的语义编码,确定待标注语句所属角色的角色名编码。可选的,若待标注语句对应的语义编码为H,待标注语句所属的角色的位置信息包括:起始字符位置为P_rs,结束字符位置为P_re,则可以将H_r=(P_rs+P_re)×H确定为待标注语句所属角色的角色名编码。
步骤510,将每个待标注语句所属角色的角色名编码与对应的语义编码进行融合,以获取每个待标注语句对应的角色属性编码。
在本申请实实例中,确定出待标注语句所属角色的角色名编码之后,可以将待标注语句所属角色的角色名编码与对应的语义编码进行融合,以获取待标注语句对应的角色属性编码。可选的,若待标注语句对应的语义编码为H,待标注语句所属角色的角色名编码为H_r,则可以将H_g=(W1×H+W2×H_r)确定为待标注语句对应的角色属性编码。
可选的,确定出待标注语句对应的角色属性编码之后,还可以对角色属性编码H_g进行池化处理。其中,池化处理可以为最大值池化、平均池化等,本申请实施例对此不做限定。需要说明的是,对角色属性编码H_g进行池化处理的步骤是可选的。
步骤511,对每个待标注语句对应的角色属性编码进行解码处理,以获取每个待标注语句所属角色的属性信息。
作为一种可能的实现方式,确定出待标注语句对应的角色属性编码H_g之后,可以将角色属性编码H_g输入多任务学习模型的角色属性信息预测模块,以对待标注语句所属角色的属性信息进行预测。
作为另一种可能的实现方式,若确定出待标注语句对应的角色属性编码H_g之后,对角色属性编码H_g进行了池化操作,则可以将角色属性编码H_g的池化结果H_g_pool输入多任务学习模型的角色属性信息预测模块,以对待标注语句所属角色的属性信息进行预测。
进一步的,由于待标注语句的角色名中可能包含非常重要的角色属性信息,从而可以利用待标注语句中的角色名对角色属性编码进行修正,以进一步提升角色属性信息预测的准确性。即在本申请实施例一种可能的实现形式中,上述步骤511,还可以包括:
确定每个待标注语句的角色属性编码中,与每个待标注语句中的角色名对应的第二编码片段;
对每个第二编码片段进行池化处理,以确定每个待标注语句对应的第三参考编码;
将每个待标注语句对应的第三参考编码与角色属性编码进行融合,以获取每个待标注语句对应的角色属性特征;
对每个待标注语句的角色属性特征进行角色属性识别,以确定每个待标注语句所属角色的属性信息。
在本申请实施例中,由于待标注语句的角色名中可能包含非常重要的角色属性信息,从而可以从待标注语句的语义编码中,获取角色名对应的第二编码片段,与角色属性编码进行融合。比如,待标注语句的语义编码为H=(h1,h2,h3,h4,h5),待标注语句中的字符为第2、3、4个字符,角色名为第2个字符,则可以确定第二编码片段为H_p=(h2)。之后,可以对第二编码片段H_p进行池化处理,以确定待标注语句对应的第三参考编码H_p_pool。比如,第二编码片段H_t=(h2),池化处理为最大值池化,则第三参考编码H_p_pool=max(h2)。
在本申请实施例中,可以将待标注语句对应的第三参考编码与角色属性编码进行融合,以生成待标注语句对应的角色属性特征。
作为一种可能的实现方式,可以将第三参考编码与角色属性编码中的每个编码片段进行拼接,以生成待标注语句对应的角色属性特征。
举例来说,待标注语句的角色属性编码为H_g=(hg1,hg2,hg3),其中,hg1为位于待标注语句之前的关联语句中的各字符对应的编码片段,hg2为待标注语句对应的编码片段,hg3为位于待标注语句之后的关联语句中的各字符对应的编码片段,从而将第三参考编码H_p_pool与角色属性编码中的每个编码片段进行拼接,生成的待标注语句对应的角色属性特征为Hp=(hg1,H_p_pool,hg2,H_p_pool,hg3,H_p_pool)。
作为另一种可能的实现方式,可以将第三参考编码与角色属性编码中的每个编码片段相加,以生成待标注语句对应的角色属性特征。
举例来说,待标注语句的角色属性编码为H_g=(hg1,hg2,hg3),其中,hg1为位于待标注语句之前的关联语句中的各字符对应的编码片段,hg2为待标注语句对应的编码片段,hg3为位于待标注语句之后的关联语句中的各字符对应的编码片段,从而将第三参考编码H_p_pool与角色属性编码中的每个编码片段相加,生成的待标注语句对应的角色属性特征为Hp=(hg1+H_p_pool,hg2+H_p_pool,hg3+H_p_pool)。
在本申请实施例中,确定出待标注语句对应的角色属性特征Hp之后,可以将角色属性特征Hp输入多任务学习模型的角色属性信息预测模块,以对待标注语句所属角色的属性信息进行预测。
根据本申请实施例的技术方案,通过对待标注的文本数据中的各个待标注语句及每个待标注语句对应的关联语句进行向量映射与多层上下文感知,获取每个待标注语句的语义编码,之后根据每个待标注语句的语义编码生成每个待标注语句的高阶语义信息,以根据每个待标注语句的高阶语义信息进行角色预测,进而确定每个待标注语句所属的角色与对应的语义编码,确定每个待标注语句对应的角色属性编码,以根据每个待标注语句对应的角色属性编码进行角色属性信息预测。由此,可以通过多层上下文感知确定蕴含了待标注文本的语义信息的语义编码,并利用待标注文本的语义编码获得待标注文本的高阶语义信息,从而不仅实现了同时预测对白文本的角色和角色属性信息,而且进一步提升了角色预测与角色属性信息预测的准确度。
为了实现上述实施例,本申请还提出一种文本标注装置。
图6为本申请实施例提供的一种文本标注装置的结构示意图。
如图6所示,该文本标注装置60,包括:
第一获取模块61,用于获取待标注的文本数据;
第二获取模块62,用于对文本数据进行解析,以获取文本数据中的各个待标注语句、及每个待标注语句对应的关联语句;
构建模块63,用于基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码;
第一确定模块64,用于对每个待标注语句的语义编码进行角色预测,以确定每个待标注语句所属的角色;
第二确定模块65,用于根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息。
在实际使用时,本申请实施例提供的文本标注装置,可以被配置在任意电子设备中,以执行前述文本标注方法。
根据本申请实施例的技术方案,通过对待标注的文本数据进行解析,以获取待标注的文本数据中的各个待标注语句及每个待标注语句对应的关联语句,并基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码,之后对每个待标注语句的语义编码进行角色预测,以确定每个待标注语句所属的角色,进而根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息。由此,通过根据待标注语句及与其关联的上下文信息的语义表示,对待标注语句的角色进行预测,并在预测待标注语句的角色属性时,融入待标注语句所属的角色信息,从而实现了同时预测对白文本的角色和角色属性信息,为AI多角色朗读提供了技术支持。
在本申请一种可能的实现形式中,上述文本标注装置60,还包括:
第三确定模块,用于根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句的情感倾向。
进一步的,在本申请另一种可能的实现形式中,上述第三确定模块,包括:
第一确定单元,用于根据每个待标注语句所属的角色的位置信息及对应的语义编码,确定每个待标注语句所属角色的角色名编码;
第一获取单元,用于将每个角色名编码进行池化处理,以获取每个待标注语句对应的第一参考编码;
第二确定单元,用于确定每个待标注语句的语义编码中,与每个待标注语句中的字符对应的第一编码片段;
第三确定单元,用于对每个第一编码片段进行池化处理,以确定每个待标注语句对应的第二参考编码;
第四确定单元,用于对每个待标注语句对应的第一参考编码及第二参考编码进行解码处理,以确定每个待标注语句对应的情感倾向。
进一步的,在本申请再一种可能的实现形式中,上述文本标注装置60,还包括:
归一化模块,用于将待标注文本中每个角色对应的属性信息进行归一化处理。
进一步的,在本申请又一种可能的实现形式中,上述归一化模块,包括:
第五确定单元,用于在任一角色对应多种属性信息的情况下,将多种属性信息中出现频次最高的属性信息,确定为任一角色对应的属性信息。
进一步的,在本申请又一种可能的实现形式中,上述第二确定模块64,包括:
第六确定单元,用于根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息、及属性信息的置信度;
相应的,上述归一化模块,包括:
第七确定单元,用于在任一角色对应多种属性信息的情况下,确定任一角色对应的每种属性信息的置信度和;
第八确定单元,用于将置信度和最高的属性信息,确定为任一角色对应的属性信息。
进一步的,在本申请另一种可能的实现形式中,上述文本标注装置60,构建模块,包括:
生成单元,用于将每个所述待标注语句及对应的关联语句进行向量映射,以生成每个所述待标注语句对应的向量表示;
第二获取单元,用于将每个所述待标注语句对应的向量表示进行多层上下文感知学习,以获取每个所述待标注语句的语义编码。
进一步的,在本申请再一种可能的实现形式中,上述文本标注装置60,还包括:
第四确定模块,用于确定每个待标注语句的语义编码中,与每个待标注语句中的字符对应的第一编码片段;
第五确定模块,用于对每个第一编码片段进行池化处理,以确定每个待标注语句对应的第二参考编码;
第三获取模块,用于将每个待标注语句对应的第二参考编码与语义编码进行融合,以获取每个待标注语句对应的语义信息;
相应的,上述第一确定模块64,包括:
第九确定单元,用于对每个待标注语句的语义信息进行角色识别,以确定每个待标注语句所属的角色。
进一步的,在本申请又一种可能的实现形式中,上述第二确定模块65,包括:
第十确定单元,用于根据每个待标注语句所属的角色的位置信息及对应的语义编码,确定每个待标注语句所属角色的角色名编码;
第三获取单元,用于将每个待标注语句所属角色的角色名编码与对应的语义编码进行融合,以获取每个待标注语句对应的角色属性编码;
第四获取单元,用于对每个待标注语句对应的角色属性编码进行解码处理,以获取每个待标注语句所属角色的属性信息。
进一步的,在本申请又一种可能的实现形式中,上述第四获取单元,包括:
第一确定子单元,用于确定每个待标注语句的角色属性编码中,与每个待标注语句中的角色名对应的第二编码片段;
第二确定子单元,用于对每个第二编码片段进行池化处理,以确定每个待标注语句对应的第三参考编码;
获取子单元,用于将每个待标注语句对应的第三参考编码与角色属性编码进行融合,以获取每个待标注语句对应的角色属性特征;
第三确定子单元,用于对每个待标注语句的角色属性特征进行角色属性识别,以确定每个待标注语句所属角色的属性信息。
需要说明的是,前述对图1、图2、图3、图4、图5所示的文本标注方法实施例的解释说明也适用于该实施例的文本标注装置60,此处不再赘述。
根据本申请实施例的技术方案,通过对待标注的文本数据中的各个待标注语句及每个待标注语句对应的关联语句进行向量映射与多层上下文感知,获取每个待标注语句的语义编码,之后根据每个待标注语句的语义编码生成每个待标注语句的高阶语义信息,以根据每个待标注语句的高阶语义信息进行角色预测,进而确定每个待标注语句所属的角色与对应的语义编码,确定每个待标注语句对应的角色属性编码,以根据每个待标注语句对应的角色属性编码进行角色属性信息预测。由此,可以通过多层上下文感知确定蕴含了待标注文本的语义信息的语义编码,并利用待标注文本的语义编码获得待标注文本的高阶语义信息,从而不仅实现了同时预测对白文本的角色和角色属性信息,而且进一步提升了角色预测与角色属性信息预测的准确度。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
如图7所示,是根据本申请实施例的文本标注方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图7所示,该电子设备包括:一个或多个处理器701、存储器702,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个电子设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器701为例。
存储器702即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文本标注方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本标注方法。
存储器702作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本标注方法对应的程序指令/模块(例如,附图6所示的第一获取模块61、第二获取模块62、构建模块63、第一确定模块64及第二确定模块65)。处理器701通过运行存储在存储器702中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本标注方法。
存储器702可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本标注方法的电子设备的使用所创建的数据等。此外,存储器702可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器702可选包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至文本标注方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
文本标注方法的电子设备还可以包括:输入装置703和输出装置704。处理器701、存储器702、输入装置703和输出装置704可以通过总线或者其他方式连接,图7中以通过总线连接为例。
输入装置703可接收输入的数字或字符信息,以及产生与文本标注方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置704可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)互联网和区块链网络。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS(VirtualPrivate Server,虚拟专用服务器)服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
根据本申请实施例的技术方案,通过对待标注的文本数据进行解析,以获取待标注的文本数据中的各个待标注语句及每个待标注语句对应的关联语句,并基于每个待标注语句及对应的关联语句,构建每个待标注语句的语义编码,之后对每个待标注语句的语义编码进行角色预测,以确定每个待标注语句所属的角色,进而根据每个待标注语句所属的角色及对应的语义编码,确定每个待标注语句所属角色的属性信息。由此,通过根据待标注语句及与其关联的上下文信息的语义表示,对待标注语句的角色进行预测,并在预测待标注语句的角色属性时,融入待标注语句所属的角色信息,从而实现了同时预测对白文本的角色和角色属性信息,为AI多角色朗读提供了技术支持。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (22)

1.一种文本标注方法,包括:
获取待标注的文本数据;
对所述文本数据进行解析,以获取所述文本数据中的各个待标注语句、及每个待标注语句对应的关联语句;
基于每个所述待标注语句及对应的关联语句,构建每个所述待标注语句的语义编码;
将所述待标注语句的语义编码输入多任务学习模型的角色预测模块,以确定每个所述待标注语句所属的角色;
根据每个所述待标注语句所属的角色及对应的语义编码,确定每个所述待标注语句所属角色的属性信息。
2.如权利要求1所述的方法,其中,在所述对每个所述待标注语句的语义编码进行角色预测,以确定每个所述待标注语句所属的角色之后,还包括:
根据每个所述待标注语句所属的角色及对应的语义编码,确定每个所述待标注语句的情感倾向。
3.如权利要求2所述的方法,其中,所述根据每个所述待标注语句所属的角色及对应的语义编码,确定每个所述待标注语句的情感倾向,包括:
根据每个所述待标注语句所属的角色的位置信息及对应的语义编码,确定每个所述待标注语句所属角色的角色名编码;
将每个所述角色名编码进行池化处理,以获取每个所述待标注语句对应的第一参考编码;
确定每个所述待标注语句的语义编码中,与每个所述待标注语句中的字符对应的第一编码片段;
对每个所述第一编码片段进行池化处理,以确定每个所述待标注语句对应的第二参考编码;
对每个所述待标注语句对应的第一参考编码及第二参考编码进行解码处理,以确定每个所述待标注语句对应的情感倾向。
4.如权利要求1所述的方法,其中,在所述确定每个所述待标注语句所属角色的属性信息之后,还包括:
将所述待标注的文本中每个角色对应的属性信息进行归一化处理。
5.如权利要求4所述的方法,其中,所述将所述待标注的 文本中每个角色对应的属性信息进行归一化处理,包括:
在任一角色对应多种属性信息的情况下,将所述多种属性信息中出现频次最高的属性信息,确定为所述任一角色对应的属性信息。
6.如权利要求4所述的方法,其中,所述根据每个所述待标注语句所属的角色及对应的语义编码,确定每个所述待标注语句所属角色的属性信息,包括:
根据每个所述待标注语句所属的角色及对应的语义编码,确定每个所述待标注语句所属角色的属性信息、及所述属性信息的置信度;
所述将所述待标注的 文本中每个角色对应的属性信息进行归一化处理,包括:
在任一角色对应多种属性信息的情况下,确定所述任一角色对应的每种属性信息的置信度和;
将置信度和最高的属性信息,确定为所述任一角色对应的属性信息。
7.如权利要求1-6任一所述的方法,其中,所述基于每个所述待标注语句及对应的关联语句,构建每个所述待标注语句的语义编码,包括:
将每个所述待标注语句及对应的关联语句进行向量映射,以生成每个所述待标注语句对应的向量表示;
将每个所述待标注语句对应的向量表示进行多层上下文感知学习,以获取每个所述待标注语句的语义编码。
8.如权利要求7所述的方法,其中,在所述对每个所述待标注语句的语义编码进行角色预测,以确定每个所述待标注语句所属的角色之前,还包括:
确定每个所述待标注语句的语义编码中,与每个所述待标注语句中的字符对应的第一编码片段;
对每个所述第一编码片段进行池化处理,以确定每个所述待标注语句对应的第二参考编码;
将每个所述待标注语句对应的所述第二参考编码与语义编码进行融合,以获取每个所述待标注语句对应的语义信息;
所述对每个所述待标注语句的语义编码进行角色预测,以确定每个所述待标注语句所属的角色,包括:
对每个所述待标注语句的语义信息进行角色识别,以确定每个所述待标注语句所属的角色。
9.如权利要求7所述的方法,其中,所述根据每个所述待标注语句所属的角色及对应的语义编码,确定每个所述待标注语句所属角色的属性信息,包括:
根据每个所述待标注语句所属的角色的位置信息及对应的语义编码,确定每个所述待标注语句所属角色的角色名编码;
将每个所述待标注语句所属角色的角色名编码与对应的语义编码进行融合,以获取每个所述待标注语句对应的角色属性编码;
对每个所述待标注语句对应的角色属性编码进行解码处理,以获取每个所述待标注语句所属角色的属性信息。
10.如权利要求9所述的方法,其中,所述对每个所述待标注语句对应的角色属性编码进行解码处理,以获取每个所述待标注语句所属角色的属性信息,包括:
确定每个所述待标注语句的角色属性编码中,与每个所述待标注语句中的角色名对应的第二编码片段;
对每个所述第二编码片段进行池化处理,以确定每个所述待标注语句对应的第三参考编码;
将每个所述待标注语句对应的第三参考编码与角色属性编码进行融合,以获取每个所述待标注语句对应的角色属性特征;
对每个所述待标注语句的角色属性特征进行角色属性识别,以确定每个所述待标注语句所属角色的属性信息。
11.一种文本标注装置,包括:
第一获取模块,用于获取待标注的文本数据;
第二获取模块,用于对所述文本数据进行解析,以获取所述文本数据中的各个待标注语句、及每个待标注语句对应的关联语句;
构建模块,用于基于每个所述待标注语句及对应的关联语句,构建每个所述待标注语句的语义编码;
第一确定模块,用于将所述待标注语句的语义编码输入多任务学习模型的角色预测模块,以确定每个所述待标注语句所属的角色;
第二确定模块,用于根据每个所述待标注语句所属的角色及对应的语义编码,确定每个所述待标注语句所属角色的属性信息。
12.如权利要求11所述的装置,其中,还包括:
第三确定模块,用于根据每个所述待标注语句所属的角色及对应的语义编码,确定每个所述待标注语句的情感倾向。
13.如权利要求12所述的装置,其中,所述第三确定模块,包括:
第一确定单元,用于根据每个所述待标注语句所属的角色的位置信息及对应的语义编码,确定每个所述待标注语句所属角色的角色名编码;
第一获取单元,用于将每个所述角色名编码进行池化处理,以获取每个所述待标注语句对应的第一参考编码;
第二确定单元,用于确定每个所述待标注语句的语义编码中,与每个所述待标注语句中的字符对应的第一编码片段;
第三确定单元,用于对每个所述第一编码片段进行池化处理,以确定每个所述待标注语句对应的第二参考编码;
第四确定单元,用于对每个所述待标注语句对应的第一参考编码及第二参考编码进行解码处理,以确定每个所述待标注语句对应的情感倾向。
14.如权利要求11所述的装置,其中,还包括:
归一化模块,用于将所述待标注的文本中每个角色对应的属性信息进行归一化处理。
15.如权利要求14所述的装置,其中,所述归一化模块,包括:
第五确定单元,用于在任一角色对应多种属性信息的情况下,将所述多种属性信息中出现频次最高的属性信息,确定为所述任一角色对应的属性信息。
16.如权利要求14所述的装置,其中,所述第二确定模块,包括:
第六确定单元,用于根据每个所述待标注语句所属的角色及对应的语义编码,确定每个所述待标注语句所属角色的属性信息、及所述属性信息的置信度;
所述归一化模块,包括:
第七确定单元,用于在任一角色对应多种属性信息的情况下,确定所述任一角色对应的每种属性信息的置信度和;
第八确定单元,用于将置信度和最高的属性信息,确定为所述任一角色对应的属性信息。
17.如权利要求11-16任一所述的装置,其中,所述构建模块,包括:
生成单元,用于将每个所述待标注语句及对应的关联语句进行向量映射,以生成每个所述待标注语句对应的向量表示;
第二获取单元,用于将每个所述待标注语句对应的向量表示进行多层上下文感知学习,以获取每个所述待标注语句的语义编码。
18.如权利要求17所述的装置,其中,还包括:
第四确定模块,用于确定每个所述待标注语句的语义编码中,与每个所述待标注语句中的字符对应的第一编码片段;
第五确定模块,用于对每个所述第一编码片段进行池化处理,以确定每个所述待标注语句对应的第二参考编码;
第三获取模块,用于将每个所述待标注语句对应的所述第二参考编码与语义编码进行融合,以获取每个所述待标注语句对应的语义信息;
所述第一确定模块,包括:
第九确定单元,用于对每个所述待标注语句的语义信息进行角色识别,以确定每个所述待标注语句所属的角色。
19.如权利要求17所述的装置,其中,所述第二确定模块,包括:
第十确定单元,用于根据每个所述待标注语句所属的角色的位置信息及对应的语义编码,确定每个所述待标注语句所属角色的角色名编码;
第三获取单元,用于将每个所述待标注语句所属角色的角色名编码与对应的语义编码进行融合,以获取每个所述待标注语句对应的角色属性编码;
第四获取单元,用于对每个所述待标注语句对应的角色属性编码进行解码处理,以获取每个所述待标注语句所属角色的属性信息。
20.如权利要求19所述的装置,其中,所述第四获取单元,包括:
第一确定子单元,用于确定每个所述待标注语句的角色属性编码中,与每个所述待标注语句中的角色名对应的第二编码片段;
第二确定子单元,用于对每个所述第二编码片段进行池化处理,以确定每个所述待标注语句对应的第三参考编码;
获取子单元,用于将每个所述待标注语句对应的第三参考编码与角色属性编码进行融合,以获取每个所述待标注语句对应的角色属性特征;
第三确定子单元,用于对每个所述待标注语句的角色属性特征进行角色属性识别,以确定每个所述待标注语句所属角色的属性信息。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。
CN202011148138.8A 2020-10-23 2020-10-23 文本标注方法、装置及电子设备 Active CN112434492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011148138.8A CN112434492B (zh) 2020-10-23 2020-10-23 文本标注方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011148138.8A CN112434492B (zh) 2020-10-23 2020-10-23 文本标注方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112434492A CN112434492A (zh) 2021-03-02
CN112434492B true CN112434492B (zh) 2021-10-15

Family

ID=74695975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011148138.8A Active CN112434492B (zh) 2020-10-23 2020-10-23 文本标注方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112434492B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989822B (zh) * 2021-04-16 2021-08-27 北京世纪好未来教育科技有限公司 识别对话中句子类别的方法、装置、电子设备和存储介质
CN113539235B (zh) * 2021-07-13 2024-02-13 标贝(青岛)科技有限公司 文本分析与语音合成方法、装置、系统及存储介质
CN113539234B (zh) * 2021-07-13 2024-02-13 标贝(青岛)科技有限公司 语音合成方法、装置、系统及存储介质
CN115034226A (zh) * 2022-06-17 2022-09-09 北京有竹居网络技术有限公司 用于确定文本中说话者的方法、装置、设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523988A (zh) * 2018-11-26 2019-03-26 安徽淘云科技有限公司 一种文本演绎方法及装置
CN109543021A (zh) * 2018-11-29 2019-03-29 北京光年无限科技有限公司 一种面向智能机器人的故事数据处理方法及系统
CN109960784A (zh) * 2019-02-22 2019-07-02 广州大为文化股份有限公司 对话形式的文本阅读方法、系统及存储介质
CN111583906A (zh) * 2019-02-18 2020-08-25 中国移动通信有限公司研究院 一种语音会话的角色识别方法、装置及终端
CN111667811A (zh) * 2020-06-15 2020-09-15 北京百度网讯科技有限公司 语音合成方法、装置、设备和介质
CN111738017A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种意图识别方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523988A (zh) * 2018-11-26 2019-03-26 安徽淘云科技有限公司 一种文本演绎方法及装置
CN109543021A (zh) * 2018-11-29 2019-03-29 北京光年无限科技有限公司 一种面向智能机器人的故事数据处理方法及系统
CN111583906A (zh) * 2019-02-18 2020-08-25 中国移动通信有限公司研究院 一种语音会话的角色识别方法、装置及终端
CN109960784A (zh) * 2019-02-22 2019-07-02 广州大为文化股份有限公司 对话形式的文本阅读方法、系统及存储介质
CN111667811A (zh) * 2020-06-15 2020-09-15 北京百度网讯科技有限公司 语音合成方法、装置、设备和介质
CN111738017A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种意图识别方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Bert 的中文法律术语角色识别;马文博等;《信息与电脑》;20200610(第11期);第69-73页 *

Also Published As

Publication number Publication date
CN112434492A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN111523326B (zh) 实体链指方法、装置、设备以及存储介质
CN111428008B (zh) 用于训练模型的方法、装置、设备以及存储介质
CN112434492B (zh) 文本标注方法、装置及电子设备
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
US10929383B2 (en) Method and system for improving training data understanding in natural language processing
CN111191428B (zh) 评论信息处理方法、装置、计算机设备和介质
JP7301922B2 (ja) 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN113220836B (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
CN112036509A (zh) 用于训练图像识别模型的方法和装置
CN111428514A (zh) 语义匹配方法、装置、设备以及存储介质
CN112270167B (zh) 角色标注方法、装置、电子设备和存储介质
CN111950256A (zh) 断句处理方法、装置、电子设备和计算机存储介质
US20220358292A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN111339759A (zh) 领域要素识别模型训练方法、装置及电子设备
CN112270198B (zh) 角色确定方法、装置、电子设备及存储介质
CN111539209B (zh) 用于实体分类的方法和装置
KR20210122204A (ko) 대화 감정 스타일의 예측 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램 제품
CN111611990A (zh) 用于识别图像中表格的方法和装置
CN111078878A (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN112528605A (zh) 文本风格处理方法、装置、电子设备和存储介质
CN111738015A (zh) 文章情感极性分析方法、装置、电子设备及存储介质
CN112270169B (zh) 对白角色预测方法、装置、电子设备及存储介质
CN114429106B (zh) 页面信息处理方法、装置、电子设备和存储介质
CN113204616A (zh) 文本抽取模型的训练与文本抽取的方法、装置
CN111597458A (zh) 场景元素的抽取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant