CN111832318B - 单语句自然语言处理方法、装置、计算机设备及可读存储介质 - Google Patents

单语句自然语言处理方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN111832318B
CN111832318B CN202010688324.4A CN202010688324A CN111832318B CN 111832318 B CN111832318 B CN 111832318B CN 202010688324 A CN202010688324 A CN 202010688324A CN 111832318 B CN111832318 B CN 111832318B
Authority
CN
China
Prior art keywords
preset
target
coding
single sentence
external information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010688324.4A
Other languages
English (en)
Other versions
CN111832318A (zh
Inventor
阮鸿涛
郑立颖
徐亮
阮晓雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010688324.4A priority Critical patent/CN111832318B/zh
Priority to PCT/CN2020/118735 priority patent/WO2021143206A1/zh
Publication of CN111832318A publication Critical patent/CN111832318A/zh
Application granted granted Critical
Publication of CN111832318B publication Critical patent/CN111832318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种基于Bert的单语句自然语言处理方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于人工智能技术领域,将目标单语句输入预设的目标Bert模型以对目标单语句进行预处理,目标Bert模型为通过将Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建,以得到目标单语句所对应的目标向量,目标向量中包含通过预设外部信息编码输入层而得到的目标单语句所包含的外部信息编码,再通过预设自然语言处理模型对目标向量进行语音语义处理,以得到目标单语句所对应的语音语义处理结果,从而实现借助外部信息编码以增强自然语言处理模型的处理效果。

Description

单语句自然语言处理方法、装置、计算机设备及可读存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于Bert的单语句自然语言处理方法、装置、计算机设备及计算机可读存储介质。
背景技术
BERT的英文全称为Bidirectional Encoder Representation fromTransformers,是一个预训练的语言表征模型,是对原始自然语言语料进行初步处理,初步进行特征提取,从而能够生成语言表征,以便各种各样的下游自然语言任务采用该语言表征进行自然语言处理。
BERT预训练语言模型的输入层由词嵌入、位置嵌入及语句分割嵌入三种输入层叠加而成。词嵌入输入层代表单词的表示向量,位置嵌入输入层代表语句中每个词的位置信息,语句分割嵌入输入层代表了对不同语句的区分。BERT通过叠加输入层的形式,结合遮蔽词预测任务和下一句语句预测任务,训练得到了一个在多种下游任务上通用的预训练模型。
但是,针对单语句的下游任务,无法通过BERT既定输入方式将单语句中的一些有用信息输入至下游任务模型,降低了下游自然语言任务处理的准确性。
发明内容
本申请实施例提供了一种基于Bert的单语句自然语言处理方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中由于BERT既定输入方式导致下游自然语言任务处理的准确性较低的问题。
第一方面,本申请实施例提供了一种基于Bert的单语句自然语言处理方法,所述方法包括:将目标单语句输入预设的目标Bert模型,所述目标Bert模型为通过将Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建,其中,所述外部信息编码输入层为实现提取所述目标单语句中所包含的预设的外部信息而预设的输入层,所述外部信息为所述目标单语句中对所对应自然语言处理任务起作用的预设信息,所述目标单语句为所述自然语言处理任务为获得语音语义结果而对所述目标单语句进行语音语义处理的目标对象,所述预设信息包括分词依存关系及词性标注信息;根据所述预设的目标Bert模型对所述目标单语句进行预处理,得到所述目标单语句所对应的目标向量,所述目标向量中包含所述目标单语句通过所述预设外部信息编码输入层而得到的对应外部信息编码,其中,所述外部信息编码为分词依存关系编码或者词性标注信息编码;将所述目标向量输入至预设自然语言处理模型;根据所述预设自然语言处理模型对所述目标向量进行语音语义处理,得到所述单语句所对应的语音语义处理结果。
第二方面,本申请实施例还提供了一种基于Bert的单语句自然语言处理装置,所述装置中采用了预设的目标Bert模型,所述目标Bert模型为通过将Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建,其中,所述外部信息编码输入层为实现提取目标单语句中所包含的预设的外部信息而预设的输入层,所述外部信息为所述目标单语句中所包含的对所述目标单语句所对应的自然语言处理任务起作用的预设信息,所述目标单语句为所述自然语言处理任务为获得语音语义结果而对所述目标单语句进行语音语义处理的目标对象,所述预设信息包括分词依存关系及词性标注信息,包括:第一输入单元,用于将所述目标单语句输入所述预设的目标Bert模型;预处理单元,用于根据所述预设的目标Bert模型对所述目标单语句进行预处理,得到所述目标单语句所对应的目标向量,所述目标向量中包含所述目标单语句通过所述预设外部信息编码输入层而得到的对应外部信息编码,其中,所述外部信息编码为分词依存关系编码或者词性标注信息编码;第二输入单元,用于将所述目标向量输入至预设自然语言处理模型;处理单元,用于根据所述预设自然语言处理模型对所述目标向量进行语音语义处理,得到所述单语句所对应的语音语义处理结果。
第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述基于Bert的单语句自然语言处理方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述基于Bert的单语句自然语言处理方法的步骤。
本申请实施例提供了一种基于Bert的单语句自然语言处理方法、装置、计算机设备及计算机可读存储介质。本申请实施例通过将目标单语句输入预设的目标Bert模型,所述目标Bert模型为通过将Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建,根据所述预设的目标Bert模型对所述目标单语句进行预处理,得到所述目标单语句所对应的目标向量,所述目标向量中包含所述目标单语句通过所述预设外部信息编码输入层而得到的对应外部信息编码,将所述目标向量输入至预设自然语言处理模型,根据所述预设自然语言处理模型对所述目标向量进行语音语义处理,得到所述单语句所对应的语音语义处理结果。由于所述预设的目标Bert模型为通过将Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建,其中,所述外部信息编码输入层为实现提取目标单语句中所包含的预设外部信息而预设的输入层,所述外部信息为所述目标单语句中所包含的对所述目标单语句所对应的语音语义处理任务起作用的预设信息,针对语音语义任务所对应的自然语言处理,尤其针对目标单语句下游的自然语言处理模型所进行的语音语义处理任务,通过将目标单语句中有效的外部信息通过替换后的预设外部信息编码输入层传输至下游自然语言处理模型,可以有效增强下游自然语言处理模型抓取目标单语句信息的能力,能够提升语音语义处理的准确性和处理质量,从而增强下游自然语言处理模型的语音语义处理效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于Bert的单语句自然语言处理方法的一个流程示意图;
图2为本申请实施例提供的基于Bert的单语句自然语言处理方法中一个子流程的示意图;
图3为本申请实施例提供的基于Bert的单语句自然语言处理方法的另一个子流程示意图;
图4为本申请实施例提供的基于Bert的单语句自然语言处理装置的一个示意性框图;以及
图5为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
单语句,又可以称为简单语句或者简短语句,为能够独立表达完整语义的语言单元,例如为一个词、一个短语或者一句话,尤其在交互式语音中,需要进行语音识别的自然语言处理中,会更多的遇到对单语句的自然语言处理,比如智慧城市建设中包含的智慧政务、智慧城管、智慧社区、智慧安防、智慧物流、智慧医疗、智慧教育、智慧环保及智慧交通等场景中,需要采用智能机器设备与人进行交互,用户与智能机器设备进行交互时均会涉及到单语句,再比如,在通过智能客服办理业务的过程中,由于更多的会涉及到问答形式,这些场景均会通过单语句进行交互,在对自然语言处理过程中,会涉及到语句文本错误识别或者语句情感分类,以实现智能机器设备与人进行交互以达到沟通或者办理业务的目的。
请参阅图1,图1为本申请实施例提供的基于Bert的单语句自然语言处理方法的一个流程示意图。如图1所示,该方法包括以下步骤S101-S104:
S101、将目标单语句输入预设的目标Bert模型,所述目标Bert模型为通过将Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建,其中,所述外部信息编码输入层为实现提取所述目标单语句中所包含的预设的外部信息而预设的输入层,所述外部信息为所述目标单语句中对所对应自然语言处理任务起作用的预设信息,所述目标单语句为所述自然语言处理任务为获得语音语义结果而对所述目标单语句进行语音语义处理的目标对象,所述预设信息包括分词依存关系及词性标注信息。
S102、根据所述预设的目标Bert模型对所述目标单语句进行预处理,得到所述目标单语句所对应的目标向量,所述目标向量中包含所述目标单语句通过所述预设外部信息编码输入层而得到的对应外部信息编码,其中,所述外部信息编码为分词依存关系编码或者词性标注信息编码。
具体地,在使用自然语言处理以进行语音语义任务的场景中,一般会存在前端供用户提供语音语义输入的语音输入设备,比如麦克风设备或者智能手机上的麦克风组件等,从而用户可以通过语音输入设备发送语音,麦克风设备或者智能手机接收用户输入的目标单语句语音,并将目标单语句语音发送至进行自然语言处理的后端,比如后台服务器等,以对目标单语句语音进行自然语言处理,以了解用户发送的语音的意图,并采取对应的预设应答。在对接收的语音进行自然语言处理时,一般会对接收的原始语音进行预处理,比如使用Bert模型对自然语言进行预处理以得到预处理结果,然后将预处理结果再输入该自然语言处理任务所对应的预设自然语言处理任务模型进行自然语言任务处理。在使用Bert模型对语句进行预训练时,由于针对目标单语句的下游任务,例如下游任务为语句文本错误识别或者语句情感分类等语音语义处理任务时,同一输入语句没有不同语句间的区分,因此,原始Bert模型中所包含的语句分割嵌入输入层成为了冗余的输入层。而同时,针对具体的下游任务,例如语句文本错误识别或者语句情感分类等语音语义处理任务,目标单语句中对下游任务处理有用的信息无法仅通过原始Bert模型中所包含的词嵌入和位置嵌入传输给下游的自然语言处理任务模型,语句分割嵌入输入层也无法起到输入额外信息的作用。例如在语句文本错误识别任务中,分词间的依存关系信息对识别任务存在帮助作用,但无法通过BERT中既定的输入方式将依存关系信息传输给下游任务处理模型,降低了下游自然语言任务处理的准确性。
因此,在本申请实施例中,通过将初始Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建预设的目标Bert模型,其中,所述外部信息编码输入层为实现提取目标单语句中所包含的预设外部信息而预设的输入层,所述外部信息为所述目标单语句中所包含的对所述目标单语句所对应的自然语言处理任务起作用的预设信息,所述目标单语句为所述自然语言处理任务为获得语音语义结果而对所述目标单语句进行语音语义处理的目标对象。例如在语句文本错误识别任务中,预设信息可以为分词间的依存关系,其中,所述预设信息包括分词依存关系及词性标注信息,从而实现改造原始Bert模型中的输入层。构建预设的目标Bert模型,从而在保留原始Bert模型中所包含的词嵌入及位置嵌入两个输入层的同时,将语句分割嵌入输入层替换为预设外部信息编码输入层,例如替换为分词依存关系编码层,或者替换为词性标注信息编码层,以得到预设的目标Bert模型。同时将该外部信息编码输入层中[CLS]、[SEP]、[PAD]的编码id都设为0,利用Bert预训练模型的参数,以及下游的目标自然语言处理任务的语音语义数据对Bert模型进行微调,得到适用于进行自然语言处理所对应的语音语义目标任务所对应的目标Bert模型,从而实现能够将有效的预设外部信息通过替换后的预设外部信息编码输入层传输给下游的任务处理模型。再例如,在错句识别等下游任务中,分词、词性信息和句法结构有着重要作用,通过改进后的目标Bert模型可以通过替换后的预设外部信息编码输入层获得语句的分词依存关系及词性标注信息,在下游任务训练数据量较少的场景下,可以有效增强下游自然语言处理模型抓取目标单语句信息的能力,从而增强下游自然语言处理模型的处理效果,提升自然语言处理的准确性和处理质量。
需要说明的是,在本申请实施例中,由于先通过预设目标Bert模型对所述目标单语句进行预处理,以得到预处理结果所对应的目标向量,再将目标向量输入至预设自然语言处理模型以进行语音语义处理,从而得到语音语义处理结果,因此,相对于预设目标Bert模型,自然语言处理模型位于预设目标Bert模型的下游,为下游的自然语言处理模型。
使用针对原始Bert模型进行改进所得到的预设的目标Bert模型,获取目标单语句,并将所述目标单语句输入所述预设的目标Bert模型进行预处理,从而得到所述目标单语句所对应的目标向量,由于将初始Bert模型中的语句分割嵌入输入层替换为预设外部信息编码输入层,同时,基于Bert模型本身具有的有多少个输入就有多少个对应的输出的特性,预设目标Bert输出的所述目标向量中包含通过所述预设外部信息编码输入层而得到的所述目标单语句所包含的外部信息编码,其中,所述外部信息编码为分词依存关系编码或者词性标注信息编码。
S103、将所述目标向量输入至预设自然语言处理模型。
S104、根据所述预设自然语言处理模型对所述目标向量进行语音语义处理,得到所述单语句所对应的语音语义处理结果。
具体地,利用改进后的预设目标Bert模型对目标单语句进行预处理后,由于将原始Bert模型中的语句分割嵌入输入层替换为预设外部信息编码输入层以得到预设的目标Bert模型,所述目标Bert模型输出的目标向量中就包含了单语句所包含的外部信息编码,例如所述外部信息编码为分词依存关系编码或者词性标注信息编码,并将所述目标向量输入至预设自然语言处理模型,预设的目标Bert模型的下游自然语言处理任务模型再对所述目标向量进行自然语言处理,下游的自然语言处理任务模型进行自然语言处理时,就可以充分的结合预设外部信息编码以有效增强自然语言处理任务模型抓取目标单语句信息的能力,以得到所述目标单语句所对应的语音语义处理结果,能够提高自然语言处理任务模型处理语音语义的效果,提高了自然语言模型处理自然语言处理的效率。
进一步地,由于本申请实施例涉及单语句自然语言处理,而在智慧城市的建设中,很多应用场景涉及与人进行问答等交互过程,而交互过程中涉及较多的单语句自然语言处理,因此,本申请实施例可应用于智慧政务、智慧城管、智慧社区、智慧安防、智慧物流、智慧医疗、智慧教育、智慧环保及智慧交通场景中,从而推动智慧城市的建设。
本申请实施例通过将目标单语句输入预设的目标Bert模型,所述目标Bert模型为通过将Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建,根据所述预设的目标Bert模型对所述目标单语句进行预处理,得到所述目标单语句所对应的目标向量,所述目标向量中包含所述目标单语句通过所述预设外部信息编码输入层而得到的对应外部信息编码,将所述目标向量输入至预设自然语言处理模型,根据所述预设自然语言处理模型对所述目标向量进行语音语义处理,得到所述单语句所对应的语音语义处理结果。由于所述预设的目标Bert模型为通过将Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建,其中,所述外部信息编码输入层为实现提取目标单语句中所包含的预设外部信息而预设的输入层,所述外部信息为所述目标单语句中所包含的对所述目标单语句所对应的语音语义处理任务起作用的预设信息,针对语音语义任务所对应的自然语言处理,尤其针对目标单语句下游的自然语言处理模型所进行的语音语义处理任务,通过将目标单语句中有效的外部信息通过替换后的预设外部信息编码输入层传输至下游自然语言处理模型,可以有效增强下游自然语言处理模型抓取目标单语句信息的能力,能够提升语音语义处理的准确性和处理质量,从而增强下游自然语言处理模型的语音语义处理效果。
请参阅图2,图2为本申请实施例提供的基于Bert的单语句自然语言处理方法中一个子流程的示意图。在该实施例中,所述根据所述预设的目标Bert模型对所述目标单语句进行预处理,得到所述目标单语句所对应的目标向量的步骤包括:
S201、采用第一预设语言工具对所述目标单语句进行分词,以得到所述目标单语句所包含的若干个短语;
S201、采用第二预设语言工具对每个所述短语进行词性标注,以得到所述短语所对应的词性标注信息,所述词性标注信息包括所述短语及所述短语所对应的词性;
S203、基于所有所述短语及所述短语所对应的所述词性标注信息,通过预设编码方式进行编码,以得到所述目标单语句所包含的外部信息编码。
其中,第一预设语言工具及第二预设语言工具可以为Stanford CoreNLP或者HanLP等支持对应功能的语言工具。
预设编码方式包括分词依存关系编码及词性标注信息编码。
具体地,由于语言工具(例如Stanford CoreNLP或者HanLP)支持包括标记化、浅层分析(句字分块)、分词、分句、分块、词性标注、命名实体识别及语法解析等NLP任务,可以通过预设语言工具对输入的目标单语句进行分词得到短语划分,再对短语进行词性标注,即采用第一预设语言工具对所述目标单语句进行分词,以得到所述目标单语句所包含的若干个短语,进而采用第二预设语言工具对每个所述短语进行词性标注,以得到所述短语所对应的词性标注信息,所述词性标注信息包括所述短语及所述短语所对应的词性,最后根据所有所述短语及所述短语所对应的所述词性标注信息,通过预设编码方式进行编码,以得到所述目标单语句所包含的外部信息编码。
本申请实施例中所采用的目标Bert模型,可以实现基于外部信息编码替换语句分割嵌入输入层的Bert预训练语言模型以得到目标Bert模型,与原始Bert模型相比,本申请实施例的目标Ber对于单语句任务时的冗余的语句分割嵌入输入层,从而将目标单语句中的有效外部信息(例如分词依存关系或者词性标注信息)通过替换后的预设外部信息编码输入层传输至下游自然语言处理模型,能够提高下游自然语言处理模型进行语音语义处理的效果。
请参阅图3,图3为本申请实施例提供的基于Bert的单语句自然语言处理方法的另一个子流程示意图,在该实施例中,所述外部信息编码为分词依存关系编码,所述基于所有所述短语及所述短语所对应的所述词性标注信息,通过预设编码方式进行编码,以得到所述目标单语句所包含的外部信息编码的步骤包括:
S301、采用第三预设语言工具对所述短语及所述词性标注信息进行依存关系分析,以得到依存关系树;
S302、采用预设依存编码方式对所述依存关系树进行编码,以得到所述目标单语句所包含的外部信息编码。
其中,分词依存关系为利用句子中词与词之间的依存关系来表示词语的句法结构信息(如主谓、动宾、定中等结构关系)并用树状结构来表示整句的的结构(如主谓宾、定状补等)。依存语法(DependencyParsing,DP)通过分析语言单位内成分之间的依存关系揭示其句法结构。即分析识别句子中的“主谓宾”、“定状补”这些语法成分,并分析各成分之间的关系。
第三预设语言工具可以为Stanford CoreNLP或者HanLP等支持对应功能的语言工具,可以与第一预设语言工具及第二预设语言工具相同,也可以与第一预设语言工具及第二预设语言工具不相同,在此不做限定。
具体地,在经过采用第一预设语言工具对所述目标单语句进行分词,以得到所述目标单语句所包含的若干个短语,及采用第二预设语言工具对每个所述短语进行词性标注后,将得到的若干分词及所述分词对应的词性标注结果输入第三预设语言工具,以通过第三预设语言工具执行依存关系分析,得到输入的目标单语句的依存关系,以形成输入语句的依存关系树信息,所述依存关系即对于语句中的每个短语,都有且仅有一个依赖的中心短语,两者构成依存关系,其中,对于依存关系树的根节点,设其依赖的中心短语为root,对应位置为0。
进一步地,所述预设依存编码方式为预设相对依存位置编码方式或者为预设绝对依存位置编码方式。
具体地,对输入的目标单语句的依存关系树进行编码,包括以下两种编码方式:
1)相对依存位置编码:以依存关系中被依赖的中心短语的短语位置对语句进行编码,如第i个短语依赖第j个短语,则将第i个短语中所有字的输入编码id记为j。
2)绝对依存位置编码:以依存关系中被依赖的中心短语的第一个字在整个语句中的位置对语句进行编码,如第i个短语依赖第j个短语,则将第i个短语中所有字的输入编码id记为第j个短语中第一个字在整个语句中的位置。
在一个实施例中,所述外部信息编码为词性标注信息编码,所述基于所有所述短语及所述短语所对应的所述词性标注信息,通过预设编码方式进行编码,以得到所述目标单语句所包含的外部信息编码的步骤包括:
采用预设BIES标注方式对每个所述短语所对应的词性标注信息进行编码以得到每个所述词性标注信息所对应的4个编码;
对K个词性标注信息进行编码以得到4K个编码,从而得到所述目标单语句所包含的外部信息编码,其中,K为自然数。
具体地,对词性标注信息进行编码采用BIES标注,其中B为短语开头词,I为短语中间词,E为短语结尾词,S为单字作为短语的词。对每个字标注编码id,采用预设BIES标注方式对每个所述短语所对应的词性标注信息进行编码以得到每个所述词性标注信息所对应的4个编码,对K个词性标注信息所对应的词性标签可以得到4K个编码id,从而得到所述目标单语句所包含的外部信息编码,,其中,id可以从1开始计算,K为自然数。
需要说明的是,上述各个实施例所述的基于Bert的单语句自然语言处理方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。
请参阅图4,图4为本申请实施例提供的基于Bert的单语句自然语言处理装置的一个示意性框图。对应于上述所述基于Bert的单语句自然语言处理方法,本申请实施例还提供一种基于Bert的单语句自然语言处理装置。如图4所示,该基于Bert的单语句自然语言处理装置包括用于执行上述所述基于Bert的单语句自然语言处理方法的单元,该基于Bert的单语句自然语言处理装置可以被配置于计算机设备中。具体地,请参阅图4,基于Bert的单语句自然语言处理装置400中采用了预设的目标Bert模型,所述目标Bert模型为通过将Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建,其中,所述外部信息编码输入层为实现提取目标单语句中所包含的预设的外部信息而预设的输入层,所述外部信息为所述目标单语句中所包含的对所述目标单语句所对应的自然语言处理任务起作用的预设信息,所述目标单语句为所述自然语言处理任务为获得语音语义结果而对所述目标单语句进行语音语义处理的目标对象,所述预设信息包括分词依存关系及词性标注信息,该基于Bert的单语句自然语言处理装置400包括第一输入单元401、预处理单元402、第二输入单元403及处理单元404。
其中,第一输入单元401,用于将所述目标单语句输入所述预设的目标Bert模型;
预处理单元402,用于根据所述预设的目标Bert模型对所述目标单语句进行预处理,得到所述目标单语句所对应的目标向量,所述目标向量中包含所述目标单语句通过所述预设外部信息编码输入层而得到的对应外部信息编码,其中,所述外部信息编码为分词依存关系编码或者词性标注信息编码;
第二输入单元403,用于将所述目标向量输入至预设自然语言处理模型;
处理单元404,用于根据所述预设自然语言处理模型对所述目标向量进行语音语义处理,得到所述单语句所对应的语音语义处理结果。
在一个实施例中,所述预处理单元402包括:
分词子单元,用于采用第一预设语言工具对所述目标单语句进行分词,以得到所述目标单语句所包含的若干个短语;
标注子单元,用于采用第二预设语言工具对每个所述短语进行词性标注,以得到所述短语所对应的词性标注信息,所述词性标注信息包括所述短语及所述短语所对应的词性;
编码子单元,用于基于所有所述短语及所述短语所对应的所述词性标注信息,通过预设编码方式进行编码,以得到所述目标单语句所包含的外部信息编码。
在一个实施例中,所述外部信息编码为分词依存关系编码,所述编码子单元包括:
分析子单元,用于采用第三预设语言工具对所述短语及所述词性标注信息进行依存关系分析,以得到依存关系树;
依存关系编码子单元,用于采用预设依存编码方式对所述依存关系树进行编码,以得到所述目标单语句所包含的外部信息编码。
在一个实施例中,所述预设依存编码方式为预设相对依存位置编码方式或者为预设绝对依存位置编码方式。
在一个实施例中,所述外部信息编码为词性标注信息编码,所述编码子单元包括:
采用预设BIES标注方式对每个所述短语所对应的词性标注信息进行编码以得到每个所述词性标注信息所对应的4个编码;
对K个词性标注信息进行编码以得到4K个编码,从而得到所述目标单语句所包含的外部信息编码,其中,K为自然数。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述基于Bert的单语句自然语言处理装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
同时,上述基于Bert的单语句自然语言处理装置中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将基于Bert的单语句自然语言处理装置按照需要划分为不同的单元,也可将基于Bert的单语句自然语言处理装置中各单元采取不同的连接顺序和方式,以完成上述基于Bert的单语句自然语言处理装置的全部或部分功能。
上述基于Bert的单语句自然语言处理装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是台式机电脑或者服务器等计算机设备,也可以是其他设备中的组件或者部件。
参阅图5,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种上述基于Bert的单语句自然语言处理方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种上述基于Bert的单语句自然语言处理方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图5所示实施例一致,在此不再赘述。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:将目标单语句输入预设的目标Bert模型,所述目标Bert模型为通过将Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建,其中,所述外部信息编码输入层为实现提取所述目标单语句中所包含的预设的外部信息而预设的输入层,所述外部信息为所述目标单语句中对所对应自然语言处理任务起作用的预设信息,所述目标单语句为所述自然语言处理任务为获得语音语义结果而对所述目标单语句进行语音语义处理的目标对象,所述预设信息包括分词依存关系及词性标注信息;根据所述预设的目标Bert模型对所述目标单语句进行预处理,得到所述目标单语句所对应的目标向量,所述目标向量中包含所述目标单语句通过所述预设外部信息编码输入层而得到的对应外部信息编码,其中,所述外部信息编码为分词依存关系编码或者词性标注信息编码;将所述目标向量输入至预设自然语言处理模型;根据所述预设自然语言处理模型对所述目标向量进行语音语义处理,得到所述单语句所对应的语音语义处理结果。
在一实施例中,所述处理器502在实现所述根据所述预设的目标Bert模型对所述目标单语句进行预处理,得到所述目标单语句所对应的目标向量的步骤时,具体包括实现以下步骤:
采用第一预设语言工具对所述目标单语句进行分词,以得到所述目标单语句所包含的若干个短语;
采用第二预设语言工具对每个所述短语进行词性标注,以得到所述短语所对应的词性标注信息,所述词性标注信息包括所述短语及所述短语所对应的词性;
基于所有所述短语及所述短语所对应的所述词性标注信息,通过预设编码方式进行编码,以得到所述目标单语句所包含的外部信息编码。
在一实施例中,所述外部信息编码为分词依存关系编码,所述处理器502在实现所述基于所有所述短语及所述短语所对应的所述词性标注信息,通过预设编码方式进行编码,以得到所述目标单语句所包含的外部信息编码的步骤时,具体实现以下步骤:
采用第三预设语言工具对所述短语及所述词性标注信息进行依存关系分析,以得到依存关系树;
采用预设依存编码方式对所述依存关系树进行编码,以得到所述目标单语句所包含的外部信息编码。
在一实施例中,所述处理器502在实现所述采用预设依存编码方式对所述依存关系树进行编码,以得到所述目标单语句所包含的外部信息编码的步骤时,所述预设依存编码方式为预设相对依存位置编码方式或者为预设绝对依存位置编码方式。
在一实施例中,所述外部信息编码为词性标注信息编码,所述处理器502在实现所述基于所有所述短语及所述短语所对应的所述词性标注信息,通过预设编码方式进行编码,以得到所述目标单语句所包含的外部信息编码的步骤时,具体实现以下步骤:
采用预设BIES标注方式对每个所述短语所对应的词性标注信息进行编码以得到每个所述词性标注信息所对应的4个编码;
对K个词性标注信息进行编码以得到4K个编码,从而得到所述目标单语句所包含的外部信息编码,其中,K为自然数。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessingUnit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行如下步骤:
一种计算机程序产品,当其在计算机上运行时,使得计算机执行以上各实施例中所描述的所述基于Bert的单语句自然语言处理方法的步骤。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储计算机程序的实体存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (5)

1.一种基于Bert的单语句自然语言处理方法,其特征在于,所述方法包括:
将目标单语句输入预设的目标Bert模型,所述预设的目标Bert模型为通过将Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建,其中,所述预设外部信息编码输入层为实现提取所述目标单语句中所包含的预设的外部信息而预设的输入层,所述外部信息为所述目标单语句中对所对应自然语言处理任务起作用的预设信息,所述目标单语句为所述自然语言处理任务为获得语音语义结果而对所述目标单语句进行语音语义处理的目标对象,所述预设信息包括分词依存关系及词性标注信息;
根据所述预设的目标Bert模型对所述目标单语句进行预处理,得到所述目标单语句所对应的目标向量,所述目标向量中包含所述目标单语句通过所述预设外部信息编码输入层而得到的对应外部信息编码,其中,所述外部信息编码为分词依存关系编码或者词性标注信息编码;
将所述目标向量输入至预设自然语言处理模型;
根据所述预设自然语言处理模型对所述目标向量进行语音语义处理,得到所述目标单语句所对应的语音语义处理结果;
其中,所述根据所述预设的目标Bert模型对所述目标单语句进行预处理,得到所述目标单语句所对应的目标向量的步骤包括:
采用第一预设语言工具对所述目标单语句进行分词,以得到所述目标单语句所包含的若干个短语;
采用第二预设语言工具对每个所述短语进行词性标注,以得到所述短语所对应的词性标注信息,所述词性标注信息包括所述短语及所述短语所对应的词性;
基于所有所述短语及所述短语所对应的所述词性标注信息,通过预设编码方式进行编码,以得到所述目标单语句所包含的外部信息编码;
其中,所述外部信息编码为分词依存关系编码,所述基于所有所述短语及所述短语所对应的所述词性标注信息,通过预设编码方式进行编码,以得到所述目标单语句所包含的外部信息编码的步骤包括:
采用第三预设语言工具对所述短语及所述词性标注信息进行依存关系分析,以得到依存关系树;
采用预设依存编码方式对所述依存关系树进行编码,以得到所述目标单语句所包含的外部信息编码;
其中,所述外部信息编码为词性标注信息编码,所述基于所有所述短语及所述短语所对应的所述词性标注信息,通过预设编码方式进行编码,以得到所述目标单语句所包含的外部信息编码的步骤包括:
采用预设BIES标注方式对每个所述短语所对应的词性标注信息进行编码以得到每个所述词性标注信息所对应的4个编码;
对K个词性标注信息进行编码以得到4K个编码,从而得到所述目标单语句所包含的外部信息编码,其中,K为自然数。
2.根据权利要求1所述基于Bert的单语句自然语言处理方法,其特征在于,所述预设依存编码方式为预设相对依存位置编码方式或者为预设绝对依存位置编码方式。
3.一种基于Bert的单语句自然语言处理装置,其特征在于,所述装置中采用了预设的目标Bert模型,所述预设的目标Bert模型为通过将Bert模型中所包含的语句分割嵌入输入层替换为预设外部信息编码输入层而构建,其中,所述预设外部信息编码输入层为实现提取目标单语句中所包含的预设的外部信息而预设的输入层,所述外部信息为所述目标单语句中所包含的对所述目标单语句所对应的自然语言处理任务起作用的预设信息,所述目标单语句为所述自然语言处理任务为获得语音语义结果而对所述目标单语句进行语音语义处理的目标对象,所述预设信息包括分词依存关系及词性标注信息,包括:
第一输入单元,用于将所述目标单语句输入所述预设的目标Bert模型;
预处理单元,用于根据所述预设的目标Bert模型对所述目标单语句进行预处理,得到所述目标单语句所对应的目标向量,所述目标向量中包含所述目标单语句通过所述预设外部信息编码输入层而得到的对应外部信息编码,其中,所述外部信息编码为分词依存关系编码或者词性标注信息编码;
第二输入单元,用于将所述目标向量输入至预设自然语言处理模型;
处理单元,用于根据所述预设自然语言处理模型对所述目标向量进行语音语义处理,得到所述目标单语句所对应的语音语义处理结果;
所述预处理单元包括:
分词子单元,用于采用第一预设语言工具对所述目标单语句进行分词,以得到所述目标单语句所包含的若干个短语;
标注子单元,用于采用第二预设语言工具对每个所述短语进行词性标注,以得到所述短语所对应的词性标注信息,所述词性标注信息包括所述短语及所述短语所对应的词性;
编码子单元,用于基于所有所述短语及所述短语所对应的所述词性标注信息,通过预设编码方式进行编码,以得到所述目标单语句所包含的外部信息编码;
所述外部信息编码为分词依存关系编码,所述编码子单元包括:
分析子单元,用于采用第三预设语言工具对所述短语及所述词性标注信息进行依存关系分析,以得到依存关系树;
依存关系编码子单元,用于采用预设依存编码方式对所述依存关系树进行编码,以得到所述目标单语句所包含的外部信息编码;
所述外部信息编码为词性标注信息编码,所述编码子单元具体用于:
采用预设BIES标注方式对每个所述短语所对应的词性标注信息进行编码以得到每个所述词性标注信息所对应的4个编码;
对K个词性标注信息进行编码以得到4K个编码,从而得到所述目标单语句所包含的外部信息编码,其中,K为自然数。
4.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述计算机程序,以执行如权利要求1-2任一项所述方法的步骤。
5.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1-2中任一项所述方法的步骤。
CN202010688324.4A 2020-07-16 2020-07-16 单语句自然语言处理方法、装置、计算机设备及可读存储介质 Active CN111832318B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010688324.4A CN111832318B (zh) 2020-07-16 2020-07-16 单语句自然语言处理方法、装置、计算机设备及可读存储介质
PCT/CN2020/118735 WO2021143206A1 (zh) 2020-07-16 2020-09-29 单语句自然语言处理方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010688324.4A CN111832318B (zh) 2020-07-16 2020-07-16 单语句自然语言处理方法、装置、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111832318A CN111832318A (zh) 2020-10-27
CN111832318B true CN111832318B (zh) 2023-03-21

Family

ID=72924333

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010688324.4A Active CN111832318B (zh) 2020-07-16 2020-07-16 单语句自然语言处理方法、装置、计算机设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN111832318B (zh)
WO (1) WO2021143206A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112348604B (zh) * 2020-11-26 2023-11-17 税友软件集团股份有限公司 发票商品编码赋值方法、系统、装置及可读存储介质
CN113609275B (zh) * 2021-08-24 2024-03-26 腾讯科技(深圳)有限公司 信息处理方法、装置、设备及存储介质
CN114997140B (zh) * 2021-09-17 2023-04-28 荣耀终端有限公司 校验语义的方法和装置
CN114372153A (zh) * 2022-01-05 2022-04-19 重庆大学 基于知识图谱的法律文书结构化入库方法及系统
CN114639489B (zh) * 2022-03-21 2023-03-24 广东莲藕健康科技有限公司 基于相互学习的问诊快捷回复推荐方法、装置及电子设备
CN114896372B (zh) * 2022-06-09 2024-06-28 杭州师范大学 一种提高数据意图识别能力的文本数据增强方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN111291166A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于Bert的语言模型的训练方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2639684C2 (ru) * 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
US11544461B2 (en) * 2019-05-14 2023-01-03 Intel Corporation Early exit for natural language processing models
CN110489750A (zh) * 2019-08-12 2019-11-22 昆明理工大学 基于双向lstm-crf的缅甸语分词及词性标注方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062217A (zh) * 2019-12-19 2020-04-24 江苏满运软件科技有限公司 语言信息的处理方法、装置、存储介质及电子设备
CN111291166A (zh) * 2020-05-09 2020-06-16 支付宝(杭州)信息技术有限公司 基于Bert的语言模型的训练方法及装置

Also Published As

Publication number Publication date
WO2021143206A1 (zh) 2021-07-22
CN111832318A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN111832318B (zh) 单语句自然语言处理方法、装置、计算机设备及可读存储介质
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
WO2021072852A1 (zh) 序列标注方法、系统和计算机设备
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
US20230029759A1 (en) Method of classifying utterance emotion in dialogue using word-level emotion embedding based on semi-supervised learning and long short-term memory model
CN110347790B (zh) 基于注意力机制的文本查重方法、装置、设备及存储介质
CN114556328A (zh) 数据处理方法、装置、电子设备和存储介质
CN108228574B (zh) 文本翻译处理方法及装置
CN111798118B (zh) 企业经营风险监控方法及装置
CN110890097A (zh) 语音处理方法及装置、计算机存储介质、电子设备
CN111209746A (zh) 自然语言处理方法、装置、存储介质及电子设备
CN113434631B (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN112307754A (zh) 语句获取方法及装置
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN113283218A (zh) 一种语义文本压缩方法及计算机设备
Kumar et al. Pattern-based syntactic simplification of compound and complex sentences
CN109657244B (zh) 一种英文长句自动切分方法及系统
CN112466286A (zh) 数据处理方法及装置、终端设备
CN115620726A (zh) 语音文本生成方法、语音文本生成模型的训练方法、装置
CN116127983A (zh) 文本编码方法、装置、电子设备及存储介质
CN113591493B (zh) 翻译模型的训练方法及翻译模型的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant