CN112528600B - 文本数据处理方法、相关装置及计算机程序产品 - Google Patents

文本数据处理方法、相关装置及计算机程序产品 Download PDF

Info

Publication number
CN112528600B
CN112528600B CN202011475545.XA CN202011475545A CN112528600B CN 112528600 B CN112528600 B CN 112528600B CN 202011475545 A CN202011475545 A CN 202011475545A CN 112528600 B CN112528600 B CN 112528600B
Authority
CN
China
Prior art keywords
text
industry
layer
classifier
relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011475545.XA
Other languages
English (en)
Other versions
CN112528600A (zh
Inventor
方舟
史亚冰
蒋烨
柴春光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011475545.XA priority Critical patent/CN112528600B/zh
Publication of CN112528600A publication Critical patent/CN112528600A/zh
Application granted granted Critical
Publication of CN112528600B publication Critical patent/CN112528600B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,涉及深度学习、自然语言处理、知识图谱构建、智能问答等人工智能技术领域。该方法的一具体实施方式包括:将获取到的待处理行业文本转换为文本序列;根据文本序列生成包含上下文语境的各文本向量;利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组。应用该实施方式可以尽可能准确的挖掘出文本向量存在的多层嵌套关系文本对。

Description

文本数据处理方法、相关装置及计算机程序产品
技术领域
本申请涉及数据处理技术领域,具体涉及深度学习、自然语言处理、知识图谱构建、智能问答等人工智能技术领域,尤其涉及文本数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
得益于人工智能与深度学习技术的发展,信息抽取等自然语言处理相关技术近些年出现了突飞猛进的发展。
借助信息抽取技术可以用于辅助行业中的智能问答、智能客服等依赖信息处理与信息检索的需求,进而直接向用户返回查询结果,而不是向用户返回可能包含查询结果的网页或文件列表。
发明内容
本申请实施例提出了一种文本数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
第一方面,本申请实施例提出了一种文本数据处理方法,包括:将获取到的待处理行业文本转换为文本序列;根据文本序列生成包含上下文语境的各文本向量;利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组。
第二方面,本申请实施例提出了一种文本数据处理装置,包括:文本处理单元,被配置成将获取到的待处理行业文本转换为文本序列;文本向量生成单元,被配置成根据文本序列生成包含上下文语境的各文本向量;嵌套关系对起止位置确定单元,被配置成利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;主谓宾三元组生成单元,被配置成从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理器执行时能够实现如第一方面中任一实现方式描述的文本数据处理方法。
第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使计算机执行时能够实现如第一方面中任一实现方式描述的文本数据处理方法。
第五面,本申请实施例提供了一种包括计算机程序的计算机程序产品,该计算机程序在被处理器执行时能够实现如第一方面中任一实现方式描述的文本数据处理方法。
本申请实施例提供的文本数据处理方法、装置、电子设备、计算机可读存储介质及计算机程序产品,首先,将获取到的待处理行业文本转换为文本序列;然后,根据文本序列生成包含上下文语境的各文本向量;接着,利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;最后,从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组。
本申请针对存在多层、复杂嵌套关系的行业文本,提供一种基于Schema约束构建的多指针模型,多指针模型经服从Schema约束的训练样本的训练,得以尽可能准确的挖掘出文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系,进而提升对包含多层、复杂嵌套关系文本对抽取准确性,进而提升主谓宾三元组的提取全面性和提取准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构;
图2为本申请实施例提供的一种文本数据处理方法的流程图;
图3为本申请实施例提供的另一种文本数据处理方法的流程图;
图4为本申请实施例为主谓宾生成方法提供的一种基于分类器识别首层关系对各成分起止位置的方法的流程图;
图5为本申请实施例提供的在一应用场景下的文本数据处理方法的流程示意图;
图6为本申请实施例提供的一种文本数据处理装置的结构框图;
图7为本申请实施例提供的一种适用于执行文本数据处理方法的电子设备的结构示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1示出了可以应用本申请的文本数据处理方法、装置、电子设备及计算机可读存储介质的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。其中,终端设备101、102、103用于通过网络104向服务器105发送用于待处理行业文本,网络104为终端设备101、102、103与服务器105之间进行数据通信的通信链路,服务器105则用于从接收到的待处理行业文本中提取出其中包含的所有关系文本对,并根据关系文本对生成主谓宾三元组。
具体的,终端设备101、102、103和服务器105可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是包括智能手机、平板电脑、膝上型便携计算机和台式计算机在内的各种电子设备;当终端设备101、102、103为软件时,可以是安装在上述所列举的电子设备中的单/多个软件/功能模块,在此不做具体限定。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器;服务器为软件时,也可以实现成单/多个软件/功能模块,在此不做具体限定。
上述目的可通过安装在终端设备101、102、103和服务器105上的应用来实现,例如主谓宾三元组提取应用(可进一步分为客户端的部分和服务端的部分),另外,为尽可能保障主谓宾三元组提取操作的良好稳定运行,终端设备101、102、103和服务器105上还可以安装其他应用,例如故障诊断类应用、用于与管理或运维人员进行通信的通信类应用等等。
以提供针对行业文本的主谓宾三元组提取服务的主谓宾三元组提取应用为例,安装有该应用的服务器105可在运行该主谓宾三元组提取应用时实现如下效果:首先,通过网络104从终端设备101、102、103处获取到待处理行业文本;然后,将获取到的待处理行业文本转换为文本序列;接下来,根据文本序列生成包含上下文语境的各文本向量;下一步,利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;最后,从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组。
进一步的,服务器105还可以调用知识图谱构建应用来基于提取出的主谓宾三元组来构建相应行业的知识图谱,并进一步实现基于行业知识图谱的智能问答服务。
需要指出的是,待处理行业文本除可以从终端设备101、102、103通过网络104实时获取到之外,也可以从其它记载有相同或类似文本信息的网站爬取得到,除实时获取的方式之外,也可以通过各种方式将之前获取到的待处理行业文本预先存储在服务器105本地,以便在服务器105检测到本地已经存储有这些数据时可选择基于本地数据进行后续处理步骤。在此种情况下,示例性系统架构100也可以不包括终端设备101、102、103和网络104。
由于根据待处理行业文本生成主谓宾三元组需要占用较多的运算资源和较强的运算能力,尤其是其中包含有多层、复杂嵌套关系的行业文本,因此本申请后续各实施例所提供的文本数据处理方法一般由拥有较强运算能力、较多运算资源的服务器105来执行,相应地,文本数据处理装置一般也设置于服务器105中。但同时也需要指出的是,在某些特定的终端设备也具有满足要求的运算能力和运算资源时,也可以将这些特定的终端设备完成上述本交由服务器105做的各项运算,进而输出与服务器105同样的结果。相应的,文本数据处理装置也可以设置于终端设备101、102、103中。在此种情况下,示例性系统架构100也可以不包括服务器105和网络104。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
请参考图2,图2为本申请实施例提供的一种文本数据处理方法的流程图,其中流程200包括以下步骤:
步骤201:将获取到的待处理行业文本转换为文本序列;
本申请所针对的行业文本是指其中包含有大量与行业专有名词相关的实体的文本,以军事领域的行业文本为例,其中可能包含有大量诸如“火箭炮”、“导弹”、“舰艇”、“全长”、“长达”、“射程”、“航程”、“5米”、“300公里”、“2000海里”等与武器相关的专用名词。待处理文本可通过多种渠道获取,例如从图片中经光学字符识别技术识别后获取,也可以从表格中按照表格中记载的结构化信息获取。
上述各专用名词之间往往存在对应关系,例如“火箭炮的全长为5米”、“导弹的射程为300公里”、“舰艇的航程为2000海里”,而且可以看出的,上述专用名词之间存在的对应关系多是处于多层嵌套的,即“全长”表示的“长度”作为“火箭炮”的长度属性存在,这层对应关系表示的武器与其长度之间的对应关系,而“5米”又将作为“全长”的具体属性数值存在,因此一共形成了两层相互嵌套的关系文本对。
某些行业文本中甚至可以包含更多层相互嵌套的关系文本对,如何准确的识别多层嵌套关系并准确将其关联起来,而不是肢解开来错误的进行识别,是本领域技术人员亟待解决的问题。
为解决这一问题,本步骤首先由文本数据处理方法的执行主体(例如图1所示的服务器105)将获取到的待处理行业文本转换为文本序列。之所以要将待处理行业文本转换为文本序列,是为了使得转换后的文本序列更便于进行后续的处理,文本序列实际上是通过将各文本字符按照明确的顺序进行排列后得到的。
具体的,待处理行业文本可从任何记载有其的载体上获取到,例如接收自图1所示的终端设备101、102、103。也可以从设定的发布权威行业信息的网站或数据源爬取等。
步骤202:根据文本序列生成包含上下文语境的各文本向量;
在步骤201的基础上,本步骤旨在由上述执行主体进一步的将文本序列转换为文本向量,并使得文本向量包含有上下文语境。其中,上下文语境的包含将便于后续判断当前文本向量对应的文本中某些名词所处的实际语境,以便于做出更准确的判断,而向量这一表达形式,将更便于上述执行主体对其各项处理,进而提升处理效率。
应当理解的是,无论是表达为向量还是其它形式,并不会因为表达形式的变更损失未变更之前包含的信息,进行形式的转换主要是为了考虑到执行主体为某类形式的数据的处理效率更佳,以及通过表达形式的变更使得原始信息中包含的某种特征尽可能的得到凸显或放大。
步骤203:利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置;
其中,本步骤预先训练得到的多指针模型能够表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系,为使得多指针模型能够拥有这一能力,将预先使用能够体现这一对应关系的训练样本对初始多指针模型进行训练,以通过训练使的训练后的多指针模型拥有这一能力。上述对应关系在本申请中通常通过预先设定服从预设Schema(约束)的规则来实现。
在步骤202的基础上,本步骤旨在由上述执行主体通过该多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置。在实践层面,需要将文本向量作为输入数据输入该多指针模型,并接收所述多指针模型输出的嵌套的多层关系对各自的起始和终止位置。应当理解的是,关系对的存在形式类似于Key-Value(键值对),也可以是每层关系对均包含一个“Key”和一个“Value”,假定仅存在嵌套的两层关系对,那么首层关系对的“Value”将作为第二层关系对的“Key”存在。
具体的,多指针模型的架构可以是基于多分类器设计得到的,也可以是按照遵循BIO表示法设计得到的,BIO表示法是一种将名词或名词短语的首个字符标注为B、非首个字符标注为I、不同名词之间的连接部分标注为O的标注法,可通过遵循这种标注方法的训练样本训练多指针模型对名词短语或短句中各实体的标注能力,进而实现上述目的。
步骤204:从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组。
在步骤203的基础上,本步骤旨在由上述执行主体从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组。
承接上例,假定根据步骤203分别确定出了首层关系对和第二层关系对(假定该例子中仅存在嵌套的两次关系对)的Key和Value的起止位置,然后按照起止位置抽取出的首层关系对文本为“舰艇-航程”、第二次关系对文本为“航程-2000海里”,最终将得到“舰艇-航程-2000海里”的主谓宾三元组(也简称为SPO三元组,SPO是Subject-Predication-Object的缩写)。
针对存在多层、复杂嵌套关系的行业文本,本申请实施例提供的文本数据处理方法提供了一种基于Schema约束构建出的多指针模型的实现方式,多指针模型经服从Schema约束的训练样本的训练,得以尽可能准确的挖掘出文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系,进而提升对包含多层、复杂嵌套关系文本对抽取准确性,进而提升主谓宾三元组的提取全面性和提取准确性。
针对待处理行业文本中最多仅存在嵌套的两层关系对的情况,本申请还通过图3给出了另一种文本数据处理方法的流程图,其流程300包括以下步骤:
步骤301:将获取到的待处理行业文本转换为文本序列;
步骤302:将文本序列输入预先训练好的语言模型;
其中,语言模型用于表征文本序列与包含上下文语境文本的文本向量之间的转换对应关系,即该语言模型经训练后实际上拥有了判别不同文本字符之间相互在语境中位置的能力,使其通过这种能力生成包含上下文语境特征的文本向量。同上述的多指针模型一样,均属于预训练类模型,即其拥有的能力需要实现通过能够体现出这种对应关系的训练样本进行训练,从而在训练过程中让语言模型不断学习,并最终拥有这种能力。
步骤303:接收语言模型输出的与输出的文本序列对应的文本向量;
在步骤302的基础上,本步骤旨在由上述执行主体接收语言模型输出的与输出的文本序列对应的文本向量。由于语言模型在生成文本向量中考虑到上下文语境,因此生成的文本向量中也将包含上下文语境特征。
步骤304:利用多指针模型中的第一分类器识别文本向量中首层关系对的起止位置;
步骤305:利用多指针模型中的第二分类器识别文本向量中第二层关系对的起止位置;
上述步骤303和步骤304,由上述执行主体分别利用多指针模型中的不同分类器来分别识别文本向量中首层和第二层关系对的起止位置。具体的,在不需要参考上一层的识别结果的情况下,用于识别文本向量中首层关系对的起止位置的第一分类器和用于识别文本向量中第二层关系对的起止位置的第二分类器是完全可以独立工作的;而在需要参考上一层的识别结果的情况下,第二分类器可以在第一分类器得到结果之后再依据其结果开始自己的工作。具体采用哪种可根据实际情况灵活选择,此处不做具体限定。
步骤306:从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组;
步骤307:根据主谓宾三元组构建待处理行业文本所属行业的知识图谱。
区别于上一实施例,本实施例针对流程200中的步骤202提供了由步骤302-步骤303构成的一种优选实现方案,借助基于训练样本经训练得到的语言模型,使得可更准确的输出与输入的文本序列对应的包含上下文语境的文本向量;本实施例针对流程200中的步骤203提供了由步骤304-步骤305构成的一种优选实现方案,分别借助两个专用于不同层次关系对识别的分类器来确定不同层次关系对的起止位置,准确的分工将使得准确性得到增强。
同时应当理解的是,由步骤302-步骤303构成的优选实现方案与由步骤304-步骤305构成的优选实现方案之间并不存在因果和依赖关系,两个优选实现方案完全是针对不同上位方案分别给出的互不影响的下位优选实现方案,完全可以分别结合上一实施例形成两个不同的新实施例,本实施例仅作为同时存在两个优选方案的优选实施例存在。
为了进一步明确如何利用分类器来准确确定目标的起止位置,下述还通过图4示出了一种具体如何确定出首层关系对中各成分的实现方式,其流程400包括:
步骤401:利用多指针模型中的第一分类器中的第一子分类器识别文本向量中首层关系对中主语的起止位置;
步骤402:利用多指针模型中的第一分类器中的第二子分类器识别文本向量中首层关系对中谓语或宾语的起止位置;
步骤403:利用多指针模型中的第一分类器中的第三子分类器识别文本向量中首层关系对中非主语、非谓语和非宾语的其它成本的起止位置,并将其作为非必要成分位置;
步骤404:利用非必要成分位置验证主语、谓语、宾语的起止位置的准确性。
可以看出,用于识别文本向量中首层关系对的起止位置的第一分类器包含有三个不同的子分类器,其中的第一子分类器的作用可以等效理解为识别首层关系对中“Key”的起止位置,第二子分类器的作用可以等效理解为识别首层关系对中“Value”的起止位置,第三子分类器的作用可以等效理解为识别包含首层关系对中非Key和非Value的非必要成分的起止位置,进而能够通过非必要成分位置是否与必要成分(即作为Key或Value的主谓宾语)位置重叠来反向验证其位置的准确性,从而使得必要成分的位置更加准确。
当然,若实际应用场景下更加追求效率和速度,也可以选择性的去除第三子分类器,直接采纳将第一子分类器和第二子分类器输出的结果。
在上述任意实施例的基础上,还可以根据提取出的主谓宾三元组构建待处理行业文本所属行业的知识图谱,以利用形成的行业知识图谱满足各式匹配的需求,例如可直接输出问题答案的行业知识查询需求、行业信息验证需求等等。
以可直接输出问题答案的行业知识查询需求为例,可具体实现为:首先,接收用户传入的行业知识查询请求;然后,根据行业知识查询请求在对应行业的知识图谱中查询目标知识;接着,将目标知识作为查询结果返回给用户。应当理解的是,上述基于行业知识图谱实现的查询请求响应操作将在用户查询的目标行业知识包含于行业知识图谱的情况下,直接向用户返回答案,而不是像常规的查询方式一样返回可能包含有答案的网页列表。类似的实现方式可以较好的应用在智能问题、智能客服等方面,得以显著提升用户体验。
为加深理解,本申请还结合一个具体应用场景,给出了一种具体的实现方案,请参见图5。
假定当前存在如下的一段待处理行业文本:“三笠是六六舰队计划中的最后一艘战列舰,该舰向英国的维克斯(Vicers)公司订购,设计师是詹姆斯邓恩。1899年1月24日在巴罗因弗内斯船厂动工。1900年11月8月下水。1902年1月15日至20日海试,3月1日在南安普顿举行交接仪式交于日本海军。”
将按照下述步骤处理上述待处理行业文本:
1)服务器将上述待处理行业文本拆分为多个行业短文本序列;
以拆分出的包含上下文语境的“三笠号于1899年1月24日在英国Vicers公司开工建造”为例阐述后续步骤;
2)服务器输入该行业短文本序列,并在输入层为该短文本序列的开头补充「CLS」(Class,种类)用来表征分类特征;
3)服务器将处理后的短文本序列输入预训练的语言模型层(等效于上文的语言模型,此处将其抽象为一个功能层存在于整体中),得到输出的文本向量;
图5中具体使用了ERNIE预训练语言模型和参数,该模型会将输入的短文本序列转换为包含了上下文语境特征的文本向量。这里主要使用transformer(变换)单元,该模型层中可以有多层的transformer单元,每一层的每一个transformer单元对应了输入中的一个单元,同一层内的transformer单元不互相连接,不同层之间的transformer单元两两连接(图中只示意性的展示了两层tranformer的连接情况)。
4)服务器将输出的文本向量输入预训练的多指针模型层(等效于上文的多指针模型,此处将其抽象为一个功能层存在于整体中),输出嵌套的各层关系对的起止位置;
根据预先定义的schema(约束)将生成总数为2(M+N)个的分类器,其中,M为stype-p(可等效理解为首层关系对)对的数量,其中每一个stype-p对应了两个分类器,分别用来学习符合stype-p约束的实体开始位置和结束位置;同样,每一个otype-p(可等效理解为第二层关系对)也对应了两个分类器,分别用来学习符合otype-p约束的属性值的起止位置。如图5所示,例如第1个分类器可表示舰船舰艇-制造商的实体在文本中的第一个token为开始位置,第2个分类器可表示舰船舰艇-制造商的实体在文本中的第三个token为结束位置。第k个分类器可表示制造商-组织机构的值在文本中的第18个token为开始位置,第k+1个分类器可表示制造商-组织机构的值在文本中的第25个token为结束位置。
5)服务器在整体的输出层得到预测得到的起止位置,将与起止位置对应的文本抽取并拼接,最终输出。
根据上一层预测得到的起止位置,组合拼接为最终的实体-属性-属性值输出。如上述示例,已经预测得到舰船舰艇-制造商的位置为1-3,制造商-组织机构的位置为18-25,那么可以得到最终的实体-属性输出,三笠号-制造商-Vicers公司。
最终,通过上述步骤可从输入的“三笠号于1899年1月24日在英国Vicers公司开工建造”短文本序列中共提取出“三笠号-制造商-Vicers”、“三笠号-产国-英国”、“三笠号-建造时间-1899年1月24日”三个不同的主谓宾三元组。
进一步的,上述提取出的主谓宾三元组将可以加入“舰艇”这一行业的知识图谱,并进一步满足用户发起的智能问答,例如当用户发起的查询问题为“三笠号是哪个国家制造的?”时,通过上述知识图谱中记载的知识,将可以直接将其返回“英国”的答案。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了一种文本数据处理装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的文本数据处理装置600可以包括:文本处理单元601、文本向量生成单元602、嵌套关系对起止位置确定单元603以及主谓宾三元组生成单元604。其中,文本处理单元601,被配置成将获取到的待处理行业文本转换为文本序列;文本向量生成单元602,被配置成根据文本序列生成包含上下文语境的各文本向量;嵌套关系对起止位置确定单元603,被配置成利用预设的多指针模型分别确定文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,多指针模型表征文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系;主谓宾三元组生成单元604,被配置成从起止位置抽取得到相应的关系对文本,并根据对应关系对生成待处理行业文本的主谓宾三元组。
在本实施例中,文本数据处理装置600中:文本处理单元601、文本向量生成单元602、嵌套关系对起止位置确定单元603以及主谓宾三元组生成单元604的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,文本向量生成单元602可以进一步被配置成:
将文本序列输入预先训练好的语言模型;其中,语言模型用于表征文本序列与包含上下文语境文本的文本向量之间的转换对应关系;
接收语言模型输出的与输出的文本序列对应的文本向量。
在本实施例的一些可选的实现方式中,当文本向量仅存在两层嵌套关系的关系对时,嵌套关系对起止位置确定单元603可以包括:
首层关系对起止位置确定子单元,被配置成利用多指针模型中的第一分类器识别文本向量中首层关系对的起止位置;
第二层关系对起止位置确定子单元,被配置成利用多指针模型中的第二分类器识别文本向量中第二层关系对的起止位置。
在本实施例的一些可选的实现方式中,首层关系对起止位置确定子单元可以包括:
主语位置确定模块,被配置成利用多指针模型中的第一分类器中的第一子分类器识别文本向量中首层关系对中主语的起止位置;
谓/宾语位置确定模块,被配置成利用多指针模型中的第一分类器中的第二子分类器识别文本向量中首层关系对中谓语或宾语的起止位置。
在本实施例的一些可选的实现方式中,首层关系对起止位置确定子单元还可以包括:
其它成分位置确定模块,被配置成利用多指针模型中的第一分类器中的第三子分类器识别文本向量中首层关系对中非主语、非谓语和非宾语的其它成本的起止位置,并将其作为非必要成分位置;
关键成分位置验证模块,被配置成利用非必要成分位置验证主语、谓语、宾语的起止位置的准确性。
在本实施例的一些可选的实现方式中,文本数据处理装置600还可以包括:
行业知识图谱构建单元,被配置成根据主谓宾三元组构建待处理行业文本所属行业的知识图谱。
在本实施例的一些可选的实现方式中,文本数据处理装置600还可以包括:
知识查询请求接收单元,被配置成接收用户传入的行业知识查询请求;
根据行业知识查询请求在对应行业的知识图谱中查询目标知识;
将目标知识作为查询结果返回给用户。
本实施例作为对应于上述方法实施例的装置实施例存在,针对存在多层、复杂嵌套关系的行业文本,本申请实施例提供的文本数据处理装置提供了一种基于Schema约束构建出的多指针模型的实现方式,多指针模型经服从Schema约束的训练样本的训练,得以尽可能准确的挖掘出文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系,进而提升对包含多层、复杂嵌套关系文本对抽取准确性,进而提升主谓宾三元组的提取全面性和提取准确性。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如文本数据处理方法。例如,在一些实施例中,文本数据处理方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的文本数据处理方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大,业务扩展性弱的缺陷。
针对存在多层、复杂嵌套关系的行业文本,本申请提供了一种基于Schema约束构建出的多指针模型的实现方式,多指针模型经服从Schema约束的训练样本的训练,得以尽可能准确的挖掘出文本向量与其中存在的多层嵌套关系的关系对的起止位置的对应关系,进而提升对包含多层、复杂嵌套关系文本对抽取准确性,进而提升主谓宾三元组的提取全面性和提取准确性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (11)

1.一种文本数据处理方法,包括:
将获取到的待处理行业文本转换为文本序列;
根据所述文本序列生成包含上下文语境的各文本向量;
利用预设的多指针模型分别确定所述文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,包括:响应于所述文本向量仅存在两层嵌套关系的关系对,利用所述多指针模型中的第一分类器中的第一子分类器识别所述文本向量中首层关系对中主语的起止位置;利用所述第一分类器中的第二子分类器识别所述文本向量中首层关系对中谓语或宾语的起止位置;利用所述第一分类器中的第三子分类器识别所述文本向量中首层关系对中除所述主语、所述谓语和所述宾语之外的非必要成分的起止位置;利用所述非必要成分的起止位置验证所述主语、所述谓语、所述宾语的起止位置的准确性;利用所述多指针模型中的第二分类器识别所述文本向量中第二层关系对的起止位置;
从所述起止位置抽取得到相应的关系对文本,并根据所述关系对文本生成所述待处理行业文本的主谓宾三元组。
2.根据权利要求1所述的方法,其中,所述根据所述文本序列生成包含上下文语境特征的各文本向量,包括:
将所述文本序列输入预先训练好的语言模型;其中,所述语言模型用于表征文本序列与包含上下文语境文本的文本向量之间的转换对应关系;
接收所述语言模型输出的与输入的文本序列对应的文本向量。
3.根据权利要求1或2所述的方法,还包括:
根据所述主谓宾三元组构建所述待处理行业文本所属行业的知识图谱。
4.根据权利要求3所述的方法,还包括:
接收用户传入的行业知识查询请求;
根据所述行业知识查询请求在对应行业的知识图谱中查询目标知识;
将所述目标知识作为查询结果返回给所述用户。
5.一种文本数据处理装置,包括:
文本处理单元,被配置成将获取到的待处理行业文本转换为文本序列;
文本向量生成单元,被配置成根据所述文本序列生成包含上下文语境的各文本向量;
嵌套关系对起止位置确定单元,被配置成利用预设的多指针模型分别确定所述文本向量中存在的至少两层嵌套关系对中每层关系对各自的起止位置,具体被配置成:响应于所述文本向量仅存在两层嵌套关系的关系对,利用所述多指针模型中的第一分类器中的第一子分类器识别所述文本向量中首层关系对中主语的起止位置;利用所述第一分类器中的第二子分类器识别所述文本向量中首层关系对中谓语或宾语的起止位置;利用所述第一分类器中的第三子分类器识别所述文本向量中首层关系对中除所述主语、所述谓语和所述宾语之外的非必要成分的起止位置;利用所述非必要成分的起止位置验证所述主语、所述谓语、所述宾语的起止位置的准确性;利用所述多指针模型中的第二分类器识别所述文本向量中第二层关系对的起止位置;
主谓宾三元组生成单元,被配置成从所述起止位置抽取得到相应的关系对文本,并根据所述关系对文本生成所述待处理行业文本的主谓宾三元组。
6.根据权利要求5所述的装置,其中,所述文本向量生成单元进一步被配置成:
将所述文本序列输入预先训练好的语言模型;其中,所述语言模型用于表征文本序列与包含上下文语境文本的文本向量之间的转换对应关系;
接收所述语言模型输出的与输入的文本序列对应的文本向量。
7.根据权利要求5或6所述的装置,还包括:
行业知识图谱构建单元,被配置成根据所述主谓宾三元组构建所述待处理行业文本所属行业的知识图谱。
8.根据权利要求7所述的装置,还包括:
知识查询请求接收单元,被配置成接收用户传入的行业知识查询请求;
查询单元,被配置成根据所述行业知识查询请求在对应行业的知识图谱中查询目标知识;
结果返回单元,被配置成将所述目标知识作为查询结果返回给所述用户。
9.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的文本数据处理方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的文本数据处理方法。
11.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-4中任一项所述的文本数据处理方法。
CN202011475545.XA 2020-12-15 2020-12-15 文本数据处理方法、相关装置及计算机程序产品 Active CN112528600B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011475545.XA CN112528600B (zh) 2020-12-15 2020-12-15 文本数据处理方法、相关装置及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011475545.XA CN112528600B (zh) 2020-12-15 2020-12-15 文本数据处理方法、相关装置及计算机程序产品

Publications (2)

Publication Number Publication Date
CN112528600A CN112528600A (zh) 2021-03-19
CN112528600B true CN112528600B (zh) 2024-05-07

Family

ID=75000007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011475545.XA Active CN112528600B (zh) 2020-12-15 2020-12-15 文本数据处理方法、相关装置及计算机程序产品

Country Status (1)

Country Link
CN (1) CN112528600B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312489B (zh) * 2021-04-13 2023-05-05 武汉烽火众智数字技术有限责任公司 一种基于nlp和图数据库的全景检索系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710913A (zh) * 2017-10-26 2019-05-03 张云翔 基于依存分析的语义层次结构生成方法及终端
CN110347803A (zh) * 2019-07-18 2019-10-18 北京百度网讯科技有限公司 获得阅读理解素材的方法和装置、电子设备、可读介质
CN110489751A (zh) * 2019-08-13 2019-11-22 腾讯科技(深圳)有限公司 文本相似度计算方法及装置、存储介质、电子设备
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110866402A (zh) * 2019-11-18 2020-03-06 北京香侬慧语科技有限责任公司 一种命名实体识别的方法、装置、存储介质及电子设备
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111353310A (zh) * 2020-02-28 2020-06-30 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备
CN111507083A (zh) * 2020-06-19 2020-08-07 科大讯飞(苏州)科技有限公司 文本解析方法、装置、设备及存储介质
CN111859858A (zh) * 2020-07-22 2020-10-30 智者四海(北京)技术有限公司 从文本中提取关系的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9704098B2 (en) * 2014-05-22 2017-07-11 Siemens Aktiengesellschaft Generating a classifier for performing a query to a given knowledge base
US11036726B2 (en) * 2018-09-04 2021-06-15 International Business Machines Corporation Generating nested database queries from natural language queries

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710913A (zh) * 2017-10-26 2019-05-03 张云翔 基于依存分析的语义层次结构生成方法及终端
CN110347803A (zh) * 2019-07-18 2019-10-18 北京百度网讯科技有限公司 获得阅读理解素材的方法和装置、电子设备、可读介质
CN110489751A (zh) * 2019-08-13 2019-11-22 腾讯科技(深圳)有限公司 文本相似度计算方法及装置、存储介质、电子设备
CN110795543A (zh) * 2019-09-03 2020-02-14 腾讯科技(深圳)有限公司 基于深度学习的非结构化数据抽取方法、装置及存储介质
CN110866402A (zh) * 2019-11-18 2020-03-06 北京香侬慧语科技有限责任公司 一种命名实体识别的方法、装置、存储介质及电子设备
CN111291185A (zh) * 2020-01-21 2020-06-16 京东方科技集团股份有限公司 信息抽取方法、装置、电子设备及存储介质
CN111353310A (zh) * 2020-02-28 2020-06-30 腾讯科技(深圳)有限公司 基于人工智能的命名实体识别方法、装置及电子设备
CN111507083A (zh) * 2020-06-19 2020-08-07 科大讯飞(苏州)科技有限公司 文本解析方法、装置、设备及存储介质
CN111859858A (zh) * 2020-07-22 2020-10-30 智者四海(北京)技术有限公司 从文本中提取关系的方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向司法案件的案情知识图谱自动构建;洪文兴;胡志强;翁洋;张恒;王竹;郭志新;;中文信息学报;20200115(01);全文 *

Also Published As

Publication number Publication date
CN112528600A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
KR20210038449A (ko) 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체
KR20210152924A (ko) 엔티티 연결 방법, 장치, 기기 및 저장 매체
CN112487173B (zh) 人机对话方法、设备和存储介质
CN116795973B (zh) 基于人工智能的文本处理方法及装置、电子设备、介质
CN113836925B (zh) 预训练语言模型的训练方法、装置、电子设备及存储介质
CN112528600B (zh) 文本数据处理方法、相关装置及计算机程序产品
CN114120166B (zh) 视频问答方法、装置、电子设备及存储介质
KR102608867B1 (ko) 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램
CN108268443B (zh) 确定话题点转移以及获取回复文本的方法、装置
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN117648422A (zh) 问答提示系统、问答提示、库构建、模型训练方法和装置
CN117112595A (zh) 一种信息查询方法、装置、电子设备及存储介质
CN113139558A (zh) 确定物品的多级分类标签的方法和装置
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN110688837A (zh) 数据处理的方法及装置
CN114238611B (zh) 用于输出信息的方法、装置、设备以及存储介质
CN116186219A (zh) 一种人机对话交互方法方法、系统及存储介质
CN112905752A (zh) 一种智能交互方法、装置、设备以及存储介质
CN115828915B (zh) 实体消歧方法、装置、电子设备和存储介质
CN115510203B (zh) 问题答案确定方法、装置、设备、存储介质及程序产品
CN112182182B (zh) 多轮会话的实现方法、装置、设备及存储介质
CN116089587B (zh) 答案生成方法、装置、设备及存储介质
CN117194730B (zh) 一种意图识别和问答方法、装置、电子设备及存储介质
CN116484870B (zh) 提取文本信息的方法、装置、设备及介质
CN117421403A (zh) 智能对话方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant