CN110489744A - 一种语料的处理方法、装置、电子设备和存储介质 - Google Patents

一种语料的处理方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN110489744A
CN110489744A CN201910676626.7A CN201910676626A CN110489744A CN 110489744 A CN110489744 A CN 110489744A CN 201910676626 A CN201910676626 A CN 201910676626A CN 110489744 A CN110489744 A CN 110489744A
Authority
CN
China
Prior art keywords
entity
corpus
training corpus
default
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910676626.7A
Other languages
English (en)
Other versions
CN110489744B (zh
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910676626.7A priority Critical patent/CN110489744B/zh
Publication of CN110489744A publication Critical patent/CN110489744A/zh
Application granted granted Critical
Publication of CN110489744B publication Critical patent/CN110489744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种语料的处理方法、装置、电子设备及存储介质,该方法包括:根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息,根据训练语料库中的训练语料以及训练语料对应的实体类型信息对模型参量为第一参量的语言模型进行训练,得到模型参量为第二参量的语言模型,根据模型参量为第二参量的语言模型对待识别语料进行识别,以获得待识别语料中实体的特征信息,该特征信息包括关系信息,根据实体的特征信息对该待识别语料进行语料处理。如此,可以增加实体的特征信息中包含的内容,以使在对数据的处理时,可以提供更多依据。

Description

一种语料的处理方法、装置、电子设备和存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种语料的处理方法、装置、电子设备和存储介质。
背景技术
随着互联网技术的飞速发展,越来越多的数据需要基于语言模型进行预处理,以使该数据可以根据预处理得到的信息进行进一步的处理。现有技术中,虽然都是基于大规模的语料库中的语料对初始语言模型进行训练得到一个参量为训练参量的语言模型,但是如今的语言模型只是简单地进行上下文的学习。这导致了训练好的参量为训练参量的语言模型对数据进行识别时,得到该数据中某些词的特征信息,但是这些特征信息仅仅关系该词的上下文。
然而,随着需要识别的数据的结构和内容越来越复杂,且对识别要求越来越高,仅仅得到的关于上下文的特征信息是不能满足需求的。因此,本申请提供一种语料的处理方法、装置、电子设备和存储介质,可以增加得到的词的特征信息中包含的内容,以使对数据的处理增加更多依据。
发明内容
本申请实施例提供了一种语料的处理方法、装置、电子设备和存储介质,可以增加词的特征信息中包含的内容,以使在对数据的处理时,可以提供更多依据。
一方面,本申请实施例提供了一种语料的处理方法,该方法包括:
根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息;
根据训练语料库中的训练语料以及训练语料对应的实体类型信息对模型参量为第一参量的语言模型进行训练,得到模型参量为第二参量的语言模型;
根据模型参量为第二参量的语言模型对待识别语料进行识别,以获得待识别语料中实体的特征信息,该特征信息包括关系信息;
根据实体的特征信息对该待识别语料进行语料处理。
另一方面提供了一种语料的处理装置,该装置包括:
第一识别模块,用于根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息;
训练模块,用于根据训练语料库中的训练语料以及训练语料对应的实体类型信息对模型参量为第一参量的语言模型进行训练,得到模型参量为第二参量的语言模型;
第二识别模块,用于根据模型参量为第二参量的语言模型对待识别语料进行识别,以获得待识别语料中实体的特征信息,该特征信息包括关系信息;
处理模块,用于根据实体的特征信息对该识别语料进行语料处理。
另一方面提供了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或该指令集由处理器加载并执行以实现如上述的语料的处理方法。
另一方面提供了一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或该指令集由处理器加载并执行以实现如上述的语料的处理方法。
本申请实施例提供的语料的处理方法、装置、电子设备及存储介质,具有如下技术效果:
根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息,根据训练语料库中的训练语料以及训练语料对应的实体类型信息对模型参量为第一参量的语言模型进行训练,得到模型参量为第二参量的语言模型,根据模型参量为第二参量的语言模型对待识别语料进行识别,以获得待识别语料中实体的特征信息,该特征信息包括关系信息,根据实体的特征信息对该待识别语料进行语料处理。如此,可以增加实体的特征信息中包含的内容,以使在对数据的处理时,可以提供更多依据。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种语料的处理方法的流程示意图;
图3是本申请实施例提供的一种训练语料库的获取方法的流程示意图;
图4是本申请实施例提供的一种语料的处理方法的流程示意图;
图5是本申请实施例提供的一种语料的处理方法的流程示意图;
图6是本申请实施例提供的一种语料的处理装置的结构示意图;
图7是本申请实施例提供的一种语料的处理方法的服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,包括服务器101和终端设备102,其中,服务器101可以是获取模型参量为第二参量的语言模型的服务器,为下游的终端设备102提供语料识别服务的服务器。
具体的,服务器101可以根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息。服务器101可以根据训练语料库中的训练语料以及训练语料对应的实体类型信息对模型参量为第一参量的语言模型进行训练,得到模型参量为第二参量的语言模型。服务器101接收终端设备102发送的待识别数据,并将模型参量为第二参量的语言模型对待识别语料进行识别,以获得待识别语料中实体的特征信息,该特征信息包括关系信息,并根据实体的特征信息对该待识别语料进行语料处理。
本申请实施例中,执行主语可以是图1所示的服务器,还可以是一个服务器平台,该平台中可以包括多个服务器,比如,第一服务器可以对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息,随后将训练语料库中的训练语料以及训练语料对应的实体类型信息发送给第二服务器。
第二服务器可以根据训练语料库中的训练语料以及训练语料对应的实体类型信息对模型参量为第一参量的语言模型进行训练,得到模型参量为第二参量的语言模型。
第三服务器接收到终端设备102发送的待识别数据,并将该待识别数据发送至第二服务器,第二服务器对待识别语料进行识别,以获得待识别语料中实体的特征信息,该特征信息包括关系信息,并发送给第三服务器。
第三服务器可以根据实体的特征信息对该待识别语料进行语料处理,并将处理结果发送给终端设备102。
本申请实施例中,服务器101和终端设备102可以通过无线链路连接。
本申请实施例中,第一服务器,第二服务器和第三服务器之间可以通过无线链路连接,还可以通过有线链路连接。通信链路类型的选择可以根据实际的应用情况和应用环境而定。可选的,第一服务器,第二服务器和第三服务器可以被设置在同一个空间内。
本申请实施例中,终端设备102可以是移动手机,平板电脑,台式电脑,笔记本电脑以及可穿戴设备等等。
本申请实施例中,上文中的语言模型涉及自然语言处理(Nature Languageprocessing,NLP),NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
以下介绍本申请一种语料的处理方法的具体实施例,图2是本申请实施例提供的一种语料的处理方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:
S201:根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息。
本申请实施例中,S201中的训练语料库可以包含海量的用于对语言模型进行训练的语料,该海量语料可以是包括不同结构和内容的短语,长短句,甚至是文章等等。
一种可选的实施例中,该训练语料库中的语料可以是基于要处理的数据对应的领域预设的。举个例子,若基于该训练语料库中的训练语料得到的语言模型是为处理音乐领域的数据准备的,则该训练语料库中的训练语料是可以和音乐领域有强相关的关系的。若基于该训练语料库的训练语料得到的语言模型是为处理游戏领域的数据准备的,则该训练语料库中的训练语料是可以和游戏领域有强相关的关系的。
如此,可以使得训练得到的语言模型在处理对应领域数据的时候,更有针对性,可以提高数据处理效率和准确率。
另一种可选的实施例中,该训练语料库中的语料可以包含各个领域的语料,可以是从互联网上下载得到该语料,也可以从提供语料的服务型机构获取该语料等等。
如此,可以使得训练得到的语言模型可以处理各个领域的数据,应用场景更多,实用性也更强。
本申请实施例中,包含多个预设实体对和描述每个预设实体对的预设关系词的实体集合可以用知识图谱来表示。具体的,预设关系词是用来描述对应的预设实体对的关系的。知识图谱可以被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。可以为学科研究提供切实的、有价值的参考。
下面通过一些例子说明知识图谱中的预设实体对和预设关系词,本申请实施例中,预设关系词可以是介词,还可以是动词。
比如,预设实体对可以是(第一歌手,第一歌曲),描述该预设实体对的的预设关系词可以是“演唱”、“表演”、“唱”等。预设实体对可以是(用户,手机),描述该预设实体对的预设关系词可以是“使用”或者“维修”等等。其中,“演唱”、“表演”、“唱”、“使用”和“维修”是动词类的预设关系词。
比如,预设实体对可以是(第一专辑,第一歌曲),描述该预设实体对的预设关系词可以是“包括”。预设实体对可以是(手机,终端设备),描述该预设实体对的预设关系词可以是“属于”。其中,“包括”和“属于”为介词类的预设关系词。
上述的多个例子中,第一歌手可以指代歌手的名字,第一专辑可以指代专辑的名字,第一歌曲可以指代歌曲的名字。
本申请实施例中,一种可选的获取训练语料库的实施方式中,可以通过原始语料库和知识图谱获取该训练语料。以下介绍本申请一种训练语料库的获取方法的具体实施例,图3是本申请实施例提供的一种训练语料库的获取方法的流程示意图,该方法可以包括:
S301:获取原始语料库,该原始语料库包括多个原始语料。
本申请实施例中,一种可选的实施方式中,该原始语料库可以是基于要处理的数据对应的领域预设的。另一种可选的实施方式中,该原始语料库可以包含各个领域的语料。
本申请实施例中,原始语料可以包括结构和语义不同的短语、长短句或者文章。
S303:根据预设实体对、预设关系词和原始语料确定新增语料。
根据上文的阐述,包含多个预设实体对和描述每个预设实体对的预设关系词的实体集合可以用知识图谱来表示。因此,可以根据知识图谱和原始语料确定新增语料。
一种可选的根据原始语料确定新增语料的实施方式中,若原始语料对应的原始实体对中的一个实体与任一预设实体对中的一个实体匹配,且描述原始实体对的原始关系词与描述预设实体对的预设关系词匹配,根据预设实体对中的另一实体更新原始语料,获取新增语料。
下面通过一个例子介绍上段中根据原始语料确定新增语料的实施方式。具体的,可以根据知识图谱中的预设实体对和描述预设实体对的预设关系词确定原始语料中的原始实体对和描述该原始实体对的原始关系词。假设知识图谱中包含预设实体对A(第一歌手,第一歌曲),且预设实体对A(第一歌手,第一歌曲)对应的预设关系词为“演唱”。原始语料为“第一歌手演唱的第一歌曲很受欢迎”。则可以根据预设实体对A(第一歌手,第一歌曲)和预设关系词“演唱”确定原始语料中的原始实体对为(第一歌手,第一歌曲),以及对应的原始关系词为“演唱”。
假设知识图谱中还存在另一个预设实体对B(第一歌手,第二歌曲),且描述该预设实体对B的预设关系词为“唱”。则可以确定原始实体对中的一个实体“第一歌手”和预设实体对B中的“第一歌手”匹配,且原始关系词“演唱”和描述该预设实体对B的预设关系词“唱”匹配,则可以根据预设实体对B中的另一个实体更新原始语料,得到新增语料。其中,另一个实体也就是第二歌曲。可选的,可以将第二歌曲替换原始语料中的实体“第一歌曲”,得到新增语料“第一歌手演唱的第二歌曲很受欢迎”。
假设知识图谱中还存在假设知识图谱中还存在另一个预设实体对C(第一歌手,第三歌曲),且描述该预设实体对C的预设关系词为“表演”。则可以确定原始实体对中的一个实体“第一歌手”和预设实体对C中的“第一歌手”匹配,且原始关系词“演唱”和描述该预设实体对C的预设关系词“表演”匹配,则可以根据预设实体对C中的另一个实体更新原始语料,得到新增语料。其中,另一个实体也就是第三歌曲。可选的,可以将第三歌曲替换原始语料中的实体“第一歌曲”,得到新增语料“第一歌手演唱的第三歌曲很受欢迎”。
S305:基于包含新增语料的新增语料库和原始语料库确定该训练语料库。
一种可选的实施方式中,可以将所有得到的新增语料置于新增语料库中,新增语料库中的新增语料可以和原始语料库的原始语料组成上文的训练语料库的训练语料。
另一种可选的实施方式中,可以将所有得到的新增语料置于新增语料库中,再对新增语料库中的新增语料和原始语料库的原始语料组成的语料库中的语料进行重复检查,去除两个语料库中重复出现的语料,得到训练语料库中的训练语料。该种实施方式中,通过减少重复的语料可以节省存储空间。
基于上述的实施方式,可以将包含原始实体对和原始关系词的原始语料进行迅速扩展,使得待训练的语言模型拥有更多的训练语句。
本申请实施例中,虽然按照上述的实施方式可以根据原始语料得到新增语料,然而,这种简单的替换方式还可能带来一些噪音,尤其当语料的结构比较复杂,这种简单地替换方式会使得句子并不通顺,或者不符合实际情况。因此,基于实际情况,可以进行适当的负采样,让新增语料在整个训练语料中占据一个较为合适的比例。
假设上述得到的新增语料“第一歌手演唱的第三歌曲很受欢迎”并不符合实际情况,也就是说,实际生活中,第一歌手演唱的第三歌曲还达不到很受欢迎的程度,或者第一歌手演唱的第三歌曲只在很小的范围内被人所知。因此,可以通过负采样的方式不让“第一歌手演唱的第三歌曲很受欢迎”成为新增语料。下面介绍负采样的实施方式:
一种可选的实施方式中,可以基于实际情况设置一些正例实例对,在根据预设实体对中的另一实体更新原始语料前,还可以判断该预设实体对和预设的正例实体对是否具有关联关系。若预设实体对和预设的正例实体对具有关联关系,则根据该预设实体对中的另一实体更新原始语料。若预设实体对和预设的正例实体对不具有关联关系,则不根据该预设实体对中的另一实体更新原始语料。
比如预设实体对B(第一歌手,第二歌曲)可以被设置为预设的正例实例对,在确定原始实体对中的一个实体“第一歌手”和预设实体对B中的“第一歌手”匹配,且原始关系词“演唱”和描述该预设实体对B的预设关系词“唱”匹配,再判断预设实体对B和预设的正例实体对是否具有关联关系,在这个例子中,预设实体对B就是正例实例对,则可以将第二歌曲替换原始语料中的实体“第一歌曲”,得到新增语料“第一歌手演唱的第二歌曲很受欢迎”。
另一种可选的实施例中,可以基于实际情况设置一些负例实例对,在根据预设实体对中的另一实体更新原始语料前,还可以判断该预设实体对和预设的负例实体对是否具有关联关系。若预设实体对和预设的负例实体对不具有关联关系,则根据该预设实体对中的另一实体更新原始语料。若预设实体对和预设的负例实体对具有关联关系,则不根据该预设实体对中的另一实体更新原始语料。
比如预设实体对C(第一歌手,第三歌曲)可以被设置为预设的正例实例对,在确定原始实体对中的一个实体“第一歌手”和预设实体对C中的“第一歌手”匹配,且原始关系词“演唱”和描述该预设实体对C的预设关系词“表演”匹配,再判断预设实体对C和预设的负例实体对是否具有关联关系,在这个例子中,预设实体对C就是负例实例对,因此,不可以根据该预设实体对中的另一实体更新原始语料。
如此,不仅在原始语料库中的原始语料得到了新增语料,扩充了用于训练语言模型的训练语料库中的训练语料的数量,还对每个训练语料的质量进行了把关,使得训练语料更符合实际情况,如此可以增加该训练语料库的实用性。
本申请实施例中,上述多个预设实体对中每个预设实体对可以包括两个子实体对。其中一个子实体对是包括第一实体和第二实体组成的第一实体对,另一个子实体对是描述该第一实体类型的第三实体和描述该第二实体类型的第四实体组成的第二实体对。
基于上述预设实体对A(第一歌手,第一歌曲)阐述这两个子实体对:第一实体对是(第一歌手,第一歌曲),第二实体对是(歌手,歌曲)。其中,第一歌手的类型是歌手,第一歌曲的类型是歌曲。描述第一实体对和第二实体对的预设关系词可以是同一个预设关系词,比如“演唱”。
由于包含多个预设实体对和描述每个预设实体对的预设关系词的实体集合可以用知识图谱来表示,本申请实施例中,根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,可以被认为是根据知识图谱对训练语料库中的训练语料进行实体类型的识别,得到每个训练语料的实体对应的实体类型信息。基于上述的训练语料“第一歌手演唱的第一歌曲很受欢迎”继续说明确定实施方式:
一种可选的实施方式中,可以根据实体集合中的第一实体对、该第一实体对对应的第二实体对以及该第一实体对对应的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息。也就是将该训练语料和知识图谱中的预设实体对包括的第一实体对和第二实体对做匹配,得到该训练语料的实体对应的实体类型信息。具体的,可以确定该训练语料中的实体,比如上述训练语料中的“第一歌手”和“第一歌曲”。由于知识图谱中的预设实体对可以包括第一实体对和第二实体对,且第一实体对和第二实体对都对应预设关系词“演唱”,可以确定“第一歌手”对应的实体类型可以是歌手,确定“第一歌曲“对应的实体类型为歌曲。再根据确定的实体类型得到实体类型信息。可选的,实体类型信息可以和实体类型的表示方式一致,比如,实体类型信息就是实体类型“歌手”。可选的,实体类型信息可以是指示实体类型的标识。比如,字符串“0101”就是用来指示歌手的实体类型信息。
另一种可选的实施方式中,可以根据多个预设实体对、描述每个预设实体对的预设关系词以及实体类型识别模型对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息。可选的,可以将训练语料输入实体类型识别模型,训练语料中的实体可以输出对应的实体类型信息,不是实体的其他词汇则可以统一输出预设值。
可选的,该实体类型识别模型可以是预先确定好的,该实体类型识别模型可以是CRF,RNN—CRF,BERT模型。
S203:根据训练语料库中的训练语料以及训练语料对应的实体类型信息对模型参量为第一参量的语言模型进行训练,得到模型参量为第二参量的语言模型。
本申请实施例中,一种可选的实施方式中,模型参量为第一参量的语言模型可以是未经过训练过的,此时,该第一参量可以是原始参量或者是预设参量。,另一种可选的实施方式中,模型参量为第一参量的语言模型可以是根据训练语料库中的训练语料训练得到的,此时训练出来的语言模型仅仅包含训练语料本身的信息。而根据训练语料库中的训练语料以及训练语料对应的实体类型信息训练得到的模型参量为第二参量的语言模型,不仅包括了训练语料本身的信息,还包括了实体间的关系,且相较于第一参量,第二参量也包含了更多的信息。
S205:根据模型参量为第二参量的语言模型对待识别语料进行识别,以获得待识别语料中实体的特征信息,该特征信息包括关系信息。
本申请实施例中,语言模型可以是有一定结构的语言模型,比如ELMO,BERT,GPT语言模型。
本申请实施例中,实体的特征信息可以被称为词向量,关系信息也可以被称为关系向量。
若将该模型参量为第一参量的语言模型对待识别语料进行识别,得到的待识别语料中实体的特征信息仅仅包括了实体本身的信息和实体上下文的信息。而基于模型参量为第二参量的语言模型得到的实体的特征信息,不仅包括了实体本身的信息和实体上下文的信息,还包括了实体涉及的关系信息。比如,实体“第一歌手”经过该模型参量为第二参量的语言模型进行识别后,特征信息中不仅包括“第一歌手”信息,包括“第一歌手”所属类型的信息,还可以包括关系信息,关系信息可以包括:在该实体之后可能出现的实体是某个歌曲的推测信息和该实体之后出现的某个动词可能是描述歌手和歌曲之间的关系词的信息。
此外,根据模型参量为第二参量的语言模型对待识别语料进行识别,以获得待识别语料中除实体之外其他的词的特征信息,该特征信息也包括关系信息。假设“演唱”经过该语言模型后得到的特征信息不仅包括了“演唱”的信息,还可以包括关系信息,其中,关系信息可以包括:在该动词“演唱”之前能出现的实体是某个歌手的推测信息,该动词“演唱”之后出现的实体可能是某个歌曲的推测信息。
S207:根据实体的特征信息对待识别语料进行语料处理。
本申请实施例中,一种语料处理可以是确定包含待识别语料的文本所应用的领域。
具体的,基于上述的例子,可以根据待识别语料中实体的特征信息中包含的“第一歌手”的信息,所属类型“歌手”的信息和关系信息推测后续的待识别语料中实体的特征信息,再根据特征信息判断包含待识别语料的文本所应用的领域为音乐领域或者娱乐领域。
另一种语料处理可以是对人机交互系统获取的用户的数据的处理。基于这种应用场景,待识别语料可以是获取的用户的提问,经过模型参量为第二参量的语言模型对待识别语料进行识别,得到实体的特征信息。随后,基于得到的实体的特征信息确定要输出的答案,完成人机交互。
下面基于上面所有可选的实施方式确定两种可选语料处理的实施方式:
图4是本申请实施例提供的一种语料的处理方法的流程示意图,该方法可以包括:
S401:获取原始语料库,该原始语料库包括多个原始语料。
S403:判断原始语料对应的原始实体对中的一个实体是否与任一预设实体对中的一个实体匹配,若是,转至S405;否则结束流程。
S405::判断描述原始实体对的原始关系词是否与描述预设实体对的预设关系词匹配,若是,则转至S407;否则结束流程。
S407:判断该预设实体对和预设的正例实体对是否具有关联关系,若是,则转至S409;否则结束流程。
S409:根据该预设实体对中的另一实体更新原始语料,得到新增语料。
S411:基于包含新增语料的新增语料库和原始语料库确定该训练语料库。
S413:根据训练语料库中的训练语料对模型参量为第一参量的语言模型进行训练,得到模型参量为第三参量的语言模型。
S415:根据模型参量为第三参量的语言模型对待识别语料进行识别,以获得待识别语料中实体的特征信息,该特征信息包括关系信息。
S417:根据实体的特征信息对待识别语料进行语料处理。
上述S401-S417的实施方式中,通过增加训练语料库的语料的数量使得基于该训练语料库训练得到的模型参量为第三参量的语言模型包含更多的信息,可以提高下游任务的表现。
图5是本申请实施例提供的一种语料的处理方法的流程示意图,该方法可以包括:
S501:获取原始语料库,该原始语料库包括多个原始语料。
S503:判断原始语料对应的原始实体对中的一个实体是否与任一预设实体对中的一个实体匹配,若是,则转至S505;否则结束流程。
S505:判断描述原始实体对的原始关系词是否与描述预设实体对的预设关系词匹配,若是,则转至S507;否则结束流程。
S507:判断该预设实体对和预设的正例实体对是否具有关联关系,若是,则转至S509;否则结束流程。
S509:根据该预设实体对中的另一实体更新原始语料,得到新增语料。
S511:基于包含新增语料的新增语料库和原始语料库确定该训练语料库。
S513:根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息。
S515:根据训练语料库中的训练语料以及训练语料对应的实体类型信息对模型参量为第一参量的语言模型进行训练,得到模型参量为第二参量的语言模型。
S517:根据模型参量为第二参量的语言模型对待识别语料进行识别,以获得待识别语料中实体的特征信息,该特征信息包括关系信息。
S519:根据实体的特征信息对待识别语料进行语料处理。
上述S501-S519的实施方式中,不仅通过增加训练语料库的语料的数量,而且基于实体对应的实体类型信息使得基于该训练语料库训练得到的模型参量为第三参量的语言模型包含更多的信息,综上,可以提高下游任务的表现。
本申请实施例还提供了一种语料的处理装置,图6是本申请实施例提供的一种语料的处理装置的结构示意图,如图6所示,该装置包括:
第一识别模块601用于根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息;
训练模块602用于根据训练语料库中的训练语料以及训练语料对应的实体类型信息对模型参量为第一参量的语言模型进行训练,得到模型参量为第二参量的语言模型;
第二识别模块603用于根据模型参量为第二参量的语言模型对待识别语料进行识别,以获得待识别语料中实体的特征信息,特征信息包括关系信息;
处理模块604用于根据实体的特征信息对待识别语料进行语料处理。
在一种可选的实施方式中,该装置还包括:
第一识别模块用于根据多个预设实体对、描述每个预设实体对的预设关系词以及实体类型识别模型对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息。
在一种可选的实施方式中,该装置还包括:
预设实体对包括第一实体和第二实体组成的第一实体对,以及描述第一实体类型的第三实体和描述第二实体类型的第四实体组成的第二实体对。
在一种可选的实施方式中,该装置还包括:
第一识别模块用于根据实体集合中的第一实体对、第一实体对对应的第二实体对以及第一实体对对应的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息。
在一种可选的实施方式中,该装置还包括:
获取模块用于获取原始语料库,原始语料库包括多个原始语料;
根据预设实体对、预设关系词和原始语料确定新增语料;
基于包含新增语料的新增语料库和原始语料库确定训练语料库。
在一种可选的实施方式中,该装置还包括:
若原始语料对应的原始实体对中的一个实体与任一预设实体对中的一个实体匹配,且描述原始实体对的原始关系词与描述预设实体对的预设关系词匹配,获取模块用于根据预设实体对中的另一实体更新原始语料,获取新增语料。
在一种可选的实施方式中,该装置还包括:
若任一预设实体对中的预设实体对和预设的正例实体对具有关联关系,获取模块根据预设实体对中的另一实体更新原始语料。
本申请实施例中的装置与方法实施例基于同样地申请构思。
本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图7是本申请实施例提供的一种语料的处理方法的服务器的硬件结构框图。如图7所示,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)710(处理器710可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器730,一个或一个以上存储应用程序723或数据722的存储介质720(例如一个或一个以上海量存储设备)。其中,存储器730和存储介质720可以是短暂存储或持久存储。存储在存储介质720的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器710可以设置为与存储介质720通信,在服务器700上执行存储介质720中的一系列指令操作。服务器700还可以包括一个或一个以上电源760,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口740,和/或,一个或一个以上操作系统721,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器700的通信供应商提供的无线网络。在一个实例中,输入输出接口740包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口740可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器700还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。
本申请的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种语料的处理方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述语料的处理方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的语料的处理方法、设备或存储介质的实施例可见,本申请中根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到训练语料的实体对应的实体类型信息,根据训练语料库中的训练语料以及训练语料对应的实体类型信息对模型参量为第一参量的语言模型进行训练,得到模型参量为第二参量的语言模型,根据模型参量为第二参量的语言模型对待识别语料进行识别,以获得待识别语料中实体的特征信息,该特征信息包括关系信息,根据实体的特征信息对该待识别语料进行语料处理。如此,可以增加实体的特征信息中包含的内容,以使在对数据的处理时,可以提供更多依据。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种语料的处理方法,其特征在于,所述方法包括:
根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到所述训练语料的实体对应的实体类型信息;
根据所述训练语料库中的训练语料以及所述训练语料对应的实体类型信息对模型参量为第一参量的语言模型进行训练,得到模型参量为第二参量的语言模型;
根据所述模型参量为第二参量的语言模型对待识别语料进行识别,以获得所述待识别语料中实体的特征信息,所述特征信息包括关系信息;
根据所述实体的特征信息对所述待识别语料进行语料处理。
2.根据权利要求1所述的方法,其特征在于,所述根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到所述训练语料的实体对应的实体类型信息,包括:
根据所述多个预设实体对、所述描述每个预设实体对的预设关系词以及实体类型识别模型对所述训练语料库中的训练语料进行实体类型的识别,得到所述训练语料的实体对应的实体类型信息。
3.根据权利要求1所述的方法,其特征在于,
所述预设实体对包括第一实体和第二实体组成的第一实体对,以及描述所述第一实体类型的第三实体和描述所述第二实体类型的第四实体组成的第二实体对。
4.根据权利要求3所述的方法,其特征在于,所述根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到所述训练语料的实体对应的实体类型信息,包括:
根据所述实体集合中的第一实体对、所述第一实体对对应的第二实体对以及所述第一实体对对应的预设关系词对所述训练语料库中的训练语料进行实体类型的识别,得到所述训练语料的实体对应的实体类型信息。
5.根据权利要求1所述的方法,其特征在于,所述获取训练语料库的方法包括:
获取原始语料库,所述原始语料库包括多个原始语料;
根据所述预设实体对、预设关系词和所述原始语料确定新增语料;
基于包含所述新增语料语料的新增语料库和所述原始语料库确定所述训练语料库。
6.根据权利要求5所述的方法,其特征在于,所述根据所述预设实体对、预设关系词和所述原始语料确定新增语料,包括:
若所述原始语料对应的原始实体对中的一个实体与任一预设实体对中的一个实体匹配,且描述所述原始实体对的原始关系词与描述所述预设实体对的预设关系词匹配,根据所述预设实体对中的另一实体更新所述原始语料,获取新增语料。
7.根据权利要求6所述的方法,其他特征在于,所述根据所述预设实体对中的另一实体更新所述原始语料,包括:
若任一预设实体对中的预设实体对和预设的正例实体对具有关联关系,根据所述预设实体对中的另一实体更新所述原始语料。
8.一种语料的处理装置,其特征在于,所述装置包括:
第一识别模块,用于根据实体集合中的多个预设实体对和描述每个预设实体对的预设关系词对训练语料库中的训练语料进行实体类型的识别,得到所述训练语料的实体对应的实体类型信息;
训练模块,用于根据所述训练语料库中的训练语料以及所述训练语料对应的实体类型信息对模型参量为第一参量的语言模型进行训练,得到模型参量为第二参量的语言模型;
第二识别模块,用于根据所述模型参量为第二参量的语言模型对待识别语料进行识别,以获得所述待识别语料中实体的特征信息,所述特征信息包括关系信息;
处理模块,用于根据所述实体的特征信息对所述待识别语料进行语料处理。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7任一所述的语料的处理方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7任一所述的语料的处理方法。
CN201910676626.7A 2019-07-25 2019-07-25 一种语料的处理方法、装置、电子设备和存储介质 Active CN110489744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910676626.7A CN110489744B (zh) 2019-07-25 2019-07-25 一种语料的处理方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910676626.7A CN110489744B (zh) 2019-07-25 2019-07-25 一种语料的处理方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN110489744A true CN110489744A (zh) 2019-11-22
CN110489744B CN110489744B (zh) 2024-05-14

Family

ID=68548272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910676626.7A Active CN110489744B (zh) 2019-07-25 2019-07-25 一种语料的处理方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN110489744B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144103A (zh) * 2019-12-18 2020-05-12 北京明略软件系统有限公司 影评识别方法和装置
CN111625638A (zh) * 2020-06-02 2020-09-04 深圳追一科技有限公司 一种问句处理方法、装置、设备及可读存储介质
CN112115212A (zh) * 2020-09-29 2020-12-22 中国工商银行股份有限公司 参数识别方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117548A1 (en) * 2013-02-01 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for acoustic language model training
CN107358948A (zh) * 2017-06-27 2017-11-17 上海交通大学 基于注意力模型的语言输入关联性检测方法
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014117548A1 (en) * 2013-02-01 2014-08-07 Tencent Technology (Shenzhen) Company Limited Method and device for acoustic language model training
CN107358948A (zh) * 2017-06-27 2017-11-17 上海交通大学 基于注意力模型的语言输入关联性检测方法
CN108829894A (zh) * 2018-06-29 2018-11-16 北京百度网讯科技有限公司 口语词识别和语义识别方法及其装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144103A (zh) * 2019-12-18 2020-05-12 北京明略软件系统有限公司 影评识别方法和装置
CN111625638A (zh) * 2020-06-02 2020-09-04 深圳追一科技有限公司 一种问句处理方法、装置、设备及可读存储介质
CN111625638B (zh) * 2020-06-02 2023-06-06 深圳追一科技有限公司 一种问句处理方法、装置、设备及可读存储介质
CN112115212A (zh) * 2020-09-29 2020-12-22 中国工商银行股份有限公司 参数识别方法、装置和电子设备
CN112115212B (zh) * 2020-09-29 2023-10-03 中国工商银行股份有限公司 参数识别方法、装置和电子设备

Also Published As

Publication number Publication date
CN110489744B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN107330011B (zh) 多策略融合的命名实体的识别方法及装置
CN109408526A (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN110489755A (zh) 文本生成方法和装置
CN106897559B (zh) 一种面向多数据源的症状体征类实体识别方法及装置
CN106919655A (zh) 一种答案提供方法和装置
CN107679039A (zh) 用于确定语句意图的方法和装置
CN105243055B (zh) 基于多语言的分词方法和装置
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN110489744A (zh) 一种语料的处理方法、装置、电子设备和存储介质
CN108563703A (zh) 一种罪名的判定方法、装置及计算机设备、存储介质
CN111310440A (zh) 文本的纠错方法、装置和系统
CN109857846A (zh) 用户问句与知识点的匹配方法和装置
KR20240116864A (ko) 검색 엔진 결과를 사용하여 기계 학습 언어 모델 강화
CN105608075A (zh) 一种相关知识点的获取方法及系统
CN117874171B (zh) 一种课程相关测试题生成方法、装置、设备、介质及产品
CN109614480A (zh) 一种基于生成式对抗网络的自动摘要的生成方法及装置
CN108595427B (zh) 一种主观题评分方法、装置、可读存储介质以及电子设备
CN117808946A (zh) 基于大语言模型的二次元角色构建方法及系统
CN117371428A (zh) 基于大语言模型的文本处理方法与装置
CN110019305A (zh) 知识库扩展方法及存储介质、终端
CN113326696B (zh) 文本生成方法和装置
CN110348539A (zh) 短文本相关性判别方法
Liu et al. Augmenting multi-turn text-to-SQL datasets with self-play
CN109934347A (zh) 扩展问答知识库的装置
Khan et al. End-to-end natural language understanding pipeline for bangla conversational agents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant