CN112926313A - 一种槽位信息的提取方法与系统 - Google Patents

一种槽位信息的提取方法与系统 Download PDF

Info

Publication number
CN112926313A
CN112926313A CN202110260255.1A CN202110260255A CN112926313A CN 112926313 A CN112926313 A CN 112926313A CN 202110260255 A CN202110260255 A CN 202110260255A CN 112926313 A CN112926313 A CN 112926313A
Authority
CN
China
Prior art keywords
slot
text
service
segment
service text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110260255.1A
Other languages
English (en)
Other versions
CN112926313B (zh
Inventor
魏旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua Fusion Media Technology Development Beijing Co ltd
Xinhua Zhiyun Technology Co ltd
Original Assignee
Xinhua Zhiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua Zhiyun Technology Co ltd filed Critical Xinhua Zhiyun Technology Co ltd
Priority to CN202110260255.1A priority Critical patent/CN112926313B/zh
Publication of CN112926313A publication Critical patent/CN112926313A/zh
Application granted granted Critical
Publication of CN112926313B publication Critical patent/CN112926313B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种槽位信息的提取方法与系统,通过将随机片段Mask后的业务文本作为训练数据,对已进行过Mask训练的预训练模型进行再训练,使得生成的片段Mask预训练模型具备分析与理解业务文本中片段的语义的能力,训练所采用的随机片段Mask后的业务文本没有进行过标注,节省了人工标注的成本。进一步通过向片段Mask预训练模型中引入附加槽位信息的描述性模板,使得微调后的片段Mask预训练模型可以使用少量已标注槽位信息的描述性模板,就可以使得微调后的片段Mask预训练模型对槽位抽取这类特定任务具有充分的语义理解,从而使得微调后的片段Mask预训练模型可以自动识别待抽取文本的槽位信息,需要的标注数据少,且抽取槽位信息时可以一次性抽取多个槽位的槽位信息。

Description

一种槽位信息的提取方法与系统
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种槽位信息的提取方法与系统。
背景技术
在自然语言处理任务中,槽位提取是一种常见的任务类型,在对话系统、数据挖掘和实体提取中都有应用。槽位提取通常会定义所需提取的槽位信息,如:消费金额,公告主体等,然后在待提取文本中找出对应的槽位信息。
传统的槽位信息的提取方法,一般通过使用各类深度学习模型(如RNN,BiLSTM和Transformer等)来实现。而对于每一个槽位,都需要通过大量预标注数据进行槽位信息的抽取训练,预标注需要人工标注来实现,这不但需要高昂的人力成本,而且需要大量的时间成本。
发明内容
基于此,有必要针对传统槽位信息的提取方法需要大量的预标注数据导致人工成本和时间成本过高的问题,提供一种槽位信息的提取方法与系统。
本申请提供一种槽位信息的提取方法,所述方法包括:
获取预训练模型,所述预训练模型已进行过Mask训练;
获取多个业务文本;
选取一个业务文本,随机选取所述业务文本中的M个片段,对每一个片段进行Mask操作,以对所述业务文本执行随机片段Mask,生成随机片段Mask后的业务文本;M为正整数;
反复执行前一个步骤,直至所有业务文本均执行过随机片段Mask,将所有随机片段Mask后的业务文本输入至所述预训练模型中,对所述预训练模型进行Mask再训练,生成片段Mask预训练模型;
基于附加槽位信息的描述性模板,对所述片段Mask预训练模型进行微调;
获取待抽取文本,将所述待抽取文本输入至微调后的片段Mask预训练模型,并获取微调后的片段Mask预训练模型输出的所述待抽取文本的槽位信息。
本申请还提供一种槽位信息的提取系统,包括:
处理器,用于执行如前述内容提及的槽位信息的提取方法;
预训练模型,与所述处理器连接;
数据库,与所述处理器连接。
本申请提供了一种槽位信息的提取方法与系统,通过将随机片段Mask后的业务文本作为训练数据,对已进行过Mask训练的预训练模型进行再训练,使得生成的片段Mask预训练模型具备分析与理解业务文本中片段的语义的能力,训练所采用的随机片段Mask后的业务文本没有进行过标注,节省了人工标注的成本。进一步通过向片段Mask预训练模型中引入附加槽位信息的描述性模板,使得微调后的片段Mask预训练模型可以使用少量已标注槽位信息的描述性模板,就可以使得微调后的片段Mask预训练模型对槽位抽取这类特定任务具有充分的语义理解,从而使得微调后的片段Mask预训练模型可以自动识别待抽取文本的槽位信息,需要的标注数据少,且抽取槽位信息时可以一次性抽取多个槽位的槽位信息。
附图说明
图1为本申请一实施例提供的槽位信息的提取方法的流程示意图;
图2为本申请一实施例提供的槽位信息的提取系统的结构示意图;
图3为本申请一实施例提供的槽位信息的提取方法中,对预训练模型预先进行Mask训练的流程案例示意图;
图4为本申请一实施例提供的槽位信息的提取方法中,对预训练模型进行随机片段Mask训练的流程案例示意图;
图5为本申请一实施例提供的槽位信息的提取方法中,对片段Mask预训练模型进行微调的流程案例示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种槽位信息的提取方法。需要说明的是,本申请提供的槽位信息的提取方法的应用于任何类型的文本的槽位提取。
此外,本申请提供的槽位信息的提取方法不限制其执行主体。可选地,本申请提供的槽位信息的提取方法的执行主体的可以为一种槽位信息的提取系统中的处理单元。
如图1所示,在本申请的一实施例中,所述槽位信息的提取方法包括如下S100至S600:
S100,获取预训练模型。所述预训练模型已进行过Mask训练。
具体地,预训练模型可以为BERT、ERNIE和RoBERTa中的一种。所述预训练模型预先需要进行Mask训练。预训练模型会使用Mask的训练任务,此类训练任务通过对单个词或词组采用Mask操作,能帮助预训练模型深入的理解单个词或词组的语义信息。
预训练的模型的选取可以依据所需处理的待抽取文本的语言、抽取槽位信息所需响应速度等等决定。
具体训练的方式如图3所示。在训练过程中,模型会按照一定的概率随机对一个词或者一个词组,如对图3业务文本中的两个词“著名”和“数学家”进行Mask操作,然后让模型去预测被Mask的词。Mask操作就是遮挡某一个词或词组的意思。这个过程是一种无标注数据的训练,因为并没有对“著名”和“数学家”进行预先的人工标注。经过大量的类似的无标注数据的训练后,预训练模型可以掌握业务文本中每一个词或者词组的语义信息。但此时的预训练模型的基础片段是词或者词组,所以对于业务文本的一个片段整体的语义信息无法很好的理解,只能通过对不同词的词义的拼接来认知。因此,我们需要进一步对预训练模型进行片段Mask的训练。
S200,获取多个业务文本。
具体地,本步骤中的多个业务文本是后续预训练模型进行再训练的原始数据。为了确保训练用原始数据的多样化,业务文本的数量可以尽可能的多,业务文本的类型和涉及的领域也要尽可能的多样化。
S300,选取一个业务文本。随机选取所述业务文本中的M个片段,对每一个片段进行Mask操作,以对所述业务文本执行随机片段Mask,生成随机片段Mask后的业务文本。M为正整数。
具体地,本步骤是对一个业务文本进行随机片段Mask处理的具体过程。这里对业务文本中随机M个片段进行Mask操作,M可以为1,也可以为其他正整数。如图4所示,M为2,被Mask的片段为“今日接到公司”和“股份13000”这两个片段。
S400,反复执行S530,直至所有业务文本均执行过随机片段Mask.进一步地,将所有随机片段Mask后的业务文本输入至所述预训练模型中,对所述预训练模型进行Mask再训练,生成片段Mask预训练模型。
具体地,如图4所示,这里是将所有随机片段Mask后的业务文本输入至所述预训练模型中进行再训练,不必输入原始未被Mask的业务文本。本步骤的目的就是让预训练模型具备能够识别被Mask的片段的语义信息的能力,生成片段Mask预训练模型。步骤S100中,对预训练模型的第一次Mask训练可以使得预训练模型掌握文本片段中每一个词或者词组的语义信息,本步骤S400中的对训练模型的随机片段Mask可以使得预训练模型掌握业务文本中每一个片段的语义信息。
S500,基于附加槽位信息的描述性模板,对所述片段Mask预训练模型进行微调。
具体地,为了使得所述片段Mask预训练模型可以自动识别待抽取文本的槽位信息,需要对模型进行微调。在模型微调的阶段,本申请引入了附加槽位信息的描述性模板。描述性模板中包含对槽位信息的文本描述,这些槽位信息的描述能够辅助模型对槽位抽取这类特定任务具有充分的语义理解,并从语义上更精准的定位抽取后生成的槽位值,提高模型的预测精度。同时,槽位信息的引入,进一步降低了对标注数据的需求,因为通过先前的训练,模型已经可以理解片段的语义信息,而且描述性模板本身的槽位蕴含了文本内容,因此无需在训练过程中向模型输入大量标注语料数据。
S600,获取待抽取文本。将所述待抽取文本输入至微调后的片段Mask预训练模型。获取微调后的片段Mask预训练模型输出的所述待抽取文本的槽位信息。
具体地,本步骤就是实际的对待抽取文本的槽位信息进行提取的具体步骤,只需将待抽取文本输入至微调后的片段Mask预训练模型中,微调后的片段Mask预训练模型就可以自动提取待抽取文本中的槽位信息。
本实施例中,通过将随机片段Mask后的业务文本作为训练数据,对已进行过Mask训练的预训练模型进行再训练,使得生成的片段Mask预训练模型具备分析与理解业务文本中片段的语义的能力,训练所采用的随机片段Mask后的业务文本没有进行过标注,节省了人工标注的成本。进一步通过向片段Mask预训练模型中引入附加槽位信息的描述性模板,使得微调后的片段Mask预训练模型可以使用少量已标注槽位信息的描述性模板,就可以使得微调后的片段Mask预训练模型对槽位抽取这类特定任务具有充分的语义理解,从而使得微调后的片段Mask预训练模型可以自动识别待抽取文本的槽位信息,需要的标注数据少,且抽取槽位信息时可以一次性抽取多个槽位的槽位信息。
在本申请的一实施例中,所述步骤S300包括如下S310至S360:
S310,选取一个业务文本,对所述业务文本进行预处理。
具体地,对所述业务文本进行预处理可以包括噪音去除、格式转化和特殊符号归一化中的一种或多种。噪音去除具体可以为去除业务文本中的网址、广告信息、乱码和无意义字符中的一种或多种。格式转化可以将业务文本的原始格式(例如PDF格式)转化为预训练模型可以识别的格式(例如文本格式)。
S320,在预处理后的业务文本的开头插入第一标识符,在预处理后的业务文本的结尾插入第二标识符。
具体地,第一标识符可以为CLS。第二标识符可以为END。
S330,对预处理后的业务文本进行分词处理,生成分词处理后的业务文本。
具体地,根据槽位信息提取方法的应用场景不同,可以选择是否对预处理后的业务文本进行分词。例如,预处理后的业务文本如果是中文,通常进行分词。预处理后的业务文本如果是英文,则不需要分词。
分词具体是将业务文本中的每一个句话打断成多个词的组合,其目的是为了对业务文本进行后续片段Mask过程中,使得被遮挡的片段具有语义。例如图4中的“WY女士”,如果不进行分词,那么就会以单个字的拼接方式呈现于业务文本中,后续Mask操作进行片段遮挡时很容易遮挡不全,例如只能遮挡“Y女士”,丢失了“W”。可选地,可以利用LTP分词器对预处理后的业务文本进行分词处理。
S340,随机选取所述分词处理后的业务文本中未被遮蔽的N个连续的词,组成一个片段。N为正整数。
具体地,本步骤随机选取了未被遮蔽的N个连续的词组成了一个片段。如图4所示,“今日接到公司”就是一个片段,“股份13000股”也是一个片段。
S350,将所述片段在所述分词处理后的业务文本中进行遮蔽,并用第三标识符替换已被遮蔽的片段。
具体地,当被遮蔽的片段只包括单个词时,即N为1时,第三标识符可以为Mask1。当被遮蔽的片段包括多个连续的词时,即N大于1时,第三标识符可以为Mask2。Mask操作本身就是遮蔽操作,如图4所示,“今日接到公司”这个片段就在业务文本中被遮蔽,显示为第三标识符“Mask2”。
S360,返回所述随机选取所述分词处理后的业务文本中未被遮蔽的N个连续的词的步骤,即返回S340,反复执行S340至S350,直至所述被遮蔽的词的总数占所述分词处理后的业务文本中词总数的百分比达到预设百分比。终止对所述分词处理后的业务文本中片段的遮蔽,生成随机片段Mask后的业务文本。
具体地,反复执行S340至S350,直至被遮蔽的词的总数占所述分词处理后的业务文本中词语总数的百分比达到预设百分比。预设百分比可以为15%。
设定预设百分比的目的,一方面,是防止被遮蔽的片段过多,导致预训练模型无法分析被遮蔽的片段的语义。另一方面,输入预训练模型的随机片段Mask后的业务文本,被遮蔽片段的量也不需要过多,预训练模型就可以达到训练的预期效果,得到分析片段语义信息的能力。
可选地,也可以设定反复执行S340至S350,直至被遮蔽的词的总数达到预设词数。
本实施例中,通过对业务文本进行预处理和分词处理,使得业务文本能够被预训练模型更好的识别,也便于片段的遮蔽,通过随机选取所述分词处理后的业务文本中未被遮蔽的N个连续的词组成片段,并对片段在业务文本进行遮蔽,使得在不需要引入大量人工批注语料的情形下,生成优质的片段Mask训练语料。
在本申请的一实施例中,所述S330包括如下S331至S332:
S331,从数据库中获取词表。将所述预处理后的业务文本与所述词表进行词语匹配,以识别所述预处理后的业务文本中包含的所有词。
具体地,数据库中预先存储有词表,词表类似于电子数据化的词典,用于自动识别预处理后的业务文本中包含的所有词。
S332,在每相邻的两个词之间插入第四标识符,生成分词处理后的业务文本。
具体地,第四标识符,可以为空格,也可以为其他标识符。
本实施例中,通过从数据库调用词表,可以实现自动识别预处理后的业务文本中包含的所有词,分词速度快且识别准确。
在本申请的一实施例中,所述S500包括如下S510至S550:
S510,获取多个特定类型的业务文本。
具体地,数据库中预先存储有具有不同类型标签的业务文本。类型标签可以包括权益分派、中标通知、协议签订、累计退税及补贴、理财计划、投资意向、股份增持和股份减持中一种或多种。本步骤的特定类型的业务文本是指,数据库中存储的每一个业务文本具有一个类型标签。和步骤S200中的原始业务文本不同,本步骤的业务文本的数量小于步骤S200中的原始业务文本的数量。因为本步骤的业务文本后续需要进行标注,步骤S200中的业务文本是大量的,无标注的原始业务文本,本步骤的业务文本的特点就是数量少,但是由于有类型标签,特点分明,每一种类型标签可以包含数个业务文本即可达到后续对所述片段Mask预训练模型进行微调要求。
S520,选取一个特定类型的业务文本。对所述特定类型的业务文本进行特定槽位的标注,获取所述业务文本中每一个特定槽位对应的槽位片段。
具体地,如图5所示,图5展示了一个股份增持类型的业务文本“医疗公司X于今日接到公司高级管理人员WY女士的通知…以集中竞价方式增持了本公司股份13000股”,对其进行特定槽位的标注。通过特定槽位的标注,可以快速获取该业务文本的几个特定槽位,以及每一个特定槽位对应的槽位片段,例如图5中的槽位1-公告主体-医疗公司X,槽位2-增持人员-公司高级管理人员WY女生,还有槽位3-增持股份-13000股。特定槽位以及其对应的槽位片段展示的是整个业务文本的核心信息。
S530,在所述特定类型的业务文本中引入附加所有槽位片段的描述性模板,生成复合业务文本。
具体地,将附加槽位片段的描述性模板置入原有的特定类型的业务文本,可以实现后续在对片段Mask预训练模型进行微调时,给模型增加了基于槽位信息的训练语料,相当于引入了特定槽位的语义信息。
S540,反复执行S520至S530,直至所有特定类型的业务文本均引入了描述性模板。
具体地,特定类型的业务文本可以根据数据库的存储情况反复执行S520至S530。原则来说,数据库中特定类型的业务文本的总数量越多,类型越多样化,后续模型微调的效果越好。
S550,基于多个复合业务文本,对所述片段Mask预训练模型进行微调。
本实施例引入了模板化槽位生成,基于附加所有槽位片段的描述性模板对片段Mask预训练模型进行微调的方法替代在模型中建立槽位抽取任务。首先,使用模板化的槽位表述,能够引入特定槽位的语义信息。其次,通过这种方式微调模型后,微调后的模型在抽泣槽位信息时支持一次性多槽位的同时抽取,提高预测速度。再次,本实施例采用的对特定类型的业务文本进行槽位片段的标注,也没有引入大量的标注数据。
在本申请的一实施例中,所述S530包括S531至S536:
S531,对所述特定类型的业务文本进行预处理。
具体地,步骤S531中预处理的具体步骤与S310一致,此处不再赘述。
S532,在预处理后的特定类型的业务文本的开头插入所述第一标识符。在预处理后的特定类型的业务文本的结尾插入所述第二标识符。在所述第二标识符之前插入第五标识符。
具体地,第一标识符可以为CLS。第二标识符可以为END。第五标识符可以为SEP。如图5所示。
S533,将所有槽位片段置入描述性模板,生成包含全部槽位片段的模板文本。
具体地,如图5所示,原始的描述性模板的槽位并没有数据内容,为“公告的主体公司[槽位1]报告称,此次增持的增持人员[槽位2]将增持[槽位3]公司股份”。本步骤是将步骤S520中从特定类型的业务文本提取出的槽位片段插入至描述性模板的,生成的模板文本为“公告的主体公司[医疗公司X]报告称,此次增持的增持人员[公司高级管理人员WY女士]将增持[13000股]公司股份”。
S534,对包含所有槽位片段的模板文本中的每一个槽位片段进行Mask操作,生成Mask操作后的模板文本。
具体地,如图5所示,同样的,Mask操作时,将槽位片段在模板文本中进行遮蔽,并用第三标识符替换已被遮蔽的槽位片段。当被遮蔽的槽位片段只包括单个词时,即N为1时,第三标识符可以为Mask1。当被遮蔽的槽位片段包括多个连续的词时,即N大于1时,第三标识符可以为Mask2。
S535,将Mask操作后的模板文本插入所述预处理后的特定类型的业务文本中的第二标识符和第五标识符之间,生成复合业务文本。
具体地,如图5所示,复合业务文本就变成了“[CLS]医疗公司X于今日接到公司高级管理人员WY女士的通知…以集中竞价方式增持了本公司股份13000股。[SEP]公告的主体公司[Mask2]报告称,此次增持的增持人员[Mask2]将增持[Mask2]公司股份。[END]”。可见,符合业务文本中包括两部分文本,一部分是原始的特定类型的业务文本,另一部是经过Mask操作后的模板文本。
S536,对所述业务复合文本进行分词处理。
具体地,本步骤S536的原理与步骤S330的原理一致,此处不再赘述。
本实施例中,通过向片段Mask预训练模型中引入附加槽位信息的描述性模板,使得微调后的片段Mask预训练模型可以使用少量已标注槽位信息的描述性模板,就可以使得微调后的片段Mask预训练模型对槽位抽取这类特定任务具有充分的语义理解,从而使得微调后的片段Mask预训练模型可以自动识别待抽取文本的槽位信息。
此外,本实施例还解决了传统槽位抽取任务的槽位嵌套问题。在槽位抽取任务中,有一个难以解决的问题,叫做槽位嵌套问题。比如“在AA市,AA大学是一所世界知名的高校”,我们如果要抽取“学校名称”和“学校省市”就会发现槽位值“AA大学”和“AA”共用同一个词语,这种现象就是槽位嵌套,常规槽位抽取时就会产生抽取信息不准确的问题,甚至产生抽取错误。本申请则可以通过设计描述性模板“文中提及的大学[Mask2]位于[Mask2]城市”,就可以分别生成“AA大学”和“AA”,解决了槽位嵌套问题。
在本申请的一实施例中,所述S550包括如下S551:
S551,将所有复合业务文本输入至所述片段Mask预训练模型中,对所述片段Mask预训练模型进行再训练,生成微调后的片段Mask预训练模型。
具体地,本步骤是对S400中生成的片段Mask预训练模型再次进行训练,以微调模型。
本实施例中,由于复合业务文本中引入了文本描述性的描述性模板,所以微调后的能够对所有的槽位进行一次性抽取,而不用对每个槽位分别设定槽位抽取任务。同时,因为是引入的描述性模板中的含有槽位信息,所以各个槽位的训练数据是共享的,降低了单个槽位的数据需求量。
在本申请的一实施例中,在S100之前,所述槽位信息的提取方法还包括如下S010至S060:
S010,从数据库中获取多个槽位片段。为每一个槽位片段附加一个类型标签和一个内容标签。
具体地,本实施例介绍了描述性模板的创建步骤,以及基于描述性模板对深度学习模型训练的过程。
在步骤S010中,数据库可以预先存储多个槽位片段。且为每一个槽位片段附加一个类型标签和一个内容标签。例如,“10000股”是一个槽位片段,它的类型标签为“股份增持”,它的内容标签是“增持股份”。“CEO张总”也是一个槽位片段,它的类型标签也是“股份增持”,它的内容标签却是“增持人员”。“芯片公司Y”的类型标签也是“股份增持”,它的内容标签却是“公告主体”。可以理解,相同的类型标签下可以有多个具有不同内容标签的槽位片段。
S020,从数据库中获取多个描述性模板。每一个描述性模板包括一段预设文本。所述预设文本包括多个槽位。所述预设文本由多个词组成,所述槽位中不设置任何数据内容。
具体地,描述性模板是预先设计的一段语序和逻辑通顺的文字模板,例如,图5中的描述性模板就是一个描述性模板,具体内容是“公告的主体公司[槽位1]报告称,此次增持的增持人员[槽位2]将增持[槽位3]公司股份”。
S030,为每一个描述性模板附加一个类型标签,为每一个描述性模板中的每一个槽位附加一个内容标签。
具体地,图5中的描述性模板就可以附加一个“股份增持”类标签,三个槽位可以附加不同的内容标签,例如,槽位1附加公告主体的内容标签,槽位2附加增持人员的内容标签,槽位3附加增持股份的内容标签,那图5中的描述性模板就变为“公告的主体公司[槽位1-公告主体]报告称,此次增持的增持人员[槽位2-增持人员]将增持[槽位3-增持股份]公司股份”。
S040,筛选类型标签相同的槽位片段,将类型标签相同的槽位片段置入同一个描述性模板,生成置入槽位片段后的描述性模板。在置入特定片段的过程中,将每一个槽位片段置入一个槽位中。所有槽位片段的类型标签与被置入槽位片段的描述性模板的类型标签相同,且在向每一个槽位置入一个槽位片段时,被置入槽位片段的内容标签与槽位的内容标签相同。
具体地,“CEO张总”和“10000股”两个槽位片段就可以置入图5所示的描述性模板,因为“CEO张总”和“10000股”的类型标签是股份增持,图5所示的描述性模板的类型标签也是股份增持。置入时,“CEO张总”置入“槽位2-增持人员”,“10000股”置入“槽位3-增持股份”。“芯片公司Y”置入“槽位1-公告主体”。本步骤最后可以生成一个置入槽位片段后的描述性模板,例如“公告的主体公司[芯片公司Y]报告称,此次增持的增持人员[CEO张总]将增持[10000股]公司股份”。
S050,反复执行前一个步骤,生成多个置入槽位片段后的描述性模板。
具体地,数据库中槽位片段的数量是有限的。描述性模板的数量也是有限的。生成的置入槽位片段后的描述性模板数量越多,后续的深度学习模型的训练效果越好。
S060,将所有置入槽位片段后的描述性模板作为训练数据输入至深度学习模型,对所述深度学习模型进行训练。
具体地,训练后的深度学习模型,具有两个功能,一个功能是向深度学习模型输入一个业务文本后,可以自动识别业务文本中的特定槽位,另一个功能是向深度学习模型输入一个描述性模板后,可以识别描述性模板中每一个槽位的内容标签,以及识别每一个槽位片段的内容标签。
在本申请的一实施例中,所述S520包括如下S521至S522:
S521,选取一个特定类型的业务文本。
S522,获取所述特定类型的业务文本的一个类型标签,将所述特定类型的业务文本输入至深度学习模型,获取深度学习模型输出的所述特定类型的业务文本中出现的与所述类型标签对应的至少一个特定槽位。
具体地,由于前述内容中,深度学习模型的训练数据,包括槽位片段和类型标签的映射关系。因此,训练后的深度学习模型可以自动识别业务文本中与类型标签对应的特定槽位。例如,一个增持股份的业务文本,深度学习模型可以自动找到业务文本中的公告主体,增持人员,增持股份三个槽位,以及每一个槽位中包含的槽位片段。
本实施例中,通过将特定类型的业务文本输入至深度学习模型,可以实现对特定类型的业务文本进行特定槽位的快速标注,且准确度高。
在本申请的一实施例中,所述S533包括S533a至S533d:
S533a,将所有槽位片段依次输入至深度学习模型,获取深度学习模型输出的每一个槽位片段的内容标签。
具体地,本步骤的多个槽位片段来源于S520的槽位片段的标注。由于前述内容中,深度学习模型的训练数据,包括槽位片段和内容标签的映射关系。因此,训练后的深度学习模型可以自动识别每一个槽位片段的内容标签。例如,图5中的13000股这个槽位片段,深度学习模型可以自动识别出13000股的内容标签为增持股份。
S533b,从数据库中获取与所有槽位片段的类型标签对应的描述性模板。
具体地,S520中选取出多个槽位片段后,多个槽位片段的类型标签是相同的,是同一个特定类型。因此,需要从数据库中找到相同类型标签的描述性模板,例如图5这个描述性模板,这样才能使得槽位片段和描述性模板的匹配合适。
S533c,将所述描述性模板输入至深度学习模型,获取深度学习模型输出的所述描述性模板中每一个槽位的内容标签。
具体地,由于前述内容中,深度学习模型的训练数据,包括描述性模板中每一个槽位的内容标签的信息,因此,深度学习模型可以自动识别描述性模板中每一个槽位的内容标签。
S533d,将每一个槽位片段置入所述描述性模板中的一个槽位,置入的过程中使槽位的内容标签和被置入的槽位片段的内容标签相同。
具体地,如图5所示,向描述性模板置入槽位片段时,“公司高级管理人员WY女士”置入“槽位2-增持人员”,“16000股”置入“槽位3-增持股份”。“医疗公司X”置入“槽位1-公告主体”。
本实施例中,通过已训练的深度学习模型的帮助,使得附带有槽位片段的描述性模板可以拼接完整,形成附带槽位信息的语料。
本申请还提供一种槽位信息的提取系统。
如图2所示,在本申请的一实施例中,所述槽位信息的提取系统包括处理器100、预训练模型200和数据库300。所述处理器100用于执行前述内容提及的槽位信息的提取方法。所述预训练模型200与所述处理100器连接。所述数据库300与所述处理器100连接。
具体地,为了篇幅简洁化,前述槽位信息的提取方法中与本实施例的槽位信息的提取系统出现的名称相同的设备或模块,统一在本实施例进行标号。
以上所述实施例的各技术特征可以进行任意的组合,各方法步骤也并不做执行顺序的限制,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种槽位信息的提取方法,其特征在于,所述方法包括:
获取预训练模型,所述预训练模型已进行过Mask训练;
获取多个业务文本;
选取一个业务文本,随机选取所述业务文本中的M个片段,对每一个片段进行Mask操作,以对所述业务文本执行随机片段Mask,生成随机片段Mask后的业务文本;M为正整数;
反复执行前一个步骤,直至所有业务文本均执行过随机片段Mask,将所有随机片段Mask后的业务文本输入至所述预训练模型中,对所述预训练模型进行Mask再训练,生成片段Mask预训练模型;
基于附加槽位信息的描述性模板,对所述片段Mask预训练模型进行微调;
获取待抽取文本,将所述待抽取文本输入至微调后的片段Mask预训练模型,并获取微调后的片段Mask预训练模型输出的所述待抽取文本的槽位信息。
2.根据权利要求1所述的槽位信息的提取方法,其特征在于,所述选取一个业务文本,随机选取所述业务文本中的M个片段,对每一个片段进行Mask操作,以对所述业务文本执行随机片段Mask的步骤,包括:
选取一个业务文本,对所述业务文本进行预处理;
在预处理后的业务文本的开头插入第一标识符,在预处理后的业务文本的结尾插入第二标识符;
对预处理后的业务文本进行分词处理,生成分词处理后的业务文本;
随机选取所述分词处理后的业务文本中未被遮蔽的N个连续的词,组成一个片段;N为正整数;
将所述片段在所述分词处理后的业务文本中进行遮蔽,并用第三标识符替换已被遮蔽的片段;
返回所述随机选取所述分词处理后的业务文本中未被遮蔽的N个连续的词的步骤,直至所述被遮蔽的词的总数占所述分词处理后的业务文本中词总数的百分比达到预设百分比,终止对所述分词处理后的业务文本中片段的遮蔽,生成随机片段Mask后的业务文本。
3.根据权利要求2所述的槽位信息的提取方法,其特征在于,所述对所述预处理后的业务文本进行分词处理,生成分词处理后的业务文本的步骤,包括:
从数据库中获取词表,将所述预处理后的业务文本与所述词表进行词语匹配,以识别所述预处理后的业务文本中包含的所有词;
在每相邻的两个词之间插入第四标识符,生成分词处理后的业务文本。
4.根据权利要求3所述的槽位信息的提取方法,其特征在于,所述基于附加槽位信息的描述性模板,对片段Mask预训练模型进行微调的步骤,包括:
获取多个特定类型的业务文本;
选取一个特定类型的业务文本,对所述特定类型的业务文本进行特定槽位的标注,获取所述业务文本中每一个特定槽位对应的槽位片段;
在所述特定类型的业务文本中引入附加所有槽位片段的描述性模板,生成复合业务文本;
反复执行选取一个特定类型的业务文本至生成复合业务文本的步骤,直至所有特定类型的业务文本均引入了描述性模板;
基于多个复合业务文本,对所述片段Mask预训练模型进行微调。
5.根据权利要求4所述的槽位信息的提取方法,其特征在于,所述在所述特定类型的业务文本中引入附加所有槽位片段的描述性模板,生成复合业务文本的步骤,包括:
对所述特定类型的业务文本进行预处理;
在预处理后的特定类型的业务文本的开头插入所述第一标识符,在预处理后的特定类型的业务文本的结尾插入所述第二标识符,在所述第二标识符之前插入第五标识符;
将所有槽位片段置入描述性模板,生成包含所有槽位片段的模板文本;
对包含所有槽位片段的模板文本中的每一个槽位片段进行Mask操作,生成Mask操作后的模板文本;
将Mask操作后的模板文本插入所述预处理后的特定类型的业务文本中的第二标识符和第五标识符之间,生成复合业务文本;
对所述业务复合文本进行分词处理。
6.根据权利要求5所述的槽位信息的提取方法,其特征在于,所述基于多个复合业务文本,对所述片段Mask预训练模型进行微调的步骤,包括:
将所有复合业务文本输入至所述片段Mask预训练模型中,对所述片段Mask预训练模型进行再训练,生成微调后的片段Mask预训练模型。
7.根据权利要求6所述的槽位信息的提取方法,其特征在于,在所述获取预训练模型的步骤之前,所述方法还包括:
从数据库中获取多个槽位片段,为每一个槽位片段附加一个类型标签和一个内容标签;
从数据库中获取多个描述性模板;每一个描述性模板包括一段预设文本,所述预设文本包括多个槽位,所述预设文本由多个词组成,所述槽位中不设置任何数据内容;
为每一个描述性模板附加一个类型标签,为每一个描述性模板中的每一个槽位附加一个内容标签;
筛选类型标签相同的槽位片段,将类型标签相同的槽位片段置入同一个描述性模板,生成置入槽位片段后的描述性模板;在置入槽位片段的过程中,将每一个槽位片段置入一个槽位中;所有槽位片段的类型标签与被置入槽位片段的描述性模板的类型标签相同,且在向每一个槽位置入一个槽位片段时,被置入槽位片段的内容标签与槽位的内容标签相同;
反复执行前一个步骤,生成多个置入槽位片段后的描述性模板;
将所有置入槽位片段后的描述性模板作为训练数据输入至深度学习模型,对所述深度学习模型进行训练。
8.根据权利要求7所述的槽位信息的提取方法,其特征在于,所述选取一个特定类型的业务文本,对所述特定类型的业务文本进行特定槽位的标注,获取所述业务文本中每一个特定槽位对应的槽位片段的步骤包括:
选取一个特定类型的业务文本;
获取所述特定类型的业务文本的类型标签,将所述特定类型的业务文本输入至深度学习模型,获取深度学习模型输出的所述特定类型的业务文本中出现的与所述类型标签对应的至少一个槽位片段。
9.根据权利要求8所述的槽位信息的提取方法,其特征在于,所述将所有槽位片段置入描述性模板,生成包含全部槽位片段的模板文本的步骤,包括:
将所有槽位片段依次输入至深度学习模型,获取深度学习模型输出的每一个槽位片段的内容标签;
从数据库中获取与所有槽位片段的类型标签对应的描述性模板;
将所述描述性模板输入至深度学习模型,获取深度学习模型输出的所述描述性模板中每一个槽位的内容标签;
将每一个槽位片段置入所述描述性模板中的一个槽位,置入的过程中使槽位的内容标签和被置入槽位片段的内容标签相同。
10.一种槽位信息的提取系统,其特征在于,包括:
处理器,用于执行如权利要求1-9中任意一项所述的槽位信息的提取方法;
预训练模型,与所述处理器连接;
数据库,与所述处理器连接。
CN202110260255.1A 2021-03-10 2021-03-10 一种槽位信息的提取方法与系统 Active CN112926313B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110260255.1A CN112926313B (zh) 2021-03-10 2021-03-10 一种槽位信息的提取方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110260255.1A CN112926313B (zh) 2021-03-10 2021-03-10 一种槽位信息的提取方法与系统

Publications (2)

Publication Number Publication Date
CN112926313A true CN112926313A (zh) 2021-06-08
CN112926313B CN112926313B (zh) 2023-08-15

Family

ID=76172401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110260255.1A Active CN112926313B (zh) 2021-03-10 2021-03-10 一种槽位信息的提取方法与系统

Country Status (1)

Country Link
CN (1) CN112926313B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935306A (zh) * 2021-09-14 2022-01-14 有米科技股份有限公司 广告文案模板处理方法及装置
CN115033682A (zh) * 2022-06-16 2022-09-09 平安科技(深圳)有限公司 文本生成模型的自适应训练方法、装置、设备及介质
CN115358186A (zh) * 2022-08-31 2022-11-18 南京擎盾信息科技有限公司 一种槽位标签的生成方法、装置及存储介质
CN115376153A (zh) * 2022-08-31 2022-11-22 南京擎盾信息科技有限公司 一种合同比对方法、装置及存储介质
CN115983282A (zh) * 2023-03-21 2023-04-18 北京中科汇联科技股份有限公司 一种基于提示的高效率小样本对话语义理解方法

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US20030216905A1 (en) * 2002-05-20 2003-11-20 Ciprian Chelba Applying a structured language model to information extraction
CN109635288A (zh) * 2018-11-29 2019-04-16 东莞理工学院 一种基于深度神经网络的简历抽取方法
CN109919014A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110209772A (zh) * 2019-06-17 2019-09-06 科大讯飞股份有限公司 一种文本处理方法、装置、设备及可读存储介质
WO2020107765A1 (zh) * 2018-11-30 2020-06-04 深圳前海微众银行股份有限公司 语句分析处理方法、装置、设备以及计算机可读存储介质
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111538817A (zh) * 2019-01-18 2020-08-14 北京京东尚科信息技术有限公司 人机交互方法和装置
CN111680514A (zh) * 2019-02-25 2020-09-18 北京猎户星空科技有限公司 信息处理和模型训练方法、装置、设备及存储介质
CN111862949A (zh) * 2020-07-30 2020-10-30 北京小米松果电子有限公司 自然语言的处理方法及装置、电子设备及存储介质
CN112036179A (zh) * 2020-08-28 2020-12-04 南京航空航天大学 基于文本分类与语义框架的电力预案信息抽取方法
US20210027788A1 (en) * 2019-07-23 2021-01-28 Baidu Online Network Technology (Beijing) Co., Ltd. Conversation interaction method, apparatus and computer readable storage medium
CN112330512A (zh) * 2020-11-27 2021-02-05 新华智云科技有限公司 知识蒸馏学习模型的预测方法、系统、设备及存储介质
CN112329767A (zh) * 2020-10-15 2021-02-05 方正株式(武汉)科技开发有限公司 基于联合预训练的合同文本图像关键信息提取系统和方法
CN112417888A (zh) * 2020-11-26 2021-02-26 江苏网谱数据科技有限公司 一种结合BiLSTM-CRF算法与R-BERT算法解析稀疏语义关系的方法
CN112445888A (zh) * 2019-09-05 2021-03-05 腾讯科技(深圳)有限公司 一种信息抽取方法及相关设备

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4949392A (en) * 1988-05-20 1990-08-14 Eastman Kodak Company Document recognition and automatic indexing for optical character recognition
US20030216905A1 (en) * 2002-05-20 2003-11-20 Ciprian Chelba Applying a structured language model to information extraction
CN109635288A (zh) * 2018-11-29 2019-04-16 东莞理工学院 一种基于深度神经网络的简历抽取方法
WO2020107765A1 (zh) * 2018-11-30 2020-06-04 深圳前海微众银行股份有限公司 语句分析处理方法、装置、设备以及计算机可读存储介质
CN111538817A (zh) * 2019-01-18 2020-08-14 北京京东尚科信息技术有限公司 人机交互方法和装置
WO2020155763A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN109919014A (zh) * 2019-01-28 2019-06-21 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN111680514A (zh) * 2019-02-25 2020-09-18 北京猎户星空科技有限公司 信息处理和模型训练方法、装置、设备及存储介质
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110209772A (zh) * 2019-06-17 2019-09-06 科大讯飞股份有限公司 一种文本处理方法、装置、设备及可读存储介质
US20210027788A1 (en) * 2019-07-23 2021-01-28 Baidu Online Network Technology (Beijing) Co., Ltd. Conversation interaction method, apparatus and computer readable storage medium
CN112445888A (zh) * 2019-09-05 2021-03-05 腾讯科技(深圳)有限公司 一种信息抽取方法及相关设备
CN111444721A (zh) * 2020-05-27 2020-07-24 南京大学 一种基于预训练语言模型的中文文本关键信息抽取方法
CN111862949A (zh) * 2020-07-30 2020-10-30 北京小米松果电子有限公司 自然语言的处理方法及装置、电子设备及存储介质
CN112036179A (zh) * 2020-08-28 2020-12-04 南京航空航天大学 基于文本分类与语义框架的电力预案信息抽取方法
CN112329767A (zh) * 2020-10-15 2021-02-05 方正株式(武汉)科技开发有限公司 基于联合预训练的合同文本图像关键信息提取系统和方法
CN112417888A (zh) * 2020-11-26 2021-02-26 江苏网谱数据科技有限公司 一种结合BiLSTM-CRF算法与R-BERT算法解析稀疏语义关系的方法
CN112330512A (zh) * 2020-11-27 2021-02-05 新华智云科技有限公司 知识蒸馏学习模型的预测方法、系统、设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WEI CHAO; YU KE; WU XIAOFEI: "POS Scaling Attention Model for Joint Slot Filling and Intent Classification", 《IEEE》, pages 1483 - 1487 *
张珍文: "任务型对话系统中的自然语言理解技术研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》, no. 2021 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113935306A (zh) * 2021-09-14 2022-01-14 有米科技股份有限公司 广告文案模板处理方法及装置
CN115033682A (zh) * 2022-06-16 2022-09-09 平安科技(深圳)有限公司 文本生成模型的自适应训练方法、装置、设备及介质
CN115358186A (zh) * 2022-08-31 2022-11-18 南京擎盾信息科技有限公司 一种槽位标签的生成方法、装置及存储介质
CN115376153A (zh) * 2022-08-31 2022-11-22 南京擎盾信息科技有限公司 一种合同比对方法、装置及存储介质
CN115358186B (zh) * 2022-08-31 2023-11-14 南京擎盾信息科技有限公司 一种槽位标签的生成方法、装置及存储介质
CN115376153B (zh) * 2022-08-31 2024-05-17 南京擎盾信息科技有限公司 一种合同比对方法、装置及存储介质
CN115983282A (zh) * 2023-03-21 2023-04-18 北京中科汇联科技股份有限公司 一种基于提示的高效率小样本对话语义理解方法

Also Published As

Publication number Publication date
CN112926313B (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
CN112926313A (zh) 一种槽位信息的提取方法与系统
CN109902307B (zh) 命名实体识别方法、命名实体识别模型的训练方法及装置
US7171350B2 (en) Method for named-entity recognition and verification
CN108959242B (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
CN112417885A (zh) 基于人工智能的答案生成方法、装置、计算机设备及介质
CN107145584B (zh) 一种基于n-gram模型的简历解析方法
CN110929520B (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN111723569A (zh) 一种事件抽取方法、装置和计算机可读存储介质
CN108763192B (zh) 用于文本处理的实体关系抽取方法及装置
CN111178080B (zh) 一种基于结构化信息的命名实体识别方法及系统
CN112380864A (zh) 一种基于回译的文本三元组标注样本增强方法
CN111581346A (zh) 一种事件抽取方法和装置
CN116796726A (zh) 简历解析方法、装置、终端设备及介质
CN112395392A (zh) 一种意图识别方法及装置、可读存储介质
CN115618883A (zh) 一种业务语义识别方法及装置
CN111597302B (zh) 文本事件的获取方法、装置、电子设备及存储介质
CN112101003B (zh) 语句文本的切分方法、装置、设备和计算机可读存储介质
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
CN110866394A (zh) 公司名称识别方法及装置、计算机设备及可读存储介质
CN109993381B (zh) 基于知识图谱的需求管理应用方法、装置、设备及介质
CN116304023A (zh) 一种基于nlp技术的招投标要素抽取方法、系统及存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN112819622B (zh) 一种信息的实体关系联合抽取方法、装置及终端设备
CN109325098A (zh) 用于数学题目语义解析的指代消解方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221216

Address after: Room 430, cultural center, 460 Wenyi West Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Applicant after: XINHUA ZHIYUN TECHNOLOGY Co.,Ltd.

Applicant after: Xinhua fusion media technology development (Beijing) Co.,Ltd.

Address before: Room 430, cultural center, 460 Wenyi West Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Applicant before: XINHUA ZHIYUN TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant