CN111522957B - 一种短语分割模型的训练方法和系统 - Google Patents

一种短语分割模型的训练方法和系统 Download PDF

Info

Publication number
CN111522957B
CN111522957B CN202010384233.1A CN202010384233A CN111522957B CN 111522957 B CN111522957 B CN 111522957B CN 202010384233 A CN202010384233 A CN 202010384233A CN 111522957 B CN111522957 B CN 111522957B
Authority
CN
China
Prior art keywords
phrase
text
target
model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010384233.1A
Other languages
English (en)
Other versions
CN111522957A (zh
Inventor
陈显玲
陈晓军
崔恒斌
杨明晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202010384233.1A priority Critical patent/CN111522957B/zh
Publication of CN111522957A publication Critical patent/CN111522957A/zh
Application granted granted Critical
Publication of CN111522957B publication Critical patent/CN111522957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本说明书的实施例公开了一种短语分割模型的训练方法和系统,所述方法包括:基于公共知识库获取至少一个目标短语,目标短语包含至少两个词;基于目标短语从公共知识库中获取至少一个第一文本,第一文本包含目标短语;基于第一文本获取非目标短语,非目标短语为第一文本的一部分,且不同于目标短语;将目标短语和第一文本构成的文本对作为正样本,非目标样本和第一文本构成的文本对作为负样本;基于多组正样本和负样本训练得到短语分割模型。

Description

一种短语分割模型的训练方法和系统
技术领域
本申请涉及自然语言处理领域,特别涉及一种短语分割模型的训练的方法和系统。
背景技术
短语分割是自然语言处理(NLP,Natural Language Processing)领域的常见任务之一。短语分割常常用于文本检索、文本摘要、文本分类和文本相似性计算等任务中,以便服务于问答匹配、气泡推荐等场景。一般而言,可以通过机器学习模型进行短语分割,然而,不同领域存在各自的专业词汇,且差异很大。
因此,希望提供一种更有效的短语分割模型的训练方法。
发明内容
本说明书一个方面提供一种短语分割模型的训练方法,所述方法包括:基于公共知识库获取至少一个目标短语,所述目标短语包含至少两个词;基于所述目标短语从所述公共知识库中获取至少一个第一文本,所述第一文本包含所述目标短语;基于所述第一文本获取非目标短语,所述非目标短语为所述第一文本的一部分,且不同于所述目标短语;将所述目标短语和所述第一文本构成的文本对作为正样本,所述非目标样本和所述第一文本构成的文本对作为负样本;基于多组所述正样本和所述负样本训练得到短语分割模型。
本说明书另一个方面提供一种短语分割模型的训练系统,所述系统包括:目标短语获取模块,用于基于公共知识库获取至少一个目标短语,所述目标短语包含至少两个词;第一文本获取模块,用于基于所述目标短语从所述公共知识库中获取至少一个第一文本,所述第一文本包含所述目标短语;非目标短语获取模块,用于基于所述第一文本获取非目标短语,所述非目标短语为所述第一文本的一部分,且不同于所述目标短语;样本获取模块,用于将所述目标短语和所述第一文本构成的文本对作为正样本,所述非目标样本和所述第一文本构成的文本对作为负样本;训练模块,用于基于多组所述正样本和所述负样本训练得到短语分割模型。
本说明书另一个方面提供一种短语分割模型的训练装置,包括至少一个存储介质和至少一个处理器;所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现短语分割模型的训练方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的示例性短语分割模型的训练系统的应用场景示意图;
图2是根据本说明书一些实施例所示的短语分割模型的训练方法的示例性流程图;
图3是根据本说明书一些实施例所示的示例性短语分割模型获取判定短语的示意图;
图4是根据本说明书一些实施例所示的示例性短语分割模型的判别过程的示意图;
图5是根据本说明书一些实施例所示的短语分割模型的分割效果的示意图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本说明书一些实施例所示的示例性短语分割模型的训练系统的应用场景示意图。
短语分割模型的训练系统100可以通过实施本说明书披露的方法和/或过程,使得模型可以获取高质量的训练样本,训练的模型可以达到更好的效果,解决训练样本标注的问题,使得训练的模型的过程更加高效。
如图1所示,短语分割模型的训练系统100中可以包括第一计算系统120、第二计算系统130。
第一计算系统120和第二计算系统130可以相同也可以不同。
第一计算系统120和第二计算系统130是指具有计算能力的系统,可以包括各种计算机,比如服务器、个人计算机,也可以是由多台计算机以各种结构连接组成的计算平台。
第一计算系统120和第二计算系统130中可以包括处理器,处理器可以执行程序指令。处理器可以包括各种常见的通用中央处理器(central processing unit,CPU),图形处理器(Graphics Processing Unit ,GPU),微处理器,特殊应用集成电路(application-specific integrated circuit,ASIC),或其他类型的集成电路。
第一计算系统120和第二计算系统130中可以包括存储介质,存储介质可以存储指令,也可以存储数据。存储介质可包括大容量存储器、可移动存储器、易失性读写存储器、只读存储器(ROM)等或其任意组合。
第一计算系统120和第二计算系统130还可以包括用于内部连接和与外部连接的网络。也可以包括用于输入或输出的终端。网络可以是有线网络或无线网络中的任意一种或多种。终端可以包括各类具有信息接收和/或发送功能的设备,如计算机、手机、文字扫描设备、显示设备、打印机等。
第一计算系统120可以获取样本数据110,样本数据110可以是用于训练模型的数据。示例的,样本数据110可以是训练初始短语分割模型的数据。样本数据110可以通过各种常见的方式进入第一计算系统120。
在第一计算系统120中可以训练模型122,更新122的参数,得到训练好的模型。示例的,模型122可以是初始短语分割模型。
第二计算系统130可以获取数据140,数据140可以是待预测的数据。示例的,数据140可以是待短语分割的文本,例如,第二文本。数据140可以通过各种常见的方式进入第二计算系统130。
在第二计算系统130中可以包括模型132,模型132的参数来自于训练好的模型122。其中,参数可以以任何常见的方式传递。在一些实施例中,模型122与模型132也可以是相同的。第二计算系统130基于模型132,生成结果150,结果150可以是模型132对数据140的预测结果。示例的,模型132为短语分割模型,结果150可以是对第一文本的短语分割结果,即,第一文本的判定短语。
模型(例如,模型122或/和模型132)可以指基于处理设备而进行的若干方法的集合。这些方法可以包括大量的参数。在执行模型时,所使用的参数可以是被预先设置好的,也可以是可以动态调整的。一些参数可以通过训练的方法获得,一些参数可以在执行的过程中获得。关于本说明书中涉及模型的具体说明,可参见本说明书的相关部分。
关于目标短语、非目标短语、第一文本、第二文本和短语分割模型的更多细节参见图2-图4,此处不再赘述。
在一些实施例中,该系统100(例如,第一计算系统120或第二计算系统130)中可以包括目标短语获取模块、第一文本获取模块、非目标短语获取模块、样本获取模块、训练模块、第二文本获取模块以及判别模块。
目标短语获取模块可以用于基于公共知识库获取至少一个目标短语,其中,目标短语至少包含两个词。更多细节可以参见步骤210,在此不再赘述。
第一文本获取模块可以用于基于目标短语从公共知识库中获取至少一个第一文本,其中,第一文本包含所述目标短语。更多细节可以参见步骤220,在此不再赘述。
非目标短语获取模块可以用于基于第一文本获取非目标短语,其中,非目标短语为第一文本的一部分,且不同于所述目标短语。在一些实施例中,非目标短语包含所述目标短语的一部分。更多细节可以参见步骤230,在此不再赘述。
样本获取模块可以用于将目标短语和第一文本构成的文本对组成正样本,非目标样本和第一文本构成的文本对组成负样本。更多细节可以参见步骤240,在此不再赘述。
训练模块可以用于基于多组正样本和所述负样本训练得到短语分割模型。更多细节可以参见步骤250,在此不再赘述。
第二文本获取模块可以用于获取第二文本。更多细节可以参见步骤310,在此不再赘述。
判别模块可以用于短语分割模型以第二文本的第一个词为起始词,重复执行判别过程获取判定短语,直到所述判定短语包含所述第二文本的最后一个词,并将判定短语作为所述第二文本的短语分割结果。在一些实施例中,判别模块可以执行判别过程,包括:基于起始词获取候选短语集;短语分割模型基于候选短语集和第二文本,确定判定短语;如果判定短语包含所述第二文本的最后一个词,则判别过程结束,否则基于判定短语获取新的起始词,并重复执行判别过程。
在一些实施例中,判别模块可以将第二文本中位于判定短语之后的下一个词作为新的起始词。在一些实施例中,短语分割模型可以由向量表示模型和分类模型构成。在一些实施例中,向量表示模型可以基于输入的短语文本对提取特征向量,所述短语文本对是由所述候选短语集中的一个候选短语和所述第二文本构成。在一些实施例中,向量表示模型可以是BERT模型。在一些实施例中,分类模型可以基于所述特征向量确定所述候选短语是否为所述判定短语。更多细节可以参见步骤320,在此不再赘述。
图2是是根据本说明书一些实施例所示的短语分割模型的训练方法的示例性流程图。如图2所示,该短语分割模型的训练方法200可以包括:
步骤210,基于公共知识库获取至少一个目标短语,所述目标短语包含至少两个词。具体地,该步骤210可以由目标短语获取模块执行。
公共知识库是面向公众开放的包含大量知识点的集合。在一些实施例中,公共知识库可以是通用知识库(例如,各种百科介绍);也可以是专业领域知识库(例如,经济管理领域的百科);还可以是与产品相关的应用知识库(例如,支付宝的常见问题集合),或者其他方面的知识库。在一些实施例中,公共知识库也可以根据需要进行自定义。
在一些实施例中,公共知识库可以定时更新。在一些实施例中,公共知识库更新的内容可以经过人工审核,也可以由机器学习自行确定。
在一些实施例中,公共知识库可以通过访问数据库、调用相关接口、读取知识库文档或其他方式获取。
词是指自然语言中的词,例如【医疗】【保险】【重大】【疾病】等。
词条由至少两个词构成,例如,词条【医疗保险】由2个词构成,分别为【医疗】和【保险】,词条【重大疾病保险】由3个词构成,分别为【重大】【疾病】【保险】。
在一些实施例中,公共知识库可以包括词条以及词条对应的知识点信息。例如,包含词条【医疗保险】及“医疗保险】指…”。
目标短语可以是指词条,可以理解,目标短语包含至少两个词。例如,词【保险】、【基金】不是目标短语;词条【重大疾病保险】(包含3个词)和【医疗保险】(包含2个词),均是目标短语。
在一些实施例中,目标短语可以基于词条包含的词的个数从公共知识库中获取。在一些实施例中,可以通过分词算法确定词条所包含的词的个数。例如,分词算法可以是匹配算法、N元模型(N-Gram)算法、隐马尔可夫模型(Hidden Markov Model,HMM)算法、条件随机场(Conditional Random Field,CRF)或其他算法中的任意一种或其组合。
在一些实施例中,也可以通过人工筛选或其他方式获取目标短语。
步骤220,基于所述目标短语从所述公共知识库中获取至少一个第一文本,所述第一文本包含所述目标短语。具体地,该步骤220可以由第一文本获取模块执行。
第一文本是公共知识库的知识点信息中包含目标短语的文本。例如,目标短语为【重大疾病保险】,公共知识库中的知识点包括文本A【重大疾病保险是以疾病为给付保险金条件的疾病保险】、文本B【人的一生罹患重大疾病的机会高达72.18%】等。其中,文本A是第一文本,文本B不是第一文本。
在一些实施例中,第一文本可以基于目标短语通过召回引擎从目标短语对应的知识点信息中获取。其中,召回引擎可以用各种常用方式实现,包括但不限于Elastic Search引擎、Sphinx引擎和Xa pian引擎中的一种。
步骤230,基于所述第一文本获取非目标短语,所述非目标短语为所述第一文本的一部分,且不同于所述目标短语。具体地,该步骤230可以由非目标短语获取模块执行。
非目标短语是第一文本的一部分且不同于目标短语。例如,目标短语【重大疾病保险】对应的第一文本【重大疾病保险是以疾病为给付保险金条件的疾病保险】中,非目标短语可以包括【重大】、【疾病】、【保险】、【重大疾病】、【疾病保险】、【重大疾病保险是】和【给付保险金】等。
在一些实施例中,非目标短语是第一文本的一部分,同时包含目标短语的一部分。例如,目标短语【重大疾病保险】对应的第一文本【重大疾病保险是以疾病为给付保险金条件的疾病保险】中,非目标短语可以包括【重大】、【疾病】、【保险】、【重大疾病】、【疾病保险】、【重大疾病保险是】和【疾病保险是】等,在该实施例下,负样本包含了错误分割的特征,正样本包含了正确分割的特征,从而基于该实施例下的正负样本训练得到的短语分割模型,可以更好的学习错误分割和正确分割的特征,从而提高模型在执行时分割的准确率。关于短语分割模型训练的更多细节参见后文。
在一些实施例中,非目标短语可以通过对第一文本分词后得到的词进行组合得到。在一些实施例中,第一文本的分词可以通过分词算法获取。在一些实施例中,分词算法可以包括但不限于匹配算法、N元模型(N-Gram)算法、隐马尔可夫模型(Hidden MarkovModel,HMM)算法或条件随机场(Conditional Random Field,CRF)等。
步骤240,将所述目标短语和所述第一文本构成的文本对作为正样本,所述非目标样本和所述第一文本构成的文本对作为负样本。具体地,该步骤240可以由样本获取模块执行。
在一些实施例中,可以基于目标短语、非目标短语和第一文本获取正、负样本。
在一些实施例中,目标短语和第一文本构成的文本对作为正样本,非目标短语和第一文本构成的文本对作为负样本。在一些实施例中,一个目标短语和对应的第一文本作为一组正样本,一个非目标短语和对应的第一文本作为一组负样本。
例如,一组正样本为“【重大疾病保险】【重大疾病保险是以疾病为给付保险金条件的疾病保险】”;一组负样本为“【疾病保险是】【重大疾病保险是以疾病为给付保险金条件的疾病保险】”。
步骤250,基于多组所述正样本和所述负样本训练得到短语分割模型。具体地,该步骤250可以由训练模块执行。
在一些实施例中,短语分割模型由向量表示模型和分类模型构成,具体参见步骤420,在此不再赘述。
在一些实施例中,向量表示模型和分类模型可以一起进行端对端的训练。具体地,将多组正样本和负样本输入初始短语分割模型,通过训练同时更新向量表示模型和分类模型的参数,得到训练好的短语分割模型。其中,正样本和负样本通过步骤240获取,在此不再赘述。
在一些实施例中,初始短语分割模型可以基于上述正负样本,通过常用的方法进行训练。例如,可以基于梯度下降法进行训练。
在一些实施例中,当训练的初始短语分割模型满足预设条件时,训练结束。其中,预设条件可以是损失函数结果收敛或者小于预设阈值等。
图3是根据本说明书一些实施例所示的示例性短语分割模型获取判定短语的示意图。如图3所示,短语分割模型获取判定短语300可以包括:
步骤310,获取第二文本。具体地,该步骤310可以由第二文本获取模块执行。
第二文本是指需要进行短语分割的文本。
在一些实施例中,第二文本可以是问答系统中用户提问的内容。如图5所示,第二文本为【想咨询百万重疾险的续保条件】。
在一些实施例中,第二文本也可以是关于产品的文本。例如,产品文档、用户手册和常用问答文档(Frequently Asks & Questions,F&Q)等。
在一些实施例中,第二文本还可以是其他需要进行短语分割的文本,本文实施例不做限制。
在一些实施例中,第二文本获取模块可以通过读取存储的数据、调用相关接口或其他方式获取第二文本。
步骤320,所述短语分割模型以所述第二文本的第一个词为起始词,重复执行判别过程获取判定短语,直到所述判定短语包含所述第二文本的最后一个词,并将所述判定短语作为所述第二文本的短语分割结果。具体地,该步骤320可以由判别模块执行。
起始词是候选短语的第一个词,候选短语是指可能成为判定短语的短语。在一些实施例中,候选短语由起始词和第二文本中起始词后1~(N-1)个词组成,其中,,M为第一文本中词的总数。
在一些实施例中,起始词可以为第二文本的第一个词。如图5所示,第二文本【想咨询百万重疾险的续保条件】中,若N为3,对于起始词为第一个词【想】,候选短语为【想】【想咨询】【想咨询百万】。
在一些实施例中,起始词对应的判定短语确定后,将第二文本中位于该判定短语之后的下一个词作为新的起始词。如图5所示,从起始词【想】对应的候选短语【想】【想咨询】和【想咨询百万】中确定了判定短语【想】之后,以【咨询】为新的起始词。相应的,若N仍为3,则以【咨询】为起始词的候选短语为【咨询】【咨询百万】【咨询百万重疾】;确定了判定短语【咨询】之后,以【百万】为新的起始词,即候选短语为【百万】【百万重疾】【百万重疾险】。
判定短语是指最符合分割需求的短语。在一些实施例中,判定短语可以是特定领域的产品词、业务词等专有词汇短语。例如,产品词【重大疾病保险】、【债券基金】;业务词【自动续保条件】、【基金智能定投】等。
在一些实施例中,短语分割模型可以通过重复执行判别过程400获取多个判定短语,判别过程400可以参见图4,在此不再赘述。
在一些实施例中,短语分割模型可以判断判定短语是否包含第二文本的最后一个词,是则结束执行判别过程400,并将判断短语作为第二文本的短语分割结果;否则重复执行判别过程400。
如图5所示,第二文本【想咨询百万重疾险的续保条件】的最后一个词为【条件】,当判定短语为【想】、【咨询】、【百万重疾险】或【的】时,重复执行判别过程400;当判定短语为【续保条件】时,短语分割模型完成分割,并将判定短语【想】【咨询】【百万重疾险】【的】【续保条件】作为第二文本的短语分割结果。
图4是根据本说明书一些实施例所示的示例性短语分割模型的判别过程的示意图。判别过程400可以由判别模块执行。如图4所示,短语分割模型的判别过程400可以包括:
步骤410,基于所述起始词获取候选短语集。
候选短语集是包括一个或多个候选短语的集合。关于候选短语的更多细节参见图3的步骤320及其相关描述,此处不再赘述。
在一些实施例中,判别模块可以先获取起始词后的N-1个词;再将起始词作为第1个候选短语;最后基于起始词以及起始词后的第1~t个词获取第t+1个候选短语;其中,t依次取1~N-1之间的整数,直到获取第N个候选短语。如图5所示,N为3,以第一个起始词为【想】说明,则先获取【想】后面的2个词【咨询】【百万】,则【想】作为第一个候选短语,【想咨询】作为第二个候选短语,【想咨询百万】作为第三个候选短语。
步骤420,所述短语分割模型基于所述候选短语集和所述第二文本,确定所述判定短语。
在一些实施例中,短语分割模型可以由向量表示模型和分类模型构成。
在一些实施例中,向量表示模型的输入可以是候选短语集中的候选短语和第二文本组成的短语文本对。例如,“【想】【想咨询百万重疾险的续保条件】”、“【想咨询】【想咨询百万重疾险的续保条件】”…“【想咨询百万重疾险的续保条件】【想咨询百万重疾险的续保条件】”。在一些实施例中,向量表示模型的输出可以是反映了候选短语的信息以及候选短语上下文信息的特征向量。
在一些实施例中,向量表示模型可以包括但不限于长短记忆循环神经网络(LongShort-Term Memory,LSTM)模型、双向长短记忆循环神经网络(Bi-directional LongShort-Term Memory,Bi-LSTM)模型、ELMo(Embedding from Language Models)模型、GPT(Generative Pre-Traxining)模型、BERT(Bidirectional Encoder Representation fromTransformers)模型等。
示例的,向量表示模型可以使用BERT模型。BERT模型是基于Transformers的双向编码器,可以对短语文本对进行编码,得到融合了候选短语和文本语义信息的特征向量。具体地,BERT模型可以先基于短语文本对得到输入向量,再对得到的输入向量进行编码,获取特征向量。
在一些实施例中,短语文本对在输入BERT模型之前,可以做如下处理:在候选短语之前添加[CLS],表示提取候选短语在第二文本中的特征;在候选短语和第二文本之间通过分隔符[SEP]分割,以区分候选短语和第二文本。例如,“【想咨询】【想咨询百万重疾险的续保条件】”处理后为“[CLS]想咨询[SEP]想咨询百万重疾险的续保条件”。
在一些实施例中,BERT模型先基于短语文本对分别得到对应的词向量、分隔向量和位置向量,再对词向量、分隔向量和位置向量拼接得到输入向量。
在一些实施例中,短语文本对的词向量可以通过词嵌入模型获取。在一些实施例中,词嵌入模型可以包括但不限于:Word2vec模型、词频-逆向文件频率模型(TermFrequency–Inverse Document Frequency,TF-IDF)或SSWE-C(skip-gram basedcombined-sentiment word embedding)模型等。
在一些实施例中,短语文本对的分隔向量可以是分别对应于候选短语和第二文本的向量。其中,对应于候选短语的分隔向量的元素可以全部为0,对应于第二文本的分隔向量的元素可以全部为1,从而对候选短语和第二文本的特征进行区分。
在一些实施例中,短语文本对的位置向量可以通过余弦正弦编码获取。
在一些实施例中,BERT模型通过多个编码器(Encoder)对输入向量进行编码,得到特征向量。
在一些实施例中,分类模型可以基于向量表示模型输出的多组特征向量,确定判定短语。
在一些实施例中,分类模型可以先基于softmax函数分别将每一个特征向量映射成对应的概率,即,分类模型可以基于每个候选短语对应的特征向量计算每个候选短语属于判定短语的概率。可以理解,分类模型对每个候选短语进行的是0/1的二分类。进一步,基于每个候选短语对应的概率,确定判定短语,具体的,将概率的最大对应的后续按短语作为判定短语。
如图5所示,以【想】为起始词的3个候选短语分别为【想】、【想咨询】、【想咨询百万】,且3个候选短语的特征向量对应的概率分别为0.8、0.3、0.1,则判定短语为【想】;下一个起始词为【咨询】,对应的候选短语分别为【咨询】【咨询百万】【咨询百万重疾】,且【咨询】的特征对应的概率最高,则【咨询】为判定短语;进一步的,下一个起始词为【百万】,对应的候选短语为【百万】【百万重疾】【百万重疾险】,且各自的特征向量对应的概率为0.5、0.3和0.7,则判定短语为【百万重疾险】;以此类推。
步骤430,如果所述判定短语包含所述第二文本的最后一个词,则所述判别过程结束,否则基于所述判定短语获取新的起始词,并重复执行所述判别过程。
判断判定短语是否包含所述第二文本的最后一个词,参见步骤320,在此不再赘述。
如前所述,如果判定短语不包含第二文本的最后一个词,则基于判定短语获取新的起始词,并重复执行步骤410-420。
在一些实施例中,短语分割模型可以将第二文本中位于判定短语之后的下一个词作为新的起始词。如图5所示,第二文本【想咨询百万重疾险的续保条件】中,判定短语【想】的下一个词:【咨询】,作为新的起始词。
如图5所示,第二文本【想咨询百万重疾险的续保条件】以【咨询】为起始词确定的判定短语为【咨询】;以【百万】为起始词确定的判定短语为【百万重疾险】;以【的】为起始词确定的判定短语为【的】;以【续保】为起始词确定的判定短语为【续保条件】;最终得到第二文本的短语分割结果为:【想】、【咨询】、【百万重疾险】、【的】【续保条件】。
本说明书实施例还提供一种装置,其至少包括处理器以及存储器。所述存储器用于存储指令。当所述指令被所述处理器执行时,导致所述装置实现前述的短语分割模型的训练方法。所述方法可以包括:基于公共知识库获取至少一个目标短语,目标短语包含至少两个词;基于目标短语从公共知识库中获取至少一个第一文本,第一文本包含目标短语;基于第一文本获取非目标短语,非目标短语为第一文本的一部分,且不同于目标短语;将目标短语和第一文本构成的文本对作为正样本,非目标样本和第一文本构成的文本对作为负样本;基于多组正样本和负样本训练得到短语分割模型。
本说明书实施例还提供一种计算机可读存储介质。所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机实现前述的短语分割模型的训练方法。所述方法可以包括:基于公共知识库获取至少一个目标短语,目标短语包含至少两个词;基于目标短语从公共知识库中获取至少一个第一文本,第一文本包含目标短语;基于第一文本获取非目标短语,非目标短语为第一文本的一部分,且不同于目标短语;将目标短语和第一文本构成的文本对作为正样本,非目标样本和第一文本构成的文本对作为负样本;基于多组正样本和负样本训练得到短语分割模型。
本说明书实施例可能带来的有益效果包括但不限于:(1)通过公共知识库中获取的词条,基于知识点信息生成正负样本,无需对训练数据进行标注,提高了训练的效率;(2)本说明书披露的短语分割模型可以仅基于输入的文本进行短语分割,无需其他背景语料;(3)公共知识库的词条定义严谨、知识点信息语言表述规范,能够获取高质量的训练样本,从而提高短语分割模型的训练效果;(4)短语分割模型的分割能力更优,能够将公共知识库中由两个以上的词组成的固定词条进行整体分割,方便后续使用,例如:使得机器断句的效果更佳,提高语音播报的体验。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (15)

1.一种短语分割模型的训练方法,包括:
基于公共知识库获取至少一个目标短语,所述目标短语包含至少两个词;
基于所述目标短语从所述公共知识库中获取至少一个第一文本,所述第一文本包含所述目标短语;
基于所述第一文本获取非目标短语,所述非目标短语为所述第一文本的一部分,且不同于所述目标短语;
将所述目标短语和所述第一文本构成的文本对作为正样本,所述非目标短语和所述第一文本构成的文本对作为负样本;
基于多组所述正样本和所述负样本训练得到短语分割模型。
2.如权利要求1所述的方法,所述非目标短语包含所述目标短语的一部分。
3.如权利要求1所述的方法,所述方法还包括:
获取第二文本;
所述短语分割模型以所述第二文本的第一个词为起始词,重复执行判别过程获取判定短语,直到所述判定短语包含所述第二文本的最后一个词,并将所述判定短语作为所述第二文本的短语分割结果。
4.如权利要求3所述的方法,所述判别过程包括:
基于所述起始词获取候选短语集;
所述短语分割模型基于所述候选短语集和所述第二文本,确定所述判定短语;
如果所述判定短语包含所述第二文本的最后一个词,则所述判别过程结束,否则基于所述判定短语获取新的起始词,并重复执行所述判别过程,其中,所述新的起始词包括所述第二文本中位于所述判定短语之后的下一个词。
5.如权利要求4所述的方法,所述基于所述判定短语获取新的起始词包括:
将所述第二文本中位于所述判定短语之后的下一个词作为所述新的起始词。
6.如权利要求4所述的方法,所述短语分割模型由向量表示模型和分类模型构成,所述短语分割模型基于所述候选短语集和所述第二文本,确定所述判定短语包括:
所述向量表示模型基于输入的短语文本对提取特征向量,所述短语文本对是由所述候选短语集中的候选短语和所述第二文本构成;
所述分类模型基于所述特征向量确定所述候选短语是否为所述判定短语。
7.如权利要求6所述的方法,所述向量表示模型为BERT模型。
8.一种短语分割模型的训练系统,包括:
目标短语获取模块,用于基于公共知识库获取至少一个目标短语,所述目标短语包含至少两个词;
第一文本获取模块,用于基于所述目标短语从所述公共知识库中获取至少一个第一文本,所述第一文本包含所述目标短语;
非目标短语获取模块,用于基于所述第一文本获取非目标短语,所述非目标短语为所述第一文本的一部分,且不同于所述目标短语;
样本获取模块,用于将所述目标短语和所述第一文本构成的文本对作为正样本,所述非目标短语和所述第一文本构成的文本对作为负样本;
训练模块,用于基于多组所述正样本和所述负样本训练得到短语分割模型。
9.如权利要求8所述的系统,所述非目标短语包含所述目标短语的一部分。
10.如权利要求8所述的系统,所述系统还包括:
第二文本获取模块,用于获取第二文本;
判别模块,用于所述短语分割模型以所述第二文本的第一个词为起始词,重复执行判别过程获取判定短语,直到所述判定短语包含所述第二文本的最后一个词,并将所述判定短语作为所述第二文本的短语分割结果。
11.如权利要求10所述的系统,所述判别模块用于:
基于所述起始词获取候选短语集;
所述短语分割模型基于所述候选短语集和所述第二文本,确定所述判定短语;
如果所述判定短语包含所述第二文本的最后一个词,则所述判别过程结束,否则基于所述判定短语获取新的起始词,并重复执行所述判别过程,其中,所述新的起始词包括所述第二文本中位于所述判定短语之后的下一个词。
12.如权利要求11所述的系统,所述判别模块用于:
将所述第二文本中位于所述判定短语之后的下一个词作为所述新的起始词。
13.如权利要求11所述的系统,所述短语分割模型由向量表示模型和分类模型构成,所述判别模块用于:
所述向量表示模型基于输入的短语文本对提取特征向量,所述短语文本对是由所述候选短语集中的候选短语和所述第二文本构成;
所述分类模型基于所述特征向量确定所述候选短语是否为所述判定短语。
14.如权利要求13所述的系统,所述向量表示模型为BERT模型。
15.一种短语分割模型的训练装置,包括至少一个存储介质和至少一个处理器,所述至少一个存储介质用于存储计算机指令;所述至少一个处理器用于执行所述计算机指令以实现如权利要求1~7任一项所述的方法。
CN202010384233.1A 2020-05-09 2020-05-09 一种短语分割模型的训练方法和系统 Active CN111522957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010384233.1A CN111522957B (zh) 2020-05-09 2020-05-09 一种短语分割模型的训练方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010384233.1A CN111522957B (zh) 2020-05-09 2020-05-09 一种短语分割模型的训练方法和系统

Publications (2)

Publication Number Publication Date
CN111522957A CN111522957A (zh) 2020-08-11
CN111522957B true CN111522957B (zh) 2023-05-12

Family

ID=71907331

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010384233.1A Active CN111522957B (zh) 2020-05-09 2020-05-09 一种短语分割模型的训练方法和系统

Country Status (1)

Country Link
CN (1) CN111522957B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191152B (zh) * 2021-06-30 2021-09-10 杭州费尔斯通科技有限公司 一种基于实体扩展的实体识别方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
CN107992531A (zh) * 2017-11-21 2018-05-04 吉浦斯信息咨询(深圳)有限公司 基于深度学习的新闻个性化智能推荐方法与系统
EP3483747A1 (en) * 2017-11-13 2019-05-15 Accenture Global Solutions Limited Preserving and processing ambiguity in natural language
CN110008309A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 一种短语挖掘方法及装置
CN110413757A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 一种词语释义确定方法、装置及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8346534B2 (en) * 2008-11-06 2013-01-01 University of North Texas System Method, system and apparatus for automatic keyword extraction
CN108073568B (zh) * 2016-11-10 2020-09-11 腾讯科技(深圳)有限公司 关键词提取方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202177A (zh) * 2016-06-27 2016-12-07 腾讯科技(深圳)有限公司 一种文本分类方法及装置
EP3483747A1 (en) * 2017-11-13 2019-05-15 Accenture Global Solutions Limited Preserving and processing ambiguity in natural language
CN107992531A (zh) * 2017-11-21 2018-05-04 吉浦斯信息咨询(深圳)有限公司 基于深度学习的新闻个性化智能推荐方法与系统
CN110008309A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 一种短语挖掘方法及装置
CN110413757A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 一种词语释义确定方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
阳萍 ; 谢志鹏 ; .基于BiLSTM模型的定义抽取方法.计算机工程.(03),全文. *

Also Published As

Publication number Publication date
CN111522957A (zh) 2020-08-11

Similar Documents

Publication Publication Date Title
CN107329949B (zh) 一种语义匹配方法和系统
CN107729313B (zh) 基于深度神经网络的多音字读音的判别方法和装置
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
JP7143456B2 (ja) 医学的事実の検証方法及び検証装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
CN107437417B (zh) 基于循环神经网络语音识别中语音数据增强方法及装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
US10915756B2 (en) Method and apparatus for determining (raw) video materials for news
CN113470619B (zh) 语音识别方法、装置、介质及设备
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN110955766A (zh) 一种自动扩充智能客服标准问题对的方法和系统
CN111221936B (zh) 一种信息匹配方法、装置、电子设备及存储介质
CN112131881A (zh) 信息抽取方法及装置、电子设备、存储介质
CN113254613A (zh) 对话问答方法、装置、设备及存储介质
KR101988165B1 (ko) 청각 장애 학생들을 위한 전문 자료 텍스트 분석 기반 음성인식 기술 정확도 향상 방법 및 시스템
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN113468323B (zh) 争议焦点类别及相似判断方法及系统及装置及推荐方法
CN111522957B (zh) 一种短语分割模型的训练方法和系统
CN116522905B (zh) 文本纠错方法、装置、设备、可读存储介质及程序产品
CN116467417A (zh) 问题答案的生成方法、装置、设备及存储介质
CN114706943A (zh) 意图识别的方法、装置、设备和介质
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN112183114B (zh) 模型训练、语义完整性识别方法和装置
CN110502630B (zh) 信息处理方法及设备
CN114692610A (zh) 关键词确定方法及装置
CN114676319B (zh) 获取商家名称的方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant