CN112256849A - 模型训练方法、文本检测方法、装置、设备和存储介质 - Google Patents

模型训练方法、文本检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112256849A
CN112256849A CN202011125618.2A CN202011125618A CN112256849A CN 112256849 A CN112256849 A CN 112256849A CN 202011125618 A CN202011125618 A CN 202011125618A CN 112256849 A CN112256849 A CN 112256849A
Authority
CN
China
Prior art keywords
sentence
detected
target word
example sentence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011125618.2A
Other languages
English (en)
Other versions
CN112256849B (zh
Inventor
李松
黄研洲
卢俊羽
杨海军
徐倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202011125618.2A priority Critical patent/CN112256849B/zh
Publication of CN112256849A publication Critical patent/CN112256849A/zh
Application granted granted Critical
Publication of CN112256849B publication Critical patent/CN112256849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种模型训练方法、文本检测方法、装置、设备及存储介质。该模型训练方法包括:获取若干目标词对应的训练样本,每个目标词对应的训练样本包括该目标词对应的应被检出的正例句子集合和/或不应被检出的负例句子集合;对于每一训练样本,将正例句子集合和/或负例句子集合中的句子输入BERT模型,根据目标词,得到每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量;利用每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量,训练识别模型;识别模型用于根据待检测句子的目标词位置平均向量识别待检测句子为正例句子或负例句子。应用此方法训练得到的模型,可以提高目标词检测正确率。

Description

模型训练方法、文本检测方法、装置、设备和存储介质
技术领域
本发明涉及数据处理领域,尤其涉及一种模型训练方法、文本检测方法、装置、设备和存储介质。
背景技术
在很多企业与客户的沟通中,是由客服作为中间桥梁与客户进行直接联系,传达企业或客户的信息。所以,客服与客户的通话内容对企业来说有较为重要的意义。
为核查客服与客户通话过程中是否存在问题,一般需要对通话过程进行质检。在质检中,目标词检测是一个非常重要的任务。目标词检测是一种以某个目标词为标志,检测包含此目标词的句子的方式。一般向质检系统中输入想要检出的目标词列表,经过系统的质检后可以返回包含目标词的句子。
不过,受到语境的影响,同一个目标词在不同句子中的含义可能有所不同。而实际上,需要被检测出的句子往往只是包含目标词的部分句子。例如,需要检测出包含目标词“X机构”的句子是“我要向X机构投诉你们”,而不包括“我们是X机构管理下的一家公司”。但是通过上述的方式两个句子都会被作为质检结果返回,导致目标词检测的准确率较低。
发明内容
本发明的主要目的在于提供一种模型训练方法、文本检测方法、装置、设备及存储介质,旨在提高目标词所在句子的检索正确率。
为实现上述目的,本发明提供一种模型训练方法,包括:
获取若干目标词对应的训练样本,其中,每个目标词对应的训练样本包括所述目标词对应的应被检出的正例句子集合和/或不应被检出的负例句子集合;
对于每一训练样本,将所述正例句子集合和/或所述负例句子集合中的句子输入BERT模型,根据所述目标词,得到每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量;
利用所述每个正例句子的目标词位置平均向量和/或所述每个负例句子的目标词位置平均向量,训练识别模型;
其中,所述识别模型用于根据待检测句子的目标词位置平均向量识别所述待检测句子为正例句子或负例句子。
可选的,所述将所述正例句子集合和/或所述负例句子集合中的句子输入BERT模型,得到每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量,包括:
将所述正例句子集合和/或所述负例句子集合中的句子输入BERT模型,得到BERT模型倒数第二层输出的正例句子的每个字的词向量和/或负例句子的每个字的词向量;
根据所述目标词在每个句子中的位置,确定每个句子中目标词对应的至少一个字向量;
根据每个句子中所述目标词对应的至少一个字向量,确定每个句子的目标词位置平均向量。
可选的,所述方法还包括:
将所述正例句子集合和/或所述负例句子集合中的句子输入BERT模型,得到每个正例句子的句向量和/或每个负例句子的句向量,所述句向量用于在对待检测的句子进行检测时,与待检测句子的句向量比较,以确定待检测的句子是否为正例句子。
可选的,所述方法还包括:
利用标准语料库,对BERT模型进行语言模型微调;
所述将所述正例句子集合和/或所述负例句子集合中的句子输入BERT模型,包括:
将所述正例句子集合和/或所述负例句子集合中的句子输入微调后的BERT模型。
本发明还提供一种文本检测方法,包括:
获取待检测的句子;
将所述待检测的句子输入BERT模型,得到所述待检测的句子的目标词位置平均向量;
将所述待检测的句子的目标词位置平均向量输入训练好的识别模型,判断所述待检测的句子为正例句子或负例句子;
其中,所述识别模型为通过上述的模型训练方法训练得到的识别模型。
可选的,所述将待检测的句子输入BERT模型,得到待检测的句子的目标词位置平均向量,包括:
将待检测的句子输入BERT模型,得到待检测的句子的目标词位置平均向量和/或待检测句子的句向量;
所述方法还包括:
若判断所述待检测的句子为负例句子,则将待检测句子的句向量与所述集合中的各个句子的句向量比较,验证所述待检测的句子是否为正例句子。
可选的,所述将待检测句子的句向量与全部正例句子的句向量比较,验证所述待检测的句子是否为正例句子,包括:
确定待检测句子的句向量与每个正例句子的句向量的数量积、范数;
根据所述待检测句子的句向量与每个正例句子的句向量的数量积、范数,确定待检测句子与每个正例句子的余弦相似度;
若存在一个余弦相似度大于或等于预设值,则确定所述待检测的句子为正例句子。
本发明还提供一种模型训练装置,包括:
获取模块,用于获取若干目标词对应的训练样本,其中,每个目标词对应的训练样本包括所述目标词对应的应被检出的正例句子集合和/或不应被检出的负例句子集合;
计算模块,用于对于每一训练样本,将所述正例句子集合和/或所述负例句子集合中的句子输入BERT模型,根据所述目标词,得到每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量;
训练模块,用于利用所述每个正例句子的目标词位置平均向量和/或所述每个负例句子的目标词位置平均向量,训练识别模型;其中,所述识别模型用于根据待检测句子的目标词位置平均向量识别所述待检测句子为正例句子或负例句子。
本发明还提供一种文本检测装置,包括:
获取模块,用于获取待检测的句子;
计算模块,用于将所述待检测的句子输入BERT模型,得到所述待检测的句子的目标词位置平均向量;
判断模块,用于将所述待检测的句子的目标词位置平均向量输入训练好的识别模型,判断所述待检测的句子为正例句子或负例句子;其中,所述识别模型为通过所述模型训练方法训练得到的识别模型。
本发明还提供一种电子设备,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的模型训练方法或文本检测方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的模型训练方法或文本检测方法的步骤
本发明提供一种模型训练方法、文本检测方法、装置、设备及存储介质。该模型训练方法包括:获取若干目标词对应的训练样本,其中,每个目标词对应的训练样本包括所述目标词对应的应被检出的正例句子集合和/或不应被检出的负例句子集合;对于每一训练样本,将所述正例句子集合和/或所述负例句子集合中的句子输入BERT模型,根据所述目标词,得到每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量;利用所述每个正例句子的目标词位置平均向量和/或所述每个负例句子的目标词位置平均向量,训练识别模型;其中,所述识别模型用于根据待检测句子的目标词位置平均向量识别所述待检测句子为正例句子或负例句子。此模型训练方法以目标词应被检出的句子和/或不应被检出的句子作为训练样本,利用BERT模型确定每个句子的包含句子信息的目标词位置平均向量,再以各句的目标词位置平均向量训练识别模型,使得识别模型具备根据目标词位置平均向量确定句子性质(应被检出和/或不应被检出)的能力。应用此模型训练方法训练得到的识别模型,可以分辨出包含目标词的句子是否为应被检出的句子,可以提高目标词所在句子的检索的正确率。
附图说明
图1a为本发明提供的一种应用场景的示意图;
图1b为本发明提供的一种模型训练方法和文本检测方法的原理图;
图2为本发明一实施例提供的一种模型训练方法的流程图;
图3为本发明一实施例提供的一种文本检测方法的流程图;
图4a为模型训练过程的示意图;
图4b为文本检测过程的示意图;
图5为本发明一实施例提供的一种模型训练装置的结构示意图;
图6为本发明一实施例提供的一种文本检测装置的结构示意图;
图7为本发明一实施例提供的一种电子设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本发明中,目标词检测指的是从多个句子中检测出包含目标词的句子。不过,在很多实际的应用场景中,并非所有的包含目标词的句子都是满足检测需求的。也就是说,可能并不需要检测出所有包含目标词的句子,而只是需要检测出其中的部分句子。这样,传统的检测方式的准确率就会变低。
一般根据检测需求,需要被检测出的包含目标词的句子是符合某种语境条件的句子。因为语境的不同,目标词在句子中的含义也可能有不同的特点。也就是说,要检测的句子是包含符合某种特点的目标词的句子。
基于此,本发明试图提供一种模型训练方法、文本检测方法、装置、设备和存储介质,构建一模型并利用此模型分析目标词在不同句子中的不同特征,以确定目标词所在句子是否为满足检测需求的句子。
图1a为本发明提供的一种应用场景的示意图。本发明的方案可以应用于各种有目标词检测需求的场景中,如图1所示的,可以应用于对银行业务处理中客服录音进行质检的场景中。在银行客服人员与客户的通话过程中,通过通话设备或录音设备对通话过程进行录音。记录的语音数据可以存储在服务器中,可以根据需要将语音数据转换为文本数据,用于模型训练或目标词检测。可以利用计算机进行模型训练和目标词检测。
在模型训练过程中,可以从服务器中存储的历史的语音数据转化的文本数据中确定包含目标词的句子,作为训练样本。针对每个包含目标词的句子,根据实际检测的需求,对应被检出的句子和不应被检出的句子分别进行标注(打标签)。将标注好的训练样本输入计算机中,对模型进行训练。
在目标词检测过程中,可以从服务器中存储的待检测的文本数据中确定包含目标词的句子,将其输入到计算机中已训练好的模型当中,输出检测结果,即句子对应的标签。
模型训练和目标词检测的具体的原理可以参考图1b。如图1b中实线所指示的即为模型训练过程。将语音数据转换为文本数据,并对包含目标词的文本数据打标签。对于每个目标词,样本可以有两类,一类是应被检测出的句子,可称之为“正例”,以标签1标示;另一类是不应被检出的句子,可称之为“负例”,以标签0标示。如图1b中所示的,目标词a可以对应若干正例句子和若干负例句子,每个正例句子的标签为1,每个负例句子的标签为0。将每个目标词对应的所有的样本句子和标签输入基于变换器的双向编码器表征(Bidirectional Encoder Representations from Transformers,BERT)模型进行训练,BERT模型的输出结果为每个句子中目标词的平均向量。如图1b中所示的,目标词a的正例句子n对应目标词a在该句中的目标词位置平均向量,目标词a的负例句子n对应目标词a在该句中的目标词位置平均向量。目标词位置平均向量中可能包含有目标词的位置信息、上下文的语义信息等,可用于表征目标词在当前句子中的特征。例如,BERT模型可以通过查询预设的字向量表获取每个句子中每个字的原始字向量,BERT模型通过训练可以学习到每个句子的语义信息的向量表征(可称之为文本向量)和句子中每个字所在位置对语义的影响的向量表征(可称之为位置向量)等。通过将原始字向量、文本向量、位置向量等进行融合,可得到句子中每个字的字向量。其中包含有目标词中每个字的字向量,可以进一步融合得到目标词的向量表征,即目标词位置平均向量。然后,利用每个样本句子的目标词位置平均向量及句子标签训练识别模型。识别模型实际上属于分类模型,通过标签0和1对应的目标词位置平均向量的训练后,即可以根据向量特征将向量分类为0或1。
如图1b中虚线所指示的即为目标词检测过程。在对新的录音数据进行目标词检测时,同样的,可以将语音数据转换为文本数据。而后对文本数据进行初步检测,确定其中包含有目标词的全部句子。再将检测出的包含目标词的句子输入BERT模型计算目标词位置平均向量,再将目标词位置平均向量输入识别模型,即可输出对该句子的分类结果0或1。
本发明的具体的实现过程可以参考以下各实施例的描述。
图2为本发明一实施例提供的一种模型训练方法的流程图。如图2所示的,本实施例的方法可以包括:
S201、获取若干目标词对应的训练样本,其中,每个目标词对应的训练样本包括所述目标词对应的应被检出的正例句子集合和/或不应被检出的负例句子集合。
本发明中所说的“正例句子”即包含某个目标词,且应当被检测出的符合检测需求的句子;而“负例句子”指包含某个目标词,且不应被检测出的不符合检测需求的句子。
在训练样本中,可以只包括正例句子,相应的训练的模型可以识别正例句子;也可以只包括负例句子,相应的训练的模型可以识别负例句子;也可以同时包括正例句子和负例句子,相应的训练的模型可以识别正例句子和负例句子。
在一些实施例中,例如图1对应的应用场景中,需要对语音数据进行目标词检测时,可以先将语音数据转化成文本数据,再将文本数据作为训练样本。
S202、对于每一训练样本,将正例句子集合和/或负例句子集合中的句子输入BERT模型,根据目标词,得到每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量。
在训练过程中,作为训练样本,每个句子会对应有一个标签。例如,正例句子的标签为1,负例句子的标签为0。
可以理解的是,某个句子中可能同时包括多个不同的目标词。而此句子也可能同时是第一个目标词的正例句子和第二个目标词的负例句子,这会使得此句子同时具备两个不同的标签。相应的,可以根据不同的目标词为句子设置不同的标签。例如,目标词a的正例句子的标签为a1,目标词b的正例句子的标签为b1。
将每个样本句子输入BERT模型后,通过训练可以得到每个句子中的目标词位置平均向量。
在进行模型训练前,还可以利用标准语料库,对BERT模型进行模型微调,使其适用于当前的目标词检测任务。而后,将正例句子集合和/或负例句子集合中的句子输入微调后的BERT模型,进行训练得到目标词位置平均向量。
具体的,目标词位置平均向量可以为目标词中每个字对应的字向量的均值。根据目标词在每个句子中的位置,可以确定每个句子中目标词对应的至少一个字向量;根据每个句子中目标词对应的至少一个字向量,即可确定每个句子的目标词位置平均向量。
BERT模型的输出一般有多层,每层输出的向量在不同的任务中的效果不同。在本发明中,可以选择倒数第二层输出的字向量用于计算目标词位置平均向量。
例如,在一个句子中有10个字,通过BERT模型的识别,确定目标词所在的位置是第4和第5个字。倒数第二层输出的向量为10*768维的向量,分别对应10个字的字向量。取第4和第5个字的字向量,取平均得到一个768维的向量作为目标词位置平均向量。因为训练过程中,每个字的字向量都融合了每个字的位置特征、上下文的语义特征等,因而得到的目标词位置平均向量可以较好地表征目标词在所在句子中的特征。
S203、利用每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量,训练识别模型;其中,识别模型用于根据待检测句子的目标词位置平均向量识别待检测句子为正例句子或负例句子。
经过BERT模型计算得到的目标词位置平均向量与句子性质(是否应被检测到)有明确的对应关系。目标词位置平均向量及其对应的句子标签,可以用于对识别模型的训练。
识别模型实际上属于一种分类模型,通过大量正例句子的目标词位置平均向量的训练,识别模型可以确定正例句子的目标词位置平均向量的特征,并区分待检测的句子的目标词位置平均向量是否属于正例句子;通过大量负例句子的目标词位置平均向量的训练,识别模型可以确定正例句子的目标词位置平均向量的特征,并区分待检测的句子的目标词位置平均向量是否属于负例句子。若训练样本中同时包含大量正例句子的目标词位置平均向量和大量负例句子的目标词位置平均向量,则训练好的识别模型可以区分待检测的句子的目标词位置平均向量属于正例句子或负例句子。
具体的,识别模型可以选用逻辑回归模型,或者其它分类模型。
本实施例的模型训练方法以目标词应被检出的句子和/或不应被检出的句子作为训练样本,利用BERT模型确定每个句子的包含句子信息的目标词位置平均向量,再以各句的目标词位置平均向量训练识别模型,使得识别模型具备根据目标词位置平均向量确定句子性质(应被检出和/或不应被检出)的能力。应用此模型训练方法训练得到的识别模型,可以分辨出包含目标词的句子是否为应被检出的句子,可以提高目标词所在句子的检索的正确率。
在一些实施例中,在上述的模型训练过程中,将正例句子集合和/或负例句子集合中的句子输入BERT模型后,还可以得到每个正例句子的句向量和/或每个负例句子的句向量,句向量用于在对待检测的句子进行检测时,与待检测句子的句向量比较,以确定待检测的句子是否为正例句子。
在本发明中,句向量可以选择BERT模型最后一层输出的768维的向量作为句向量。
需要说明的是,本发明中所列举的BERT模型输出的向量维度(768维)只是其中一种较为常见的维度,根据实际使用中模型的具体构成不同,向量的维度可能不同,选择的输出层数也可能有所区别,但都属于本发明的保护范围。
模型输出的句向量可以在对待检测的句子进行检测时,与待检测句子的句向量比较,以确定待检测的句子是否为正例句子或负例句子。具体的过程在下述的检测方法的实施例中说明。
图3为本发明一实施例提供的一种文本检测方法的流程图。如图3所示的,本实施例的方法可以包括:
S301、获取待检测的句子。
待检测的句子可以为已经确定包含目标词的句子。
在一些实施例中,例如图1对应的应用场景中,需要对语音数据进行目标词检测时,可以先将目标语音数据转化成文本数据,对文本数据进行识别后,确定其中包含目标词的句子,作为待检测句子。
S302、将待检测的句子输入BERT模型,得到待检测的句子的目标词位置平均向量。
与训练过程相似的,待检测句子输入BERT模型后,可以得到输出的每个字的字向量,选择目标词对应的字向量,取均值得到目标词位置平均向量。
S303、将待检测的句子的目标词位置平均向量输入训练好的识别模型,判断待检测的句子为正例句子或负例句子;其中,识别模型为通过模型训练方法训练得到的识别模型。
将待检测的句子的目标词位置平均向量输入训练好的识别模型进行分类,确定其为正例句子或负例句子。因训练过程是以0、1标签进行训练,则在识别模型的输出也为0或1。
通过本实施例的方法,可以在目标词检测任务中,识别到包含目标词的句子后接入BERT模型和识别模型。通过BERT模型确定待检测句子的目标词位置平均向量,利用识别模型确定待检测句子的目标词位置平均向量对应的标签是正例或负例。如此,确定待检测句子是否应被检测出来。从而提高目标词检测的准确性。
在另一实施例中,在将待检测的句子输入BERT模型后,输出待检测的句子的目标词位置平均向量的同时,还可以输出待检测的句子的句向量。相对应的,若通过识别模型,判断待检测的句子为负例句子,还可以将待检测句子的句向量与训练过程中确定的正例集合中的各个句子的句向量比较,验证待检测的句子是否为正例句子。或者,若通过识别模型,判断待检测的句子为正例句子,还可以将待检测句子的句向量与训练过程中确定的负例集合中的各个句子的句向量比较,验证待检测的句子是否为负例句子。从而可以减少漏检或错检,进一步提高目标句子检测的正确率。
具体的,将待检测句子的句向量与全部正例句子的句向量比较,验证待检测的句子是否为正例句子的方式可以包括:计算待检测句子的句向量与每个正例句子的句向量的数量积、范数;根据待检测句子的句向量与每个正例句子的句向量的数量积、范数,计算待检测句子与每个正例句子的余弦相似度;若存在一个余弦相似度大于或等于预设值,则确定待检测的句子为正例句子。
在一些实施例中,可以通过以下公式计算待检测句子与每个正例句子或负例句子的余弦相似度:
cosine(A,B)=(A·B)/||A||*||B||。
其中,A为待检测句子的句向量,B为某个样本句子的句向量,cosine(A,B)为向量A和向量B的余弦相似度,A·B为向量A和向量B的数量积,||A||*||B||为向量A和向量B的范数。
在一个具体的实施例中,对客服通话内容进行敏感词检测。识别模型选用逻辑回归模型。
首先确定想要检出的敏感词列表W=[w1,w2,w3,…,wx],每个敏感词wi对应的应检出语境的句子C=[c1,c2,…,cn](正例)及对应的标签1,每个敏感词wi对应的不应检出语境的句子F=[f1,f2,…,fm](负例)及对应的标签0,待检测文本T。
总体流程可分为训练过程和检测过程。
图4a为模型训练过程的示意图,如图4a所示的,训练过程如下:
1.在大规模领域语料库上用BERT模型进行语言模型微调(BERT预训练)。
由于语言的丰富性,语言模型的效果也极大依赖于训练语料。具体的,使用收集到的相关领域内的大规模文本对BERT预训练语言模型进行训练微调(fine-tune),也就是预训练过程。比如,对银行客服系统的录音的识别,语料库即可选取银行领域相关的语料文本。
2.将所有的正例和负例({C1,…,Cn,F1,…,Fm})句子及其对应的标签输入预训练好的BERT模型,得到倒数第二层的敏感词位置平均向量和最后一层的句向量。
一个句子输入BERT语言模型后,最后一层输出的向量可以作为该句子的句向量,与正例或负例中的句子的句向量计算余弦相似度;BERT语言模型倒数第二层敏感词的平均向量可以作为这个词参考上下文语境后的词向量,用来训练逻辑回归模型。
3.使用上面得到的敏感词位置平均向量训练逻辑回归模型,用以判断待检测句子属于正例或负例。
图4b为文本检测过程的示意图,如图4b所示的,检测过程如下:
1.将包含敏感词的句子输入预训练好的BERT模型,得到倒数第二层待检测句子的敏感词位置平均向量和最后一层待检测句子的句向量。
2.将待检测句子的敏感词位置平均向量输入逻辑回归模型,判断待检测句子属于正例或负例。
3.为提高召回率,对逻辑回归模型预测输出为0的句子(负例句子)进行二次判断。具体是,将其句向量与训练样本中正例中所有句子的句向量计算余弦相似度,如果与训练样本中某个正例句子的余弦相似度大于一定的阈值,则说明此句子与正例中的该句子相似,此时将逻辑回归模型的判断结果修改为1。
通过BERT语言模型,我们可以得到一个句子的句向量,然后计算这个句子与其他句子的cosine相似度。两个向量A和B的cosine相似度的计算公式可以为:cosine(A,B)=(A·B)/||A||*||B||,·为点乘。得到的结果可以衡量两个句子的相似度,值越大则相似度越高。
可以计算逻辑回归输出为0的句子的句向量与所有正例中句子的句向量的相似度,找到其最大值,代表这个句子与正例的相似度。当其大于一定的阈值,则说明这个句子被逻辑回归判断错误,需要被修改为正例。
本发明使用语言模型的最后一层词的位置平均向量训练逻辑回归模型,这样有以下两点好处:(1)可以过滤掉不符合语言逻辑的句子,避免错字造成的误检;(2)由此得到的向量具有一定的上下文语义特征,使得模型可以区分不同的上下文语境判断敏感词是否需要被输出。
另外,对于逻辑回归模型输出为0的句子,通过相似度匹配的方式来进行修正,可以进一步提高召回率。
图5为本发明一实施例提供的一种模型训练装置的结构示意图。如图5所示的,本实施例的模型训练装置500包括:获取模块501、计算模块502和训练模块503。
获取模块501,用于获取若干目标词对应的训练样本,其中,每个目标词对应的训练样本包括所述目标词对应的应被检出的正例句子集合和/或不应被检出的负例句子集合;
计算模块502,用于对于每一训练样本,将正例句子集合和/或负例句子集合中的句子输入BERT模型,根据目标词,得到每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量;
训练模块503,用于利用每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量,训练识别模型;其中,识别模型用于根据待检测句子的目标词位置平均向量识别待检测句子为正例句子或负例句子。
可选的,计算模块502在将正例句子集合和/或负例句子集合中的句子输入BERT模型,根据目标词,得到每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量时,具体用于:
将正例句子集合和/或负例句子集合中的句子输入BERT模型,得到BERT模型倒数第二层输出的正例句子的每个字的词向量和/或负例句子的每个字的词向量;
根据目标词在每个句子中的位置,确定每个句子中目标词对应的至少一个字向量;
根据每个句子中目标词对应的至少一个字向量,确定每个句子的目标词位置平均向量。
可选的,计算模块502还用于:
将正例句子集合和/或负例句子集合中的句子输入BERT模型,得到每个正例句子的句向量和/或每个负例句子的句向量,句向量用于在对待检测的句子进行检测时,与待检测句子的句向量比较,以确定待检测的句子是否为正例句子。
可选的,装置500还包括:模型调整模块504,用于利用标准语料库,对BERT模型进行语言模型微调;
计算模块502在将正例句子集合和/或负例句子集合中的句子输入BERT模型时,具体用于:
将正例句子集合和/或负例句子集合中的句子输入微调后的BERT模型。
本实施例的装置可用于执行上述实施例中的模型训练方法,产生的技术效果相似,此处不再赘述。
图6为本发明一实施例提供的一种文本检测装置的结构示意图。如图6所示的,本实施例的文本检测装置600包括:获取模块601、计算模块602和判断模块603。
获取模块601,用于获取待检测的句子;
计算模块602,用于将待检测的句子输入BERT模型,得到待检测的句子的目标词位置平均向量;
判断模块603,用于将待检测的句子的目标词位置平均向量输入训练好的识别模型,判断待检测的句子为正例句子或负例句子;其中,识别模型为通过模型训练方法训练得到的识别模型。
可选的,计算模块602在将待检测的句子输入BERT模型,得到待检测的句子的目标词位置平均向量时,具体用于:
将待检测的句子输入BERT模型,得到待检测的句子的目标词位置平均向量和/或待检测句子的句向量;
装置600还包括:验证模块604,用于在判断待检测的句子为负例句子时,将待检测句子的句向量与集合中的各个句子的句向量比较,验证待检测的句子是否为正例句子。
可选的,验证模块604在将待检测句子的句向量与全部正例句子的句向量比较,验证待检测的句子是否为正例句子时,具体用于:
确定待检测句子的句向量与每个正例句子的句向量的数量积、范数;
根据待检测句子的句向量与每个正例句子的句向量的数量积、范数,确定待检测句子与每个正例句子的余弦相似度;
若存在一个余弦相似度大于或等于预设值,则确定待检测的句子为正例句子。
本实施例的装置可用于执行上述实施例中的文本检测方法,产生的技术效果相似,此处不再赘述。
在另一实施例中,可以有一装置,同时具有上述两实施例中模型训练装置500和文本检测装置600中的各构成模块,且可以执行上述的模型训练方法和上述的文本检测方法。
图7为本发明一实施例提供的一种电子设备的结构示意图。如图7所示的,本实施例的电子设备700包括:存储器701、处理器702及存储在存储器701上并可在处理器702上运行的计算机程序,计算机程序被处理器执行时实现如上述的模型训练方法或文本检测方法的步骤。
本发明还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上的模型训练方法或文本检测方法的步骤。
在一些实施例中,上述的电子设备700可以为计算机或服务器等具备存储和计算功能的设备。
在另一实施例中,上述的模型训练方法和文本检测方法可以分别由不同电子设备执行。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本发明各个实施例方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其它通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (11)

1.一种模型训练方法,其特征在于,包括:
获取若干目标词对应的训练样本,其中,每个目标词对应的训练样本包括所述目标词对应的应被检出的正例句子集合和/或不应被检出的负例句子集合;
对于每一训练样本,将所述正例句子集合和/或所述负例句子集合中的句子输入基于变换器的双向编码器表征BERT模型,根据所述目标词,得到每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量;
利用所述每个正例句子的目标词位置平均向量和/或所述每个负例句子的目标词位置平均向量,训练识别模型;
其中,所述识别模型用于根据待检测句子的目标词位置平均向量识别所述待检测句子为正例句子或负例句子。
2.根据权利要求1所述的方法,其特征在于,所述将所述正例句子集合和/或所述负例句子集合中的句子输入BERT模型,得到每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量,包括:
将所述正例句子集合和/或所述负例句子集合中的句子输入BERT模型,得到BERT模型倒数第二层输出的正例句子的每个字的词向量和/或负例句子的每个字的词向量;
根据所述目标词在每个句子中的位置,确定每个句子中目标词对应的至少一个字向量;
根据每个句子中所述目标词对应的至少一个字向量,确定每个句子的目标词位置平均向量。
3.根据权利要求1或2所述的方法,其特征在于,还包括:
将所述正例句子集合和/或所述负例句子集合中的句子输入BERT模型,得到每个正例句子的句向量和/或每个负例句子的句向量,所述句向量用于在对待检测的句子进行检测时,与待检测句子的句向量比较,以确定待检测的句子是否为正例句子。
4.根据权利要求1或2所述的方法,其特征在于,还包括:
利用标准语料库,对BERT模型进行语言模型微调;
所述将所述正例句子集合和/或所述负例句子集合中的句子输入BERT模型,包括:
将所述正例句子集合和/或所述负例句子集合中的句子输入微调后的BERT模型。
5.一种文本检测方法,其特征在于,包括:
获取待检测的句子;
将所述待检测的句子输入BERT模型,得到所述待检测的句子的目标词位置平均向量;
将所述待检测的句子的目标词位置平均向量输入训练好的识别模型,判断所述待检测的句子为正例句子或负例句子;
其中,所述识别模型为通过权利要求1-4任一项所述的方法训练得到的识别模型。
6.根据权利要求5所述的方法,其特征在于,所述将所述待检测的句子输入BERT模型,得到待检测的句子的目标词位置平均向量,包括:
将待检测的句子输入BERT模型,得到待检测的句子的目标词位置平均向量和/或待检测句子的句向量;
所述方法还包括:
若判断所述待检测的句子为负例句子,则将待检测句子的句向量与所述集合中的各个句子的句向量比较,验证所述待检测的句子是否为正例句子。
7.根据权利要求6所述的方法,其特征在于,所述将待检测句子的句向量与全部正例句子的句向量比较,验证所述待检测的句子是否为正例句子,包括:
确定待检测句子的句向量与每个正例句子的句向量的数量积、范数;
根据所述待检测句子的句向量与每个正例句子的句向量的数量积、范数,确定待检测句子与每个正例句子的余弦相似度;
若存在一个余弦相似度大于或等于预设值,则确定所述待检测的句子为正例句子。
8.一种模型训练装置,其特征在于,包括:
获取模块,用于获取若干目标词对应的训练样本,其中,每个目标词对应的训练样本包括所述目标词对应的应被检出的正例句子集合和/或不应被检出的负例句子集合;
计算模块,用于对于每一训练样本,将所述正例句子集合和/或所述负例句子集合中的句子输入BERT模型,根据所述目标词,得到每个正例句子的目标词位置平均向量和/或每个负例句子的目标词位置平均向量;
训练模块,用于利用所述每个正例句子的目标词位置平均向量和/或所述每个负例句子的目标词位置平均向量,训练识别模型;其中,所述识别模型用于根据待检测句子的目标词位置平均向量识别所述待检测句子为正例句子或负例句子。
9.一种文本检测装置,其特征在于,包括:
获取模块,用于获取待检测的句子;
计算模块,用于将所述待检测的句子输入BERT模型,得到所述待检测的句子的目标词位置平均向量;
判断模块,用于将所述待检测的句子的目标词位置平均向量输入训练好的识别模型,判断所述待检测的句子为正例句子或负例句子;其中,所述识别模型为通过权利要求1-4任一项所述的方法训练得到的识别模型。
10.一种电子设备,其特征在于,所述电子设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
CN202011125618.2A 2020-10-20 2020-10-20 模型训练方法、文本检测方法、装置、设备和存储介质 Active CN112256849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011125618.2A CN112256849B (zh) 2020-10-20 2020-10-20 模型训练方法、文本检测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011125618.2A CN112256849B (zh) 2020-10-20 2020-10-20 模型训练方法、文本检测方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112256849A true CN112256849A (zh) 2021-01-22
CN112256849B CN112256849B (zh) 2024-02-13

Family

ID=74245049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011125618.2A Active CN112256849B (zh) 2020-10-20 2020-10-20 模型训练方法、文本检测方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN112256849B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883722A (zh) * 2021-03-04 2021-06-01 中山大学 一种基于云数据中心分布式文本摘要方法
CN113055537A (zh) * 2021-04-13 2021-06-29 上海东普信息科技有限公司 客服人员的语音质检方法、装置、设备及存储介质
CN113590786A (zh) * 2021-07-28 2021-11-02 平安科技(深圳)有限公司 一种数据预测方法、装置、设备及存储介质
WO2023137920A1 (zh) * 2022-01-18 2023-07-27 平安科技(深圳)有限公司 语义截断检测方法、装置、设备和计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241881A (ja) * 2006-03-10 2007-09-20 Nippon Telegr & Teleph Corp <Ntt> 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2018025956A (ja) * 2016-08-09 2018-02-15 日本電信電話株式会社 モデル作成装置、推定装置、方法、及びプログラム
US20180329880A1 (en) * 2017-05-10 2018-11-15 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110309267A (zh) * 2019-07-08 2019-10-08 哈尔滨工业大学 基于预训练模型的语义检索方法和系统
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置
WO2020144736A1 (ja) * 2019-01-08 2020-07-16 三菱電機株式会社 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
CN111666755A (zh) * 2020-06-24 2020-09-15 深圳前海微众银行股份有限公司 一种复述句识别的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007241881A (ja) * 2006-03-10 2007-09-20 Nippon Telegr & Teleph Corp <Ntt> 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2018025956A (ja) * 2016-08-09 2018-02-15 日本電信電話株式会社 モデル作成装置、推定装置、方法、及びプログラム
US20180329880A1 (en) * 2017-05-10 2018-11-15 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
WO2020144736A1 (ja) * 2019-01-08 2020-07-16 三菱電機株式会社 意味関係学習装置、意味関係学習方法、及び意味関係学習プログラム
CN109992648A (zh) * 2019-04-10 2019-07-09 北京神州泰岳软件股份有限公司 基于词迁徙学习的深度文本匹配方法及装置
CN110309267A (zh) * 2019-07-08 2019-10-08 哈尔滨工业大学 基于预训练模型的语义检索方法和系统
CN111401066A (zh) * 2020-03-12 2020-07-10 腾讯科技(深圳)有限公司 基于人工智能的词分类模型训练方法、词处理方法及装置
CN111666755A (zh) * 2020-06-24 2020-09-15 深圳前海微众银行股份有限公司 一种复述句识别的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴清佳;: "基于神经网络集成的旋转人脸快速检测系统", 吉林大学学报(工学版), no. 1 *
彭玉容;沈红岩;程芳;: "搜索引擎中的文本分类方法研究", 中国新技术新产品, no. 17 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883722A (zh) * 2021-03-04 2021-06-01 中山大学 一种基于云数据中心分布式文本摘要方法
CN113055537A (zh) * 2021-04-13 2021-06-29 上海东普信息科技有限公司 客服人员的语音质检方法、装置、设备及存储介质
CN113590786A (zh) * 2021-07-28 2021-11-02 平安科技(深圳)有限公司 一种数据预测方法、装置、设备及存储介质
WO2023137920A1 (zh) * 2022-01-18 2023-07-27 平安科技(深圳)有限公司 语义截断检测方法、装置、设备和计算机可读存储介质

Also Published As

Publication number Publication date
CN112256849B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN112256849B (zh) 模型训练方法、文本检测方法、装置、设备和存储介质
CN109460455B (zh) 一种文本检测方法及装置
CN112214418B (zh) 一种应用程序的合规检测方法、装置和电子设备
CN109271489B (zh) 一种文本检测方法及装置
CN109344257B (zh) 文本情感识别方法及装置、电子设备、存储介质
CN110675862A (zh) 语料获取方法、电子装置及存储介质
CN112417132B (zh) 一种利用谓宾信息筛选负样本的新意图识别方法
CN114117038A (zh) 一种文档分类方法、装置、系统及电子设备
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN112699671B (zh) 一种语言标注方法、装置、计算机设备和存储介质
CN111046627A (zh) 一种中文文字显示方法及系统
WO2024055603A1 (zh) 一种未成年人文本识别方法及装置
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN111291535A (zh) 剧本处理方法、装置、电子设备及计算机可读存储介质
CN112687296B (zh) 音频不流利的识别方法、装置、设备及可读存储介质
CN109036390B (zh) 一种基于集成梯度提升机的广播关键字识别方法
CN113111855A (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
CN110909538A (zh) 问答内容的识别方法、装置、终端设备及介质
CN111061869A (zh) 一种基于TextRank的应用偏好文本分类方法
CN111488737A (zh) 文本识别方法、装置及设备
CN115599891B (zh) 一种确定异常对话数据方法、装置、设备及可读存储介质
CN112883150B (zh) 商标词语与通用词语的区分方法、装置、设备及存储介质
CN112860887B (zh) 一种文本标注方法及装置
CN114049528B (zh) 一种品牌名称识别的方法及设备
CN117171653B (zh) 一种识别信息关系的方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant