CN109344395B - 一种数据处理方法、装置、服务器及存储介质 - Google Patents

一种数据处理方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN109344395B
CN109344395B CN201811004455.5A CN201811004455A CN109344395B CN 109344395 B CN109344395 B CN 109344395B CN 201811004455 A CN201811004455 A CN 201811004455A CN 109344395 B CN109344395 B CN 109344395B
Authority
CN
China
Prior art keywords
data
threshold
intention
preset
preset field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811004455.5A
Other languages
English (en)
Other versions
CN109344395A (zh
Inventor
王文斌
赵学敏
苏可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201811004455.5A priority Critical patent/CN109344395B/zh
Publication of CN109344395A publication Critical patent/CN109344395A/zh
Application granted granted Critical
Publication of CN109344395B publication Critical patent/CN109344395B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种数据处理方法、装置、服务器及存储介质,所述方法包括:获取待识别语句数据;将所述待识别语句数据输入预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有所述预设领域的意图的概率;判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值;当判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数据;其中,所述召回阈值为数据被召回的下限值,所述可出阈值为数据被召回的上限值。利用本发明实施例提供的技术方案可以减少对待识别语句数据进行人工标注识别的人力成本,有效提高处理效率。

Description

一种数据处理方法、装置、服务器及存储介质
技术领域
本发明涉及互联网通信技术领域,尤其涉及一种数据处理方法、装置、服务器及存储介质。
背景技术
智能问答系统是一种新型的信息服务系统,在知识处理、语义识别等功能的基础上能够分析用户意图,为用户解答问题。目前,智能问答系统在智能客服、智能家电等领域得到了广泛的应用,也受到了广大用户的喜爱。
现有的智能问答系统进行问答处理过程中由于终端用户的表达千差万别,常常遇到系统不支持的语句。现有技术中往往导出所有不支持的语句进行人工标注,确定用户需要查询的语句的意图,进而确定相应的应答结果。但对大量的不支持的语句进行人工,需要大量的人力成本,处理效率低。因此,需要提供更高效的方案。
发明内容
本发明提供了一种数据处理方法、装置、服务器及存储介质,可以减少对待识别语句数据进行人工标注识别的人力成本,有效提高处理效率。
第一方面,本发明提供了一种数据处理方法,所述方法包括:
获取待识别语句数据;
将所述待识别语句数据输入预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有所述预设领域的意图的概率;
判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值;
当判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数据;
其中,所述召回阈值为数据被召回的下限值,所述可出阈值为数据被召回的上限值。
第二方面提供了一种数据处理装置,所述装置包括:
语句数据模块,用于获取待识别语句数据;
意图识别模块,用于将所述待识别语句数据输入预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有所述预设领域的意图的概率;
第一判断模块,用于判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值;
待标注语句数据确定模块,用于当所述第一判断模块判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数据;
其中,所述召回阈值为数据被召回的下限值,所述可出阈值为数据被召回的上限值。
第三方面提供了一种数据处理服务器,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的数据处理方法。
第四方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的数据处理方法。
本发明提供的数据处理方法、装置、服务器及存储介质,具有如下技术效果:
本发明可以大大减少对无法理解的待识别语句数据进行人工标注识别的人力成本,且可以有效提高处理效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明实施例提供的一种服务系统的示意图;
图2是本发明实施例提供的意图识别模型训练及应用的一种示意图;
图3是本发明实施例提供的一种数据处理方法的流程示意图;
图4本发明实施例提供的一种确定某一领域的可出阈值的流程示意图;
图5本发明实施例提供的一种确定某一领域的召回阈值的流程示意图;
图6是本发明实施例提供的一种基于意图训练模型训练过程中多个阈值所对应的准确率—召回率曲线确定可出阈值和召回阈值的一种示意图;
图7是本发明实施例提供的另一种数据处理方法的流程示意图;
图8是本发明实施例提供的另一种数据处理方法的流程示意图;
图9是本发明实施例提供的另一种数据处理方法的流程示意图;
图10是本发明实施例提供的一种数据处理装置的结构示意图;
图11是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本发明实施例提供的一种服务系统的示意图,如图1所示,该服务系统可以包括客户端01和服务器02。
具体的,客户端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载、音箱、电视、机器人等类型的实体设备,也可以包括运行于实体设备中的软体,例如虚拟机等。本发明实施例中客户端01可以支持用户通过人类语言和设备交互。
具体的,本说明书实施例中,所述服务器02可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器02可以包括有网络通信单元、处理器和存储器等等。具体的,所述服务器02可以为上述客户端提供后台服务。
在实际应用中,服务系统在向用户提供服务的过程中,当客户端接收到无法理解的语言表述时,可以通过人工识别来不断增强对用户获取服务的语言表述的理解能力。考虑到现有技术直接将全部无法理解的语言表述均进行人工识别打俩的巨大工作量和人力成本高等问题。本说明书实施例中,客户端通过接收到无法理解的语言表述时,可以将该无法理解的语言表述反馈给服务器;服务器对每一条无法理解的语言表述先进行意图识别,对于无法进行意图识别且具有一定学习价值的语言表述作为待标注的语言标注,以在增强对用户获取服务的语言表述的理解能力有效减少工作量,降低人力成本等。
在实际应用中,一个服务系统向用户提供的服务往往包括一个或多个领域的服务。相应的,当服务相应包括多个领域的服务时,本说明书实施例中,可以针对不同领域训练相应的领域的意图识别模型,以对无法理解的语言表述进行意图识别。
以下介绍一种意图识别模型训练的具体实施例,具体的,可以包括:
1)获取预设领域的语料数据。
本说明书实施例中,可以先收集某一领域的大量语料数据,具体的,所述语料数据可以通过线下采集的方式获取,也可以通过线上识别出领域的语料数据。
2)基于预设机器学习算法对所述预设领域的语料数据进行意图训练,得到所述预设领域的意图识别模型。
本说明书实施例中,基于预设机器学习算法可以包括但不限于采用卷积神经网络、递归神经网络或逻辑回归网络等机器学习算法。
在一个具体的实施例中,以逻辑回归网络进行某一领域的意图识别模型训练为例,可以包括:
将训练数据(正例语料数据和负例语料数据)输入到逻辑回归模型,逻辑回归模型的输出为训练数据为正样本数据的概率p(p为0-1之间的数字),而正例语料数据和负例语料数据的语料标签分别使y是1和0,将样本标签y与概率p的损失定义为(y-p)^2,相应的,训练过程中根据(y-p)^2可以得到误差error;使用梯度下降法,更新每个阈值,再次训练逻辑回归模型。修改完的阈值会使得下一次模型输出的概率p和样本标签y之间的误差变得更小,当该误差小于一定值时,可以将当前的逻辑回归模型作行为意图识别模型。
如图2所示,图2是本发明实施例提供的意图识别模型训练及应用的一种示意图。从图中可见,在基于某一领域的正例语料数据和负例语料数据进行意图识别训练得到的意图识别模型后,后续,将一个语句数据输入该意图识别模型,该意图识别模型可以确定该语句数据具有该领域的意图的概率。
由以上本说明书提供的意图识别模型的训练实施例的技术方案可见,本说明书中通过正例语料数据和负例语料数据进行意图识别训练得到的意图识别模型可以准确确定语句数据具有某一领域的意图的概率。
以下介绍本发明基于上述的意图识别模型的一种数据处理方法的具体实施例,图3是本发明实施例提供的一种数据处理方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图3所示,所述方法可以包括:
S301:获取待识别语句数据。
本说明书实施例中,所述待识别语句数据可以包括服务系统无法理解或不支持的语句数据。具体的,所述待识别语句数据从客户端获取的用户输入的语句数据,也可以为从数据库或其他业务系统获取的语句数据。
本说明书实施例中,当所述待识别语句数据为用户在客户端输入的语句数据时,用户可以通过在客户端提供的输入页面中输入文字信息的方式来输入待识别语句数据,也可以通过客户端提供的语音输入界面以语音输入的方式来输入待识别语句数据。
此外,需要说明的是,本说明书实施例中,用户在客户端输入待识别语句数据的形式并不仅限于文字、语音的形式,还可以包括图片等形式。相应的,客户端可以进行语音识别,图像识别等处理后确定待识别语句数据,并将待识别语句数据发送给服务器。另外,这里客户端也可以直接将用户输入的语音、图片等形式的信息发送给服务器,相应的,服务器可以基于语音识别,图像识别等处理后确定待识别语句数据。
S303:将所述待识别语句数据输入预设领域的意图识别模型,得到所述待识别语句数据具有所述预设领域的意图的概率。
本说明书实施例中,所述预设领域可以包括服务系统提供服务的领域。
在实际应用中,当某一服务系统提供一个领域的服务时,可以将待识别语句数据输入该领域的意图识别模型,得到所述待识别语句数据具有该领域的意图的概率。当某一服务系统提供多个领域的服务时,可以将待识别语句数据分别输入每个领域的意图识别模型,得到所述待识别语句数据具有每个领域的意图的概率。
本说明书实施例中,待识别语句数据具有某一领域的意图的概率越高,该待识别语句数据属于该领域的概率越高;反之,待识别语句数据具有某一领域的意图的概率越低,该待识别语句数据属于该领域的概率越低。
S305:判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值。
本说明书实施例中,在得到待识别语句数据具有预设领域的意图的概率之后,可以判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值小于所述预设领域的可出阈值。
在实际应用中,当某一服务系统提供一个领域的服务时,可以判断待识别语句数据具有该领域的意图的概率是否大于等于该领域的召回阈值且小于该领域的可出阈值。当某一服务系统提供多个领域的服务时,可以判断待识别语句数据具有每一领域的意图的概率是否大于等于该领域的召回阈值且小于该领域的可出阈值。
本说明书实施例中,所述召回阈值为数据被召回的下限值,所述可出阈值为被召回的上限值。具体的,这里数据被召回可以为数据确定为某一领域。当待识别语句数据具有某一领域的意图的概率大于该领域的可出阈值(被召回的上限值)时,该待识别语句数据可以直接确定为该领域的数据;当待识别语句数据具有某一领域的意图的概率小于等于该领域的召回阈值(被召回的下限值)时,该待识别语句数据可以直接确定为非该领域的数据,相应的,当述待识别语句数据具有某一领域的意图的概率大于等于该领域的召回阈值且小于该预设领域的可出阈值时,可以确定无法识别该待识别语句数据领域但具有一定的学习价值。相应的,本说明书实施例中,可以通过判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值,来确定出无法识别领域但具有一定的学习价值的待识别语句数据,以便后续进行人工识别。
如图4所示,本说明书实施例中,图4本发明实施例提供的一种确定某一领域的可出阈值的流程示意图,具体的,可以包括:
S401:获取预设领域的正例语料数据和反例语料数据。
本说明书实施例中,可以获取某一领域大量的正例语料数据和反例语料数据。具体的,某一领域的正例语料数据可以为该领域的语料数据,某一领域的反例语料数据可以为非该领域的语料数据。
S403:将所述正例语料数据和反例语料数据输入预设意图训练模型进行意图训练,在训练过程中调整所述预设意图训练模型中的阈值。
本说明书实施例中,所述预设意图训练模型可以包括但不限于采用卷积神经网络、递归神经网络或逻辑回归网络等机器学习算法所对应的训练模型。
S405:记录每一阈值所对应的准确率和召回率数据。
在实际应用中,随着阈值的调整,预设意图训练模型对输入的语料数据的识别结果会变化,相应的,可以记录每一阈值所对应的准确率和召回率数据。
具体的,所述准确率可以采用公式P=TP/(TP+FP)确定。其中,P表示准确率;TP表示真正例语料数据的数量;FP表示假正例语料数据的数量。
具体的,所述真正例语料数据的数量为正例语料数据在训练过程中被识别为正例语料数据的数量;所述假正例语料数据的数量为反例语料数据在训练过程中被识别为正例语料数据的数量。
具体的,所述召回率可以采用公式R=TP/(TP+FN)确定。其中,R表示召回率;TP表示真正例语料数据的数量;FN表示假反例语料数据的数量。
具体的,所述假反例语料数据的数量为正例语料数据在训练过程中被识别为反例语料数据的数量。
S407:基于所述每一阈值所对应的准确率和召回率数据确定准确率大于等于第一阈值,且准确率和召回率的调和平均最大的阈值。
S409:将所述准确率大于等于第一阈值,且准确率和召回率的调和平均最大的阈值作为所述预设领域的可出阈值。
如图5所示,本说明书实施例中,图5本发明实施例提供的一种确定某一领域的召回阈值的流程示意图,具体的,可以包括:
S501:获取预设领域的正例语料数据和反例语料数据。
S503:将所述正例语料数据和反例语料数据输入预设意图训练模型进行意图训练。
S505:在训练过程中调整所述预设意图训练模型中的阈值,记录每一阈值所对应的准确率和召回率数据。
S507:基于所述每一阈值所对应的准确率和召回率数据确定准确率大于等于第二阈值,且召回率最大的阈值。
S509:将所述准确率大于等于第二阈值,且召回率最大的阈值作为所述预设领域的召回阈值。
在一个具体的实施例中,可以基于每一阈值所对应的准确率和召回率数据生成每一阈值所对应的准确率—召回率曲线,后续可以基于该准确率—召回率曲线确定出召回阈值和可出阈值。如图6所示,图6是本发明实施例提供的一种基于意图训练模型训练过程中多个阈值所对应的准确率—召回率曲线确定可出阈值和召回阈值的一种示意图,具体的,假设第一阈值为0.7,第二阈值为0.3;相应的,准确率大于等于0.7,且准确率和召回率的调和平均F1最大的阈值可以为T2:0.858;准确率大于等于0.3,且召回率最大的阈值可以为T1:0.007。
此外,需要说明的是,本说明书实施例中,所述第一阈值大于第二阈值,且所述可出阈值大于所述召回阈值。
S307:当判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数据。
本说明书实施例中,当步骤S305判断的结果为是时,即待识别语句数据无法进行意图识别但具有一定学习价值,相应的,可以将该待识别语句数据作为待标注语句数据,以便后续进行领域意图的确定。
在另一实施例中,如图7所示,所述方法还可以包括:
S309:确定所述待标注语句数据的领域信息。
具体的,本说明书实施例中,在确定待识别语句数据为预设领域的待标注语句数据之后,可以进行人工判断待标注语句数据是否为所述预设领域,若是,可以直接将该预设领域作为所述待标注语句数据的领域信息;如否,可以人工确定所述待标注语句数据的领域信息,并将所述待标注语句数据的领域信息基于客户端提供给服务器。
S311:对所述待标注语句数据进行所述领域信息所对应领域的意图识别处理,得到所述待标注语句数据在所述所对应领域的意图信息。
本说明书实施例中,对某一领域的数据进行意图识别处理,可以采用但不限于机器学习的方法,具体地,可以对语句数据进行分词,然后,提取每个分词的特征,将每个分词的特征输入到相应的识别模型,输出意图信息。
由以上本说明书实施例提供的技术方案可见,本说明书实施例通过意图识别模型识别出待识别语句数据具有某一领域的意图的概率;然后,通过判断待识别语句数据具有某一领域的意图的概率是否大于等于该领域的召回阈值且小于该领域的可出阈值,来选取无法进行领域识别但具有一定学习价值的待识别语句数据作为待标注语句数据,以便后续进行人工识别标注。利用本说明书实施例提供的技术方案,可以大大减少对无法理解的待识别语句数据进行人工标注识别的人力成本,且可以有效提高处理效率。
以下介绍本发明基于上述的意图识别模型的另一种数据处理方法的具体实施例,图8是本发明实施例提供的另一种数据处理方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图8所示,所述方法可以包括:
S801:获取待识别语句数据。
S803:将所述待识别语句数据输入预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有所述待识别语句数据具有所述预设领域的意图的概率。
S805:判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值。
S807:当判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数据。
S809:当判断的结果为否时,判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于预设领域的可出阈值。
本说明书实施例中,当步骤S805判断的结果为否时,可以判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于预设领域的可出阈值。
S811:当判断出所述待识别语句数据具有所述预设领域的意图的概率大于等于预设领域的可出阈值时,将所述待识别语句数据标注为所述预设领域的正例语料数据。
本说明书实施例中,当步骤S809判断的结果为是时,可以确定可以准确识别出待识别语句数据的领域,相应的,可以将所述待识别语句数据标注为该领域的正例语料数据。
在一个具体的实施例中,假设服务系统提供的服务包括两个领域:领域A和领域B;其中,领域A:召回阈值T1=0.1,可出阈值T2=0.45;领域B:召回阈值T1=0.01,可出阈值T2=0.3。假设某一待识别语句数据具有领域A的意图的概率为0.98,该待识别语句数据具有领域B的意图的概率为0.05。相应的,可以确定该待识别语句数据属于领域A的正例语料数据,且可以确定该待识别语句数据可以作为领域B待标注语句数据。
另一些实施例中,当步骤S809判断的结果为否时,待识别语句数据具有所述预设领域的意图的概率小于预设领域的召回阈值,相应的,该部分数据可以直接丢弃。
在另一实施例中,如图9所示,所述方法还可以包括:
S813:确定所述待标注语句数据的领域信息。
具体的,本说明书实施例中,在确定待识别语句数据为预设领域的待标注语句数据之后,可以进行人工判断待标注语句数据是否为所述预设领域,若是,可以直接将该预设领域作为所述待标注语句数据的领域信息;如否,可以人工确定所述待标注语句数据的领域信息,并将所述待标注语句数据的领域信息基于客户端提供给服务器。
S815:对所述待标注语句数据进行所述领域信息所对应领域的意图识别处理,得到所述待标注语句数据在所述所对应领域的意图信息。
由以上本说明书实施例提供的技术方案可见,本说明书实施例通过意图识别模型识别出待识别语句数据具有某一领域的意图的概率;然后,通过判断待识别语句数据具有某一领域的意图的概率是否大于等于该领域的召回阈值且小于该领域的可出阈值,来选取无法进行领域识别但具有一定学习价值的待识别语句数据作为待标注语句数据,以便后续进行人工识别标注。对于待识别语句数据具有某一领域的意图的概率大于可出阈值的待识别语句数据可以直接确定该待识别语句数据的领域。利用本说明书实施例提供的技术方案,可以大大减少对无法理解的待识别语句数据进行人工标注识别的人力成本,且可以有效提高处理效率。
本发明实施例还提供了一种数据处理装置,如图10所示,所述装置包括:
语句数据模块1010,可以用于获取待识别语句数据;
意图识别模块1020,可以用于将所述待识别语句数据输入预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有所述预设领域的意图的概率;
第一判断模块1030,可以用于判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值;
待标注语句数据确定模块1040,可以用于当所述第一判断模块判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数据;
其中,所述召回阈值为数据被召回的下限值,所述可出阈值为数据被召回的上限值。
另一实施例中,所述预设领域的可出阈值包括采用下述单元确定包括:
第一语料数据获取单元,用于获取预设领域的正例语料数据和反例语料数据;
第一意图训练单元,用于将所述正例语料数据和反例语料数据输入预设意图训练模型进行意图训练,在训练过程中调整所述预设意图训练模型中的阈值;
第一数据记录单元,用于记录每一阈值所对应的准确率和召回率数据;
可出阈值确定单元,用于基于所述每一阈值所对应的准确率和召回率数据确定准确率大于第一阈值,且准确率和召回率的调和平均最大的阈值,将所述准确率大于第一阈值,且准确率和召回率的调和平均最大的阈值作为所述预设领域的可出阈值。
另一实施例中,所述预设领域的召回阈值包括采用下述单元确定包括:
第二语料数据获取单元,用于获取预设领域的正例语料数据和反例语料数据;
第二意图训练单元,用于将所述正例语料数据和反例语料数据输入预设意图训练模型进行意图训练,在训练过程中调整所述预设意图训练模型中的阈值;
第二数据记录单元,用于记录每一阈值所对应的准确率和召回率数据;
召回阈值确定单元,用于基于所述每一阈值所对应的准确率和召回率数据确定准确率大于第二阈值,且召回率最大的阈值,将所述准确率大于第二阈值,且召回率最大的阈值作为所述预设领域的召回阈值。
另一实施例中,所述预设领域的意图识别模型包括采用下述单元确定:
第三语料数据获取单元,用于获取所述预设领域的语料数据;
意图识别训练单元,用于基于预设机器学习算法对所述预设领域的语料数据进行意图识别训练,得到所述预设领域的意图识别模型。
另一实施例中,所述装置还包括:
第二判断模块,用于当所述第一判断模块判断的结果为否时,判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的可出阈值;
标注模块,用于当所述第二判断模块判断出所述待识别语句数据具有所述预设领域的意图的概率大于等于预设领域的可出阈值时,将所述待识别语句数据标注为所述预设领域的正例语料数据。
另一实施例中,所述装置还包括:
领域信息确定模块,用于确定所述待标注语句数据的领域信息;
意图识别处理模块,用于对所述待标注语句数据进行所述领域信息所对应领域的意图识别处理,得到所述待标注语句数据在所述所对应领域的意图信息。
所述的装置实施例中的装置与方法实施例基于同样地发明构思。
本发明实施例提供了一种数据处理服务器,该数据处理服务器包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的数据处理方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图11是本发明实施例提供的一种数据处理方法的服务器的硬件结构框图。如图11所示,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1110(处理器1110可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1130,一个或一个以上存储应用程序1123或数据1122的存储介质1120(例如一个或一个以上海量存储设备)。其中,存储器1130和存储介质1120可以是短暂存储或持久存储。存储在存储介质1120的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1110可以设置为与存储介质1120通信,在服务器1100上执行存储介质1120中的一系列指令操作。服务器1100还可以包括一个或一个以上电源1160,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1140,和/或,一个或一个以上操作系统1121,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1140可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1100的通信供应商提供的无线网络。在一个实例中,输入输出接口1140包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1140可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图11所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1100还可包括比图11中所示更多或者更少的组件,或者具有与图11所示不同的配置。
本发明的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种数据处理方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的数据处理方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本发明提供的数据处理方法、装置、服务器或存储介质的实施例可见,本发明中通过意图识别模型识别出待识别语句数据具有某一领域的意图的概率;然后,通过判断待识别语句数据具有某一领域的意图的概率是否大于等于该领域的召回阈值且小于该领域的可出阈值,来选取无法进行领域识别但具有一定学习价值的待识别语句数据作为待标注语句数据,以便后续进行人工识别标注。对于待识别语句数据具有某一领域的意图的概率大于可出阈值的待识别语句数据可以直接确定该待识别语句数据的领域。利用本说明书实施例提供的技术方案,可以大大减少对无法理解的待识别语句数据进行人工标注识别的人力成本,且可以有效提高处理效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种数据处理方法,其特征在于,所述方法包括:
获取经过预处理得到的待识别语句数据;
将所述待识别语句数据输入多个预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有每个所述预设领域的意图的概率;
确定所述预设领域的可出阈值和召回阈值,包括:
获取所述预设领域的正例语料数据和反例语料数据;
将所述正例语料数据和所述反例语料数据输入预设意图训练模型进行意图训练;
在训练过程中调整所述预设意图训练模型中的阈值,记录每一阈值所对应的准确率和召回率数据;
基于所述每一阈值所对应的准确率和召回率数据确定准确率大于第一阈值,且准确率和召回率的调和平均最大的阈值;
将所述准确率大于第一阈值,且准确率和召回率的调和平均最大的阈值作为所述预设领域的可出阈值;
基于所述每一阈值所对应的准确率和召回率数据确定准确率大于第二阈值,且召回率最大的阈值;
将所述准确率大于第二阈值,且召回率最大的阈值作为所述预设领域的召回阈值;其中,所述第一阈值大于所述第二阈值,所述可出阈值大于所述召回阈值,所述召回阈值为非所述预设领域的数据被召回的下限值,所述可出阈值为所述预设领域的数据被召回的上限值;
当所述待识别语句数据具有所述预设领域的意图的概率大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值,将所述待识别语句数据作为所述预设领域的待标注语句数据;
当所述待识别语句数据具有所述预设领域的意图的概率大于等于所述预设领域的可出阈值,将所述待识别语句数据确定为所述预设领域的数据;
当所述待识别语句数据具有所述预设领域的意图的概率小于所述预设领域的召回阈值时,将所述待识别语句数据确定为非所述预设领域的数据;
确定所述待标注语句数据的领域信息;
对所述待标注语句数据进行所述领域信息所对应领域的意图识别处理,得到所述待标注语句数据在所述所对应领域的意图信息。
2.根据权利要求1所述的方法,其特征在于,所述预设领域的意图识别模型包括采用下述方式确定:
获取所述预设领域的语料数据;
基于预设机器学习算法对所述预设领域的语料数据进行意图识别训练,得到所述预设领域的意图识别模型。
3.根据权利要求1至2任一所述的方法,其特征在于,所述方法还包括:
所述准确率与真正例语料数据的数量以及假正例语料数据的数量满足以下关系:
P=TP/(TP+FP),
所述召回率与真正例语料数据的数量以及假反例语料数据的数量满足以下关系:
R=TP/(TP+FN);
其中,P为准确率,R为召回率,TP为真正例语料数据的数量,FP为假正例语料数据的数量,FN为假反例语料数据的数量;
所述真正例语料数据的数量为所述正例语料数据在所述训练过程中被识别为正例语料数据的数量;所述假正例语料数据的数量为所述反例语料数据在所述训练过程中被识别为正例语料数据的数量,所述假反例语料数据的数量为正例语料数据在所述训练过程中被识别为反例语料数据的数量。
4.一种数据处理装置,其特征在于,所述装置包括:
语句数据模块,用于获取经过预处理得到的待识别语句数据;
意图识别模块,用于将所述待识别语句数据输入多个预设领域的意图识别模型进行意图识别,得到所述待识别语句数据具有每个所述预设领域的意图的概率;
语料数据获取单元,用于获取预设领域的正例语料数据和反例语料数据;
意图训练单元,用于将所述正例语料数据和反例语料数据输入预设意图训练模型进行意图训练,在训练过程中调整所述预设意图训练模型中的阈值;
数据记录单元,用于记录每一阈值所对应的准确率和召回率数据;
可出阈值确定单元,用于基于所述每一阈值所对应的准确率和召回率数据确定准确率大于第一阈值,且准确率和召回率的调和平均最大的阈值,将所述准确率大于第一阈值,且准确率和召回率的调和平均最大的阈值作为所述预设领域的可出阈值;
召回阈值确定单元,用于基于所述每一阈值所对应的准确率和召回率数据确定准确率大于第二阈值,且召回率最大的阈值,将所述准确率大于第二阈值,且召回率最大的阈值作为所述预设领域的召回阈值;其中,所述第一阈值大于所述第二阈值,所述可出阈值大于所述召回阈值,所述召回阈值为非所述预设领域的数据被召回的下限值,所述可出阈值为所述预设领域的数据被召回的上限值;
第一判断模块,用于判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的召回阈值且小于所述预设领域的可出阈值;
待标注语句数据确定模块,用于当所述第一判断模块判断的结果为是时,将所述待识别语句数据作为所述预设领域的待标注语句数据;
领域信息确定模块,用于确定所述待标注语句数据的领域信息;
意图识别处理模块,用于对所述待标注语句数据进行所述领域信息所对应领域的意图识别处理,得到所述待标注语句数据在所述所对应领域的意图信息;
第二判断模块,用于当所述第一判断模块判断的结果为否时,判断所述待识别语句数据具有所述预设领域的意图的概率是否大于等于所述预设领域的可出阈值;
标注模块,用于当所述第二判断模块判断出所述待识别语句数据具有所述预设领域的意图的概率大于等于预设领域的可出阈值时,将所述待识别语句数据标注为所述预设领域的正例语料数据;
非预设领域的数据确定模块,当所述待识别语句数据具有所述预设领域的意图的概率小于所述预设领域的召回阈值时,将所述待识别语句数据确定为非所述预设领域的数据。
5.根据权利要求4所述的装置,其特征在于,所述预设领域的意图识别模型包括采用下述单元确定:
第三语料数据获取单元,用于获取所述预设领域的语料数据;
意图识别训练单元,用于基于预设机器学习算法对所述预设领域的语料数据进行意图识别训练,得到所述预设领域的意图识别模型。
6.根据权利要求4至5任一所述的装置,其特征在于,所述准确率与真正例语料数据的数量以及假正例语料数据的数量满足以下关系:
P=TP/(TP+FP),
所述召回率与真正例语料数据的数量以及假反例语料数据的数量满足以下关系:
R=TP/(TP+FN);
其中,P为准确率,R为召回率,TP为真正例语料数据的数量,FP为假正例语料数据的数量,FN为假反例语料数据的数量;
所述真正例语料数据的数量为所述正例语料数据在所述训练过程中被识别为正例语料数据的数量;所述假正例语料数据的数量为所述反例语料数据在所述训练过程中被识别为正例语料数据的数量,所述假反例语料数据的数量为正例语料数据在所述训练过程中被识别为反例语料数据的数量。
7.一种数据处理服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至3任一所述的数据处理方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至3任一所述的数据处理方法。
CN201811004455.5A 2018-08-30 2018-08-30 一种数据处理方法、装置、服务器及存储介质 Active CN109344395B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811004455.5A CN109344395B (zh) 2018-08-30 2018-08-30 一种数据处理方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811004455.5A CN109344395B (zh) 2018-08-30 2018-08-30 一种数据处理方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN109344395A CN109344395A (zh) 2019-02-15
CN109344395B true CN109344395B (zh) 2022-05-20

Family

ID=65292043

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811004455.5A Active CN109344395B (zh) 2018-08-30 2018-08-30 一种数据处理方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN109344395B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377706B (zh) * 2019-07-25 2022-10-14 腾讯科技(深圳)有限公司 基于深度学习的搜索语句挖掘方法及设备
CN110543633B (zh) * 2019-08-29 2021-06-29 腾讯科技(深圳)有限公司 语句意图识别方法、装置
CN110781204B (zh) * 2019-09-09 2024-02-20 腾讯大地通途(北京)科技有限公司 目标对象的标识信息确定方法、装置、设备及存储介质
CN110704593B (zh) * 2019-09-27 2022-03-04 北京猎户星空科技有限公司 一种数据处理方法、装置、设备及介质
CN112749565A (zh) * 2019-10-31 2021-05-04 华为终端有限公司 基于人工智能的语义识别方法、装置和语义识别设备
CN113538075A (zh) * 2020-04-14 2021-10-22 阿里巴巴集团控股有限公司 数据的处理方法、模型的训练方法、装置和设备
CN111914936B (zh) * 2020-08-05 2023-05-09 平安科技(深圳)有限公司 语料数据的数据特征增强方法、装置及计算机设备
CN111737423B (zh) * 2020-08-26 2021-01-01 北京声智科技有限公司 领域识别方法、装置、电子设备及存储介质
CN112329475B (zh) * 2020-11-03 2022-05-20 海信视像科技股份有限公司 语句处理方法及装置
CN113160795B (zh) * 2021-04-28 2024-03-05 平安科技(深圳)有限公司 语种特征提取模型训练方法、装置、设备及存储介质
CN113742399B (zh) * 2021-09-07 2023-10-17 天之翼(苏州)科技有限公司 基于云边协同的数据溯源方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470699A (zh) * 2007-12-28 2009-07-01 日电(中国)有限公司 信息提取模型训练装置、信息提取装置和信息提取系统及其方法
CN104516986A (zh) * 2015-01-16 2015-04-15 青岛理工大学 一种语句识别方法及装置
CN107122404A (zh) * 2017-03-22 2017-09-01 北京晓数聚传媒科技有限公司 一种用户意图数据提取方法和装置
CN107704563A (zh) * 2017-09-29 2018-02-16 广州多益网络股份有限公司 一种问句推荐方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002373163A (ja) * 2001-04-13 2002-12-26 Mitsubishi Electric Corp 最大エントロピーモデル生成方法および装置ならびにそれを用いた自然言語処理方法および装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101470699A (zh) * 2007-12-28 2009-07-01 日电(中国)有限公司 信息提取模型训练装置、信息提取装置和信息提取系统及其方法
CN104516986A (zh) * 2015-01-16 2015-04-15 青岛理工大学 一种语句识别方法及装置
CN107122404A (zh) * 2017-03-22 2017-09-01 北京晓数聚传媒科技有限公司 一种用户意图数据提取方法和装置
CN107704563A (zh) * 2017-09-29 2018-02-16 广州多益网络股份有限公司 一种问句推荐方法及系统

Also Published As

Publication number Publication date
CN109344395A (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN109344395B (zh) 一种数据处理方法、装置、服务器及存储介质
US11645517B2 (en) Information processing method and terminal, and computer storage medium
US10650311B2 (en) Suggesting resources using context hashing
JP5878301B2 (ja) 混成ユーザ行為モデルを用いた行為識別
US20180107945A1 (en) Emoji recommendation method and device thereof
CN109948121A (zh) 文章相似度挖掘方法、系统、设备及存储介质
CN110377712B (zh) 一种智能会话切换方法、装置、设备及存储介质
CN109885674B (zh) 一种主题标签的确定、信息推荐方法及装置
CN107784033B (zh) 一种基于会话进行推荐的方法和装置
CN105657129A (zh) 通话信息获取方法和装置
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN110968684A (zh) 一种信息处理方法、装置、设备及存储介质
US11544721B2 (en) Supporting automation of customer service
US20200117751A1 (en) Context-aware computing apparatus and method of determining topic word in document using the same
CN108268450B (zh) 用于生成信息的方法和装置
CN110209809B (zh) 文本聚类方法和装置、存储介质及电子装置
CN110334268B (zh) 一种区块链项目热词生成方法以及装置
CN103823849A (zh) 词条的获取方法及装置
CN116108857B (zh) 信息抽取方法、装置、电子设备以及存储介质
CN109522415B (zh) 一种语料标注方法及装置
CN116049379A (zh) 知识推荐方法、装置、电子设备和存储介质
CN114817478A (zh) 基于文本的问答方法、装置、计算机设备及存储介质
CN110807097A (zh) 分析数据的方法和装置
CN113590771A (zh) 一种数据挖掘方法、装置、设备及存储介质
US20210319481A1 (en) System and method for summerization of customer interaction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant