CN110647987A - 一种应用程序中数据的处理方法、装置、电子设备及存储介质 - Google Patents

一种应用程序中数据的处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110647987A
CN110647987A CN201910778784.3A CN201910778784A CN110647987A CN 110647987 A CN110647987 A CN 110647987A CN 201910778784 A CN201910778784 A CN 201910778784A CN 110647987 A CN110647987 A CN 110647987A
Authority
CN
China
Prior art keywords
entity
data
corrected
intention
preselected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910778784.3A
Other languages
English (en)
Other versions
CN110647987B (zh
Inventor
李正兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910778784.3A priority Critical patent/CN110647987B/zh
Publication of CN110647987A publication Critical patent/CN110647987A/zh
Application granted granted Critical
Publication of CN110647987B publication Critical patent/CN110647987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Animal Behavior & Ethology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种应用程序中数据的处理方法、装置、电子设备及存储介质,该方法包括:基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别,得到预选实体和预选意图,若预选实体与预选意图对应的意图模板中子模板中的实体不存在匹配关系,对待识别数据进行分词操作,得到待纠错数据,根据应用程序的实体库和预设编辑距离确定待纠错数据对应的实体集合;实体集合中的每个实体为实体库中的实体,基于待纠错数据对应的实体集合中每个实体和待纠错数据之间的相似程度值从实体集合中确定出用于纠错的目标实体,基于目标实体对待识别数据进行纠错处理。如此,通过对待识别数据预先进行数据纠错处理,可以提高后续数据识别处理的准确率。

Description

一种应用程序中数据的处理方法、装置、电子设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种应用程序中数据的处理方法、装置、电子设备及存储介质。
背景技术
当今,各个领域的数据正处于飞速增长中,由此导致数据处理技术领域的发展越来越迅速。一般的,数据处理的过程为:设备根据接收到的待识别数据,对该待识别数据中的实体进行识别,并对识别结果进行处理,以确定该数据对应的输出。这种数据处理的方式可以被应用在语言识别,人机交互等各种领域。
上述描述中,实体是指具有具体而真实的形态或者结构的事物,能够为人们所感知与亲手接触。从数据处理的角度看,现实世界中的客观事物称为实体,它是现实世界中任何可区分,可识别的事物。然而,由于设备接收的待识别数据本身可能存在某些错误,比如,用户在输入过程中输错某些实体中的字或者词。如果设备直接对有错误的待识别数据进行识别,则可能对最终结果产生较大的负面影响,基于此,设备需要在对待识别数据进行识别处理之前,进行数据纠错处理。
本申请实施例提供一种应用程序中数据的处理方法,通过对待识别数据预先进行数据纠错处理,可以提高后续数据识别处理的识别准确率。
发明内容
本申请实施例提供了一种应用程序中数据的处理方法、装置、电子设备及存储介质,通过对待识别数据预先进行数据纠错处理,可以提高后续数据识别处理的识别准确率。
一方面,本申请实施例提供了一种应用程序中数据的处理方法,该方法包括:
基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别,得到预选实体和预选意图;
若预选实体与预选意图对应的意图模板中子模板中的实体不存在匹配关系,对待识别数据进行分词操作,得到待纠错数据;
根据应用程序的实体库和预设编辑距离确定待纠错数据对应的实体集合;实体集合中的每个实体为实体库中的实体;
基于待纠错数据对应的实体集合中每个实体和待纠错数据之间的相似程度值从实体集合中确定出用于纠错的目标实体;
基于目标实体对待识别数据进行纠错处理。
另一方面提供了一种应用程序中数据的处理装置,该装置包括:
识别模块,用于基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别,得到预选实体和预选意图;
分词模块,用于若预选实体与预选意图对应的意图模板中子模板中的实体不存在匹配关系,对待识别数据进行分词操作,得到待纠错数据;
第一确定模块,用于根据应用程序的实体库和预设编辑距离确定待纠错数据对应的实体集合;实体集合中的每个实体为实体库中的实体;
第二确定模块,用于基于待纠错数据对应的实体集合中每个实体和待纠错数据之间的相似程度值从实体集合中确定出用于纠错的目标实体;
处理模块,用于基于目标实体对待识别数据进行纠错处理。
另一方面提供了一种电子设备,该电子设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或该指令集由处理器加载并执行以实现如上述的应用程序中数据的处理方法。
另一方面提供了一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或该指令集由处理器加载并执行以实现如上述的应用程序中数据的处理方法。
本申请实施例提供的应用程序中数据的处理方法、装置、电子设备及存储介质,具有如下技术效果:
基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别,得到预选实体和预选意图,若预选实体与预选意图对应的意图模板中子模板中的实体不存在匹配关系,对待识别数据进行分词操作,得到待纠错数据,根据应用程序的实体库和预设编辑距离确定待纠错数据对应的实体集合;实体集合中的每个实体为实体库中的实体,基于待纠错数据对应的实体集合中每个实体和待纠错数据之间的相似程度值从实体集合中确定出用于纠错的目标实体,基于目标实体对待识别数据进行纠错处理。如此,对待识别数据进行数据纠错处理,可以提高后续数据识别处理的识别准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种应用程序中数据的处理方法的流程示意图;
图3是本申请实施例提供的一种实体集合的表示形式示意图;
图4是本申请实施例提供的一种实体集合的表示形式示意图;
图5是本申请实施例提供的一种应用程序中数据的处理方法的流程示意图;
图6是本申请实施例提供的一种应用程序中数据的处理装置的结构示意图;
图7是本申请实施例提供的一种应用程序中数据的处理方法的服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,包括终端设备101和服务器102,其中,服务器102可以是为终端设备101上的某个应用程序提供数据处理服务的服务器。
一种可选的实施方式中,终端设备101在应用程序启动后,接收用户输入的待识别数据,并通过终端设备101和服务器102建立的连接链路将该待识别数据发送至服务器102。对应的,服务器102接收该待识别数据,可以基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别,得到预选实体和预选意图。服务器102可以判断该预选实体和该预选意图对应的意图模板中子模板的实体是否存在匹配关系,若不存在匹配关系,则对待识别数据进行分词操作,得到待纠错数据。其中,待纠错数据为该待识别数据中的数据。服务器102得到该待纠错数据后,可以根据应用程序的实体库和预设编辑距离确定待纠错数据对应的实体集合,其中,该实体集合中的每个实体为实体库中的实体,并基于待纠错数据对应的实体集合中每个实体和待纠错数据之间的相似程度值从实体集合中确定出用于纠错的目标实体,服务器102可以基于目标实体对待识别数据进行纠错处理,已得到进行纠错后的待识别数据。
本申请实施例中,为终端设备101上的某个应用程序提供数据处理服务的可以是图1所示的服务器,还可以是一个服务器平台,该平台中可以包括多个服务器。举个例子,服务器平台可以包括相互连接的第一服务器,第二服务器和第三服务器三个服务器。
其中,第一服务器可以基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别,得到预选实体和预选意图,并在确定该预选实体和该预选意图对应的意图模板中子模板的实体不存在匹配关系时,将待识别数据发送给第二服务器。
第二服务器接收该待识别数据,对进行分词操作,得到待纠错数据,并将待纠错数据和待识别数据发送给第三服务器。
第三服务器得到该待纠错数据后,可以根据应用程序的实体库和预设编辑距离确定待纠错数据对应的实体集合,其中,该实体集合中的每个实体为实体库中的实体。并基于待纠错数据对应的实体集合中每个实体和待纠错数据之间的相似程度值从实体集合中确定出用于纠错的目标实体。最后第三服务器基于目标实体对待识别数据进行纠错处理,已得到进行纠错后的待识别数据。
本申请实施例,服务器102或者第三服务器得到该纠错后的待识别数据后,可以继续对其进行识别。举个例子,该待识别数据是用户在终端设备101的应用程序中提出的问题,服务器102或者第三服务器对该问题进行纠错后,可以继续识别,得到该问题的回复,并将该回复发送给终端设备101,完成整个流程。
一种可选的实施方式中,终端设备101可以是手机,台式电脑,平板电脑,笔记本电脑,可穿戴设备等等。
可选的,终端设备101和服务器102或者终端设备101和服务器平台之间的实体关系数据可以通过有线链路传输,也可以通过无线链路传输。通信链路类型的选择可以根据实际的应用情况和应用环境而定。服务器102或者服务器平台可以为多台终端设备101提供数据处理服务,该服务器102或者服务器平台连接的终端设备101的数量可以视实际情况而定。
本申请实施例中涉及的应用场景有很多种,下文中将以终端设备和服务器为例进行描述。
以下介绍本申请一种应用程序中数据的处理方法的具体实施例,图2是本申请实施例提供的一种应用程序中数据的处理方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:
S201:基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别,得到预选实体和预选意图。
本申请实施例中,S201中的待识别数据是终端设备在某个应用程序启动后接收到的。具体的,用户启动终端设备上的应用程序,可以在应用程序的界面上触发待识别数据的接收模块,如此,终端设备通过该接收模块可以接收用户输入的待识别数据,并将该待识别数据发送至服务器。可选的,该接收模块可以是文字接收模块,用以接收用户输入的文字数据。可选的,该接收模块可以是语音接收模块,用以接收输入的语音数据。本申请实施例中,上述的文字数据和语音数据都被视为待识别数据。
可选的,应用程序可以是音乐类应用程序,游戏类应用程序,社交类应用程序,新闻类应用程序等等。
在服务器基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别之前,还需要训练实体识别模型和意图识别模型。
本申请实施例中,服务器可以根据第一训练数据对模型参量为第一参量的实体识别模型进行训练,得到模型参量为第二参量的实体识别模型。服务器可以根据第二训练数据对模型参量为第三参量的意图识别模型进行训练,得到模型参量为第四参量的意图识别模型。
可选的,该实体识别模型和意图识别模型可以是预先确定好的,该实体识别模型和意图识别模型可以是神经网络模型,条件随机场CRF模型,RNN—CRF模型,BERT模型任一种。
在一个具体的实施例中,以神经网络模型中的卷积神经网络为例,可以获取大量第一训练数据,对第一训练数据进行实体的标注,然后,基于第一训练数据对卷积神经网络进行实体识别训练,在实体识别训练中调整该卷积神经网络的第一参量至该卷积神经网络输出的实体与输入的第一训练数据的实体相匹配,得到实体识别模型,该实体识别模型的模型参量为第二参量。
在另一个具体的实施例中,以神经网络模型中的卷积神经网络为例,可以获取大量第二训练数据,对第二训练数据进行意图的标注,然后,基于第二训练数据对卷积神经网络进行意图识别训练,在意图识别训练中调整该卷积神经网络的第三参量至该卷积神经网络输出的意图与输入的第二训练数据的意图相匹配,得到意图识别模型,该意图识别模型的模型参量为第四参量。
其中,第一训练数据和第二训练数据包括应用程序的历史识别数据,历史识别数据可以是用户之前输入该应用程序的数据。可选的,第一训练数据和第二训练数据可以是完全一样的应用程序的历史识别数据;可选的,第一训练数据和第二训练数据不仅可以包括该应用程序的历史识别数据,还可以包括从互联网上下载的和该应用程序相关的识别数据。通过使用应用程序的历史识别数据和与应用程序相关的识别数据,使得训练出来的意图识别模型和实体识别模型在识别方面更有针对性,可以提高意图识别模型和实体识别模型的识别准确率。
S203:若预选实体与预选意图对应的意图模板中子模板中的实体不存在匹配关系,对待识别数据进行分词操作,得到待纠错数据。
本申请实施例中,在确定预选实体与预选意图对应的意图模板中子模板中的实体是否存在匹配关系之前,服务器还可以确定应用程序的意图模板,并确定每个意图模板中的子模板。下面将以应用程序为游戏类应用程序中的枪战类游戏结合上述实施方式进行举例说明。
一种可选的实施例中,服务器可以根据历史识别数据确定多个预选意图,并确定预选意图相对用的意图模板。比如,历史识别数据中包含类似“M24对三级头盔的伤害值为多少”的历史识别数据,服务器可以确定其中的一个预选意图为伤害类意图,其对应的意图模板为伤害类意图模板。历史识别数据中包含类似“M24和AKM的对比数据”的历史识别数据,服务器可以确定其中的一个预选意图为对比类意图,其对应的意图模板为对比类意图模板。
服务器可以将历史识别数据根据意图模板进行分类,得到每个意图模板对应的历史识别数据,再基于意图模板对应的历史识别数据确定每个意图模板包含的子模板。
基于上述的枪战类游戏继续说明,假设伤害类意图模板对应的历史识别数据包括3个大类的历史识别数据:“某武器对某级护甲的伤害值为多少”、“某武器对某级头盔的伤害值为多少”和“某武器的伤害值为多少”,则服务器可以确定伤害类意图模板包括如下三个子模板:第一子模板为“武器名,护甲名”,第二子模板为“武器名,头盔名”,第三子模板为“武器名”。假设对比类意图模板对应的历史识别数据包括2个大类的历史识别数据:“武甲器和武器乙的对比数据”和“武甲器、武器乙和武器丙的对比数据”,则服务器可以确定对比类意图模板包括如下两个子模板:第一子模板为“武器名,武器名”和第二子模板为“武器名,武器名,武器名”。
本申请实施例中的意图模板中的子模板中不仅涉及实体类型,还可以涉及实体数量。比如,上述伤害类意图模板子模板中“武器名”、“护甲名”或者“头盔名”都可以看做是实体类型,比如,“武器名”这个实体类型在该枪战类游戏应用程序中可以包括“M24”、“AKM”、“AWM”和“AK”等等。“护甲名”这个实体类型在该枪战类游戏应用程序中可以包括“一级护甲”、“二级护甲”和“三级护甲”等。“头盔名”这个实体类型在该枪战类游戏应用程序中可以包括“一级头盔”、“二级头盔”和“三级头盔”等。伤害类意图模板的第一子模板中的实体类型为“武器名”和“护甲名”,实体数量为2;伤害类意图模板的第二子模板中的实体类型为“武器名”和“头盔名”,实体数量为2;伤害类意图模板的第三子模板中的实体类型为“武器名”,实体数量为1。综上,伤害类意图模板中的最大实体数量为2,最小实体数量为1。可选的,每个子模板还可以涉及实体顺序,比如第一子模板中,“武器名”位于“护甲名”之前。
基于上一段的说明,本申请实施例中的服务器对预选实体与预选意图对应的意图模板中子模板中的实体是否存在匹配关系可以从实体类型和实体数量两个因素进行衡量。
一种可选的实施例中,若预选实体的实体类型与意图模板中任一子模板中的实体的实体类型不存在匹配关系,服务器可以对待识别数据进行分词操作,得到待纠错数据。
举个例子,假设待识别数据为“AKN对三级护具的伤害值为多少”,且服务器基于实体识别模型识别该待识别数据进行实体识别后,得到的预选实体为“AKN”,基于意图识别模型对待识别数据进行意图的识别,得到的预选意图为伤害类意图。若“AKN”由于用户输错的原因,在该枪战类游戏应用程序中不是任何一种实体类型对应的实体,则预选实体“AKN”的实体类型并不能和伤害类意图对应的伤害类意图模板中任一子模板中的实体的实体类型存在匹配关系。因此,服务器可以对待识别数据进行分词操作,得到待纠错数据。
另一种可选的实施例中,若预选实体的的实体数量和意图模板中的上限子模板中的实体的实体数量不存在匹配关系,服务器可以对待识别数据进行分词操作,得到待纠错数据。其中,上限子模板为意图模板的所有子模板中,包含的实体的实体数量最多的子模板。
举个例子,假设待识别数据为“AKM对三级护具的伤害值为多少”,且服务器基于实体识别模型识别该待识别数据进行实体识别后,得到的预选实体为“AKM”,基于意图识别模型对待识别数据进行意图的识别,得到的预选意图为伤害类意图,其中,预选实体“AKM”的实体数量为1。基于对上限子模板的定义,服务器可以确定伤害类意图模板中的上限子模板可以是第一子模板“武器名,护甲名”或者第二子模板“武器名,头盔名”,并确定上限子模板中的实体的实体数量为2,和预选实体“AKM”的实体数量1不存在匹配关系,则服务器可以对待识别数据进行分词操作,得到待纠错数据。
上述两种是否存在匹配关系的判断方式可以结合起来对预选实体和与预选意图对应的意图模板中子模板中的实体是否存在匹配关系进行判断。
可选的,服务器先对实体类型进行判断,进而对实体数量进行判断。若预选实体的实体类型与意图模板中任一子模板中的实体的实体类型不存在匹配关系,比如上述的待识别数据为“AKN对三级护具的伤害值为多少”例子,则服务器可以直接对待识别数据进行分词操作,得到待纠错数据。若预选实体的实体类型与意图模板中任一子模板中的实体的实体类型存在匹配关系,比如上述的待识别数据为“AKM对三级护具的伤害值为多少”中的预选实体为“AKM”,由于服务器确定“AKM”在该枪战类游戏应用程序中是实体类型“武器名”对应的实体,且和伤害类意图模板中的第三子模板“武器名”存在匹配关系,则可以继续下一步实体数量的确定。但由于第三子模板并不是伤害类意图模板中的上限子模板,因此预选实体的的实体数量和意图模板中的上限子模板中的实体的实体数量不存在匹配关系,因此,服务器可以对待识别数据进行分词操作,得到待纠错数据。
实际应用中,待识别数据为“AKM对三级护具的伤害值为多少”这个例子中已经满足了预选实体的实体类型与意图模板中任一子模板中的实体的实体类型存在匹配关系,然而基于考虑到上一步骤中的服务器中的实体识别模型对待识别数据进行识别时,可能还存在未识别出的实体,因此还需要做实体数量的匹配对比,使得整个实施方案包含更多的可能性,减少整体方案出现的失误率。
可选的,本申请实施例中的服务器先对实体数量进行判断,进而对实体类型进行判断,只有两个判断条件都满足了,服务器可以不对待识别数据进行分词操作。
本申请实施例中,可以对待识别数据进行常用词N-gram分词操作,以得到待纠错数据。其中,常用词N-gram中的N的值可以根据实际情况确定。比如,服务器可以对待识别数据“AKN对三级护甲的伤害值为多少”进行常用词1-gram分词操作,进行常用词1-gram操作得到的待纠错数据为“AKN,对,三级护甲,的,伤害值,为,多少”。可选的,还可以对待识别数据进行常用词1-gram分词操作和常用词2-gram分词操作,分词操作的具体实施方式可以根据实际的应用场景而定。
一种可选的实施例中,若预选实体和应用程序实体库中的实体相匹配,服务器可以对待识别数据中除预选实体之外的数据进行分词操作,得到待纠错数据。假设通过S201,服务器基于实体识别模型对待识别数据“AKN对三级护甲的伤害值为多少”进行实体识别得到的预选实体为“三级护甲”,且该应用程序的实体库中的实体包括“三级护甲”,也就是说预选实体和应用程序实体库中的实体相匹配,则服务器可以将待识别数据中的预选实体以预设格式的字符进行替代,对待识别数据中除预选实体之外的数据进行分词操作,得到待纠错数据。如此,得到的的待纠错数据为“AKN,对,*,的,伤害值,为,多少”。其中,预设格式的字符为“*”。该实施方式的有益效果是:通过对确定的实体进行屏蔽处理,可以较少后续纠错效果的噪声,提高纠错的效率。
S205:根据应用程序的实体库和预设编辑距离确定待纠错数据对应的实体集合;其中,实体集合中的每个实体为实体库中的实体。
本申请实施例中,编辑距离为两个数据之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。比如,由“三级衣”转化成“三级护甲”的编辑距离为2。
本申请实施例中,由于服务器是基于应用程序中的实体库确定待纠错数据对应的实体集合,一种可选的实施方式中,服务器可以根据应用程序的实体库和预设编辑距离确定待纠错数据中的待纠错实体对应的实体集合。基于上述的待纠错数据继续说明,假设预设编辑距离为3,则服务器可以从实体库中确定出待纠错数据中的待纠错实体“AKN”对应的实体集合中的实体为:与待纠错实体“AKN”的编辑距离为1的“AKM”,与待纠错实体“AKN”的编辑距离为2的“AWM”,与待纠错实体“AKN”的编辑距离为3的“M24”,与待纠错实体“AKN”的编辑距离为2的“AUG”和与待纠错实体“AKN”的编辑距离为3的“M4”。
可选的,上述待纠错实体“AKN”和对应的实体集合以树的形式表示,图3为本申请实施例提供的一种实体集合的表示形式示意图,其中,示意图包括了待纠错数据中的待纠错实体“AKN”和“AKN”对应的实体集合中的实体“AKM”,“AWM”,“M24”,“AUG”,“M4”,以及待纠错实体和实体集合中每个实体之间的编辑距离。
可选的,由于待纠错实体“AKN”不是实体库中的实体,因此,树的形式中可以不包括待纠错实体“AKN”,如此,可以通过过渡实体以表示待纠错实体“AKN”的实体集合。图4为本申请实施例提供的一种实体集合的表示形式示意图,其中,示意图包括了待纠错数据中的待纠错实体“AKN”对应的实体集合中的实体“AKM”,“AWM”,“M24”,“AUG”,“M4”。其中,与待纠错实体“AKN”的编辑距离最小的实体“AKM”将作为过渡实体,此外,图4还包括了过渡实体和实体集合中除去过渡实体之外的实体之间的编辑距离。
另一种可选的实施方式中,服务器可以根据应用程序的实体库和预设编辑距离确定待纠错数据对应的实体集合。其中,待纠错数据不仅可以包括待纠错实体“AKN”,具体确定实体集合的实施方式可参见上几段文字描述,还可以包括待纠错非实体:“对”,“的”,“伤害值”,“为”和“多少”。可选的,待纠错实体和待纠错非实体可以基于同一个预设编辑距离从应用程序的实体库确定出对应的实体集合。可选的,待纠错实体和待纠错非实体可以基于不同的预设编辑距离从应用程序的实体库确定出对应的实体集合,比如,待纠错实体对应的预设编辑距离3,小于待纠错非实体对应的预设编辑距离4。本申请实施例中的预设编辑距离可以根据实际应用情况而定,主要可以结合实际应用和预设编辑距离排除干扰数据。减少实施方式的整理工作量。
本申请实施例为了简化后续从实体集合中确定出目标实体的步骤,在服务器根据应用程序的实体库和预设编辑距离确定待纠错数据对应的实体集合之后,还可以根据预设编辑阈值从待纠错数据对应的实体集合中确定候选实体集合,其中,候选实体集合中的候选实体为实体集合中的实体。
基于上述待纠错实体“AKN”对应的实体集合、图3和图4继续阐述如何确定纠错实体“AKN”对应的候选实体集合,假设预设编辑阈值为2,则服务器可以从实体集合中的实体中确定出和待纠错实体“AKN”之间的编辑距离小于等于2的实体。
一种可选的实施方式中,服务器可以根据图3所示的编辑距离确定候选实体集合,服务器可以确定和待纠错数据之间的编辑距离小于等于2的实体为“AKM”,“AUG”和“AWM”,如此,候选实体集合包括“AKM”,“AUG”和“AWM”。
另一种可选的实施方式中,服务器可以根据图4所示的编辑距离确定候选实体集合。可选的,服务器遵从三角形三边原理确定。第一条边为待纠错实体“AKN”至过渡实体“AKM”的编辑距离1,第二条边为待纠错实体“AKN”和候选实体集合中的实体的最大编辑距离2,如此,第三条边,即过渡实体“AKM”至候选实体集合中的实体的编辑距离可以为小于两边之和的3。由此,可以确定候选实体集合中的实体包括“AKM”,“AUG”和“AWM”。
S207:基于待纠错数据对应的实体集合中每个实体和待纠错数据之间的相似程度值从实体集合中确定出用于纠错的目标实体。
本申请实施例中,一种确定实体集合中每个实体和待纠错数据之间的相似程度值的实施方式中,服务器可以确定待纠错数据对应的实体集合中每个实体和待纠错数据的实体相似程度值,以及确定待纠错数据对应的实体集合中每个实体和待纠错数据的编辑相似程度值,服务器根据实体相似程度值和编辑相似程度值确定实体集合中每个实体和待纠错数据之间的相似程度值。
相应的,一种确定候选实体集合中每个实体和待纠错数据之间的相似程度值的实施方式中,服务器可以确定待纠错数据对应的候选实体集合中每个实体和待纠错数据的实体相似程度值,以及确定待纠错数据对应的候选实体集合中每个实体和待纠错数据的编辑相似程度值,服务器根据实体相似程度值和编辑相似程度值确定候选实体集合中每个实体和待纠错数据之间的相似程度值。
下面基于上文例子中待纠错实体“AKN”的候选实体集合中的实体“AKM”,“AUG”和“AWM”继续进行说明。
本申请实施例中,候选实体集合中每个实体和待纠错数据的实体相似程度值可以根据公式(1)确定:
Figure BDA0002175912900000151
其中,sim1表示为实体相似程度值,dgram(a,b)表示为待纠错数据和候选实体集合中的一个实体之间的实体距离,lena表示为待纠错数据的字符长度,lenb表示为候选实体集合中的一个实体的字符长度。
本申请实施例中,实体距离dgram(a,b)可以表示为待纠错实体和候选实体集合中实体之间的字符集合的重合数量,若字符集合为双字符和三字符的集合,则服务器确定待纠错实体“AKN”的字符集合为{AK,KN,AKN},“AKM”的字符集合为{AK,KM,AKM},“AWM”的字符集合为{AW,WM,AWM},“AUG”的字符集合为{AU,UG,AUG}。待纠错数据的字符长度lena为3,AKM”,“AUG”和“AWM”这3个实体的字符长度lenb都是3。如此,可以算出“AKM”和“AKN”的实体相似程度值为1-1/6=5/6,算出“AWM”和“AKN”的实体相似程度值为1,算出“AUG”和“AKN”的实体相似程度值为1。
本申请实施例中国,候选实体集合中每个实体和待纠错数据的编辑相似程度值可以根据公式(2)确定:
其中,sim2表示编辑相似程度值,dlevenshtein(a,b)表示待纠错数据和候选实体集合中的实体之间的编辑距离,max(lena,lenb)表示待纠错数据的字符长度和实体的字符长度中字符长度较长的字符的长度数值。
可选的,待纠错数据和候选实体集合中的实体之间的编辑距离为两个数据之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。
可选的,待纠错数据和候选实体集合中的实体之间的编辑距离为两个数据之间,由一个转成另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符,和两个字符的交换操作。
上述任一种编辑距离都可适用于确定编辑相似程度值的步骤。由于“AKM”和“AKN”,“AWM”和“AKN”,“AUG”和“AKN”的max(lena,lenb)都是3,“AKM”和“AKN”的编辑距离为1,服务器可以确定“AKM”和“AKN”的编辑相似程度值为1-1/3=2/3。“AWM”和“AKN”的编辑距离为2,服务器可以确定“AWM”和“AKN”的编辑相似程度值为1-2/3=1/3。“AUG”和“AKN”的编辑距离为2,服务器可以确定“AUG”和“AKN”的编辑相似程度值为1-2/3=1/3。
本申请实施例中,服务器可以根据实体相似程度值和编辑相似程度值之和确定候选实体集合中每个实体和待纠错数据之间的相似程度值。上述实施例中,服务器可以确定“AKM”和“AKN”之间的相似程度值为5/6+2/3=1.5,服务器可以确定“AWM”和“AKN”之间的相似程度值为1+1/3=1.33,服务器可以确定“AUG”和“AKN”之间的相似程度值为1+1/3=1.33。
基于上述候选实体集合中各个实体与待纠错实体之间的相似程序值,服务器可以将候选实体集合中最大相似程序值对应的实体确定为待纠错数据对应的所述目标实体,则目标实体为“AKM”。
S209:基于该目标实体对待识别数据进行纠错处理。
本申请实施例中,可以将目标实体替换待识别数据中的待纠错数据。也就是说,服务器可以将该目标实体“AKM”替换待识别数据“AKN对三级护具的伤害值为多少”的待纠错数据“AKN”,得到纠错后的待识别数据“AKM对三级护具的伤害值为多少”。
在某些应用场景中,若待识别数据对应的意图为伤害类意图,且服务器根据常用词N-gram对待识别数据进行分词操作,并根据应用程序的实体库、预设编辑距离和预设编辑阈值确定待纠错数据对应的候选实体集合后,得到三个候选实体集合,比如第一候选实体集合为{AKM,AWM},第二候选实体集合为{二级头盔,三级头盔}和第三候选实体集合为{二级护甲,三级护甲}。服务器可以继续确定待纠错数据对应的实体集合中每个实体和待纠错数据之间的相似程度值,比如第一候选实体集合的相似程度值为{AKM(1.5),AWM(1.33)},第二候选实体集合的相似程度值为{二级头盔(1.3),三级头盔(0.8)}和第三候选实体集合的相似程度值为{二级护甲(0.2),三级护甲(1.5)},服务器从每个候选集合中确定出用于纠错的目标实体AKM(1.5),二级头盔(1.3)和三级护甲(1.5)。
该种应用场景下,本申请实施例可以基于确定的目标实体和伤害类意图模板的子模板的匹配程度确定真正用于纠错的目标实体。由于上文假设的伤害类意图模板包括三个子模板:第一子模板为“武器名,护甲名”,第二子模板为“武器名,头盔名”,第三子模板为“武器名”。服务器可以分别确定目标实体代入子模板中的匹配程序值,得到代入第一子模板的匹配程序值为1.5+1.5=3;代入第二子模板的匹配程序值为1.5+1.3=2.8,代入第三子模板的匹配程序值为1.5。最终,服务器确定真正用于纠错的目标实体为匹配程度值最高的AKM和三级护甲。
下面基于上文的实施例确定一个可选的实施方案,图5为本申请实施例提供的应用程序中数据的处理方法的流程示意图,如图5所示:
S501:服务器根据历史识别数据确定多个预选意图,并确定每个预选意图相对用的意图模板;
S503:服务器基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别,得到预选实体和预选意图;
S505:服务器判断预选实体的实体类型与意图模板中任一子模板中的实体的实体类型是否存在匹配关系,若存在,转至步骤S507;若不存在,转至步骤S509;
S507:服务器判断预选实体的实体数量和意图模板中的上限子模板中的实体的实体数量是否存在匹配关系,若存在,转至步骤S523;若不存在,转至步骤S509;
S509:服务器判断预选实体和应用程序实体库中的实体是否相匹配,若是,转至步骤S511;若否,转至步骤S513;
S511:服务器对待识别数据中除预选实体之外的数据进行分词操作,得到待纠错数据,转至步骤S515;
S513:服务器对待识别数据进行分词操作,得到待纠错数据;
本申请实施例中,服务器可以对待识别数据或者除预选实体之外的数据进行常用词N-gram分词操作以得到待纠错数据。其中,常用词N-gram中的N的值可以根据实际情况确定。
S515:服务器根据应用程序的实体库和预设编辑距离确定待纠错数据对应的实体集合;
S517:服务器根据预设编辑阈值从待纠错数据对应的实体集合中确定候选实体集合,候选实体集合中的候选实体为实体集合中的实体;
S519:服务器基于待纠错数据对应的候选实体集合中每个实体和待纠错数据之间的相似程度值从候选实体集合中确定出用于纠错的目标实体;
本申请实施例中,服务器可以确定待纠错数据对应的候选实体集合中每个实体和待纠错数据的实体相似程度值,以及确定待纠错数据对应的候选实体集合中每个实体和待纠错数据的编辑相似程度值,如此,服务器根据实体相似程度值和编辑相似程度值确定候选实体集合中每个实体和待纠错数据之间的相似程度值。服务器可以将候选实体集合中最大相似程序值对应的实体确定为待纠错数据对应的所述目标实体。
S521:服务器将目标实体替换待识别数据中的待纠错数据。
S523:服务器继续识别待识别数据,得到该问题的回复。
综上,本申请实施例中结合预设的意图模板可以将待纠错数据集中在某一个纠错区域内,保证纠错处理可以快速准确进行,随后通过实体库和编辑距离的应用确定目标实体,以对待纠错数据进行纠错处理,为后续的数据识别处理做铺垫,可以提高后续数据识别处理的准确率。
本申请实施例还提供了一种应用程序中数据的处理装置,图6是本申请实施例提供的一种应用程序中数据的处理装置的结构示意图,如图6所示,该装置包括:
识别模块601用于基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别,得到预选实体和预选意图;
分词模块602用于若预选实体与预选意图对应的意图模板中子模板中的实体不存在匹配关系,对待识别数据进行分词操作,得到待纠错数据;
第一确定模块603用于根据应用程序的实体库和预设编辑距离确定待纠错数据对应的实体集合;实体集合中的每个实体为实体库中的实体;
第二确定模块604用于基于待纠错数据对应的实体集合中每个实体和待纠错数据之间的相似程度值从实体集合中确定出用于纠错的目标实体;
处理模块605用于基于目标实体对待识别数据进行纠错处理。
在一种可选的实施方式中,该装置还包括:
分词模块用于若预选实体的实体类型与意图模板中任一子模板中的实体的实体类型不存在匹配关系,对待识别数据进行分词操作,得到待纠错数据。
在一种可选的实施方式中,该装置还包括:
分词模块用于若预选实体的的实体数量和意图模板中的上限子模板中的实体的实体数量不存在匹配关系,对待识别数据进行分词操作,得到待纠错数据;
其中,上限子模板为意图模板的所有子模板中,包含的实体的实体数量最多的子模板。
在一种可选的实施方式中,该装置还包括:
分词模块用于若预选实体和应用程序实体库中的实体相匹配,对待识别数据中除预选实体之外的数据进行分词操作,得到待纠错数据。
在一种可选的实施方式中,该装置还包括:
第二确定模块用于确定待纠错数据对应的实体集合中每个实体和待纠错数据的实体相似程度值;
确定待纠错数据对应的实体集合中每个实体和待纠错数据的编辑相似程度值;
根据实体相似程度值和编辑相似程度值确定实体集合中每个实体和待纠错数据之间的相似程度值;
将最大相似程序值对应的实体确定为待纠错数据对应的目标实体;
处理模块用于使用目标实体替换待识别数据中的待纠错数据。
在一种可选的实施方式中,该装置还包括:
第一确定模块用于根据预设编辑阈值从待纠错数据对应的实体集合中确定候选实体集合;候选实体集合中的候选实体为实体集合中的实体;
基于待纠错数据对应的实体集合中每个实体和待纠错数据之间的相似程度值从实体集合中确定出用于纠错的目标实体,包括:
基于待纠错数据对应的候选实体集合中每个候选实体和待纠错数据之间的相似程度值从候选实体集合中确定出用于纠错的目标实体。
在一种可选的实施方式中,该装置还包括训练模块:
该训练模块用于根据第一训练数据对模型参量为第一参量的实体识别模型进行训练,得到模型参量为第二参量的实体识别模型;
根据第二训练数据对模型参量为第三参量的意图识别模型进行训练,得到模型参量为第四参量的意图识别模型;
第一训练数据和第二训练数据包括应用程序的历史识别数据。
本申请实施例中的装置与方法实施例基于同样地申请构思。
本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图7是本申请实施例提供的一种应用程序中数据的处理方法的服务器的硬件结构框图。如图7所示,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)710(处理器710可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器730,一个或一个以上存储应用程序723或数据722的存储介质720(例如一个或一个以上海量存储设备)。其中,存储器730和存储介质720可以是短暂存储或持久存储。存储在存储介质720的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器710可以设置为与存储介质720通信,在服务器700上执行存储介质720中的一系列指令操作。服务器700还可以包括一个或一个以上电源760,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口740,和/或,一个或一个以上操作系统721,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器700的通信供应商提供的无线网络。在一个实例中,输入输出接口740包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口740可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器700还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。
本申请的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种应用程序中数据的处理方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述应用程序中数据的处理方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的应用程序中数据的处理方法、设备或存储介质的实施例可见,本申请中基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别,得到预选实体和预选意图,若预选实体与预选意图对应的意图模板中子模板中的实体不存在匹配关系,对待识别数据进行分词操作,得到待纠错数据,根据应用程序的实体库和预设编辑距离确定待纠错数据对应的实体集合;实体集合中的每个实体为实体库中的实体,基于待纠错数据对应的实体集合中每个实体和待纠错数据之间的相似程度值从实体集合中确定出用于纠错的目标实体,基于目标实体对待识别数据进行纠错处理。如此,对待识别数据进行数据纠错处理,为之后的数据识别处理做铺垫。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种应用程序中数据的处理方法,其特征在于,所述方法包括:
基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别,得到预选实体和预选意图;
若所述预选实体与所述预选意图对应的意图模板中子模板中的实体不存在匹配关系,对所述待识别数据进行分词操作,得到待纠错数据;
根据应用程序的实体库和预设编辑距离确定所述待纠错数据对应的实体集合;所述实体集合中的每个实体为所述实体库中的实体;
基于所述待纠错数据对应的实体集合中每个实体和所述待纠错数据之间的相似程度值从所述实体集合中确定出用于纠错的目标实体;
基于所述目标实体对所述待识别数据进行纠错处理。
2.根据权利要求1所述的方法,其特征在于,所述若所述预选实体与所述预选意图对应的意图模板中子模板中的实体不存在匹配关系,对所述待识别数据进行分词操作,得到待纠错数据,包括:
若所述预选实体的实体类型与所述意图模板中任一子模板中的实体的实体类型不存在匹配关系,对所述待识别数据进行分词操作,得到待纠错数据。
3.根据权利要求1所述的方法,其特征在于,所述若所述预选实体与所述预选意图对应的意图模板中子模板中的实体不存在匹配关系,对所述待识别数据进行分词操作,得到待纠错数据,包括:
若所述预选实体的的实体数量和所述意图模板中的上限子模板中的实体的实体数量不存在匹配关系,对所述待识别数据进行分词操作,得到待纠错数据;
其中,所述上限子模板为所述意图模板的所有子模板中,包含的实体的实体数量最多的子模板。
4.根据权利要求1所述的方法,其特征在于,所述对所述待识别数据进行分词操作,得到待纠错数据,包括:
若所述预选实体和所述应用程序实体库中的实体相匹配,对所述待识别数据中除所述预选实体之外的数据进行分词操作,得到待纠错数据。
5.根据权利要求1所述的方法,其特征在于,所述基于所述待纠错数据对应的实体集合中每个实体和所述待纠错数据之间的相似程度值从所述实体集合中确定出用于纠错的目标实体,基于所述目标实体对所述待识别数据进行纠错处理,包括:
确定所述待纠错数据对应的实体集合中每个实体和所述待纠错数据的实体相似程度值;
确定所述待纠错数据对应的实体集合中每个实体和所述待纠错数据的编辑相似程度值;
根据所述实体相似程度值和编辑相似程度值确定所述实体集合中每个实体和所述待纠错数据之间的相似程度值;
将最大相似程序值对应的实体确定为所述待纠错数据对应的所述目标实体;
使用所述目标实体替换所述待识别数据中的所述待纠错数据。
6.根据权利要求1所述的方法,其特征在于,所述基于所述待纠错数据对应的实体集合中每个实体和所述待纠错数据之间的相似程度值从所述实体集合中确定出用于纠错的目标实体之前,还包括:
根据预设编辑阈值从所述待纠错数据对应的实体集合中确定候选实体集合;所述候选实体集合中的候选实体为所述实体集合中的实体;
所述基于所述待纠错数据对应的实体集合中每个实体和所述待纠错数据之间的相似程度值从所述实体集合中确定出用于纠错的目标实体,包括:
基于所述待纠错数据对应的候选实体集合中每个候选实体和所述待纠错数据之间的相似程度值从所述候选实体集合中确定出用于纠错的目标实体。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括训练所述实体识别模型和所述意图识别模型的步骤,所述训练所述实体识别模型和所述意图识别模型包括:
根据第一训练数据对模型参量为第一参量的实体识别模型进行训练,得到模型参量为第二参量的实体识别模型;
根据第二训练数据对模型参量为第三参量的意图识别模型进行训练,得到模型参量为第四参量的意图识别模型;
所述第一训练数据和所述第二训练数据包括所述应用程序的历史识别数据。
8.一种应用程序中数据的处理装置,其特征在于,所述装置包括:
识别模块,用于基于实体识别模型和意图识别模型对待识别数据进行实体和意图的识别,得到预选实体和预选意图;
分词模块,用于若所述预选实体与所述预选意图对应的意图模板中子模板中的实体不存在匹配关系,对所述待识别数据进行分词操作,得到待纠错数据;
第一确定模块,用于根据应用程序的实体库和预设编辑距离确定所述待纠错数据对应的实体集合;所述实体集合中的每个实体为所述实体库中的实体;
第二确定模块,用于基于所述待纠错数据对应的实体集合中每个实体和所述待纠错数据之间的相似程度值从所述实体集合中确定出用于纠错的目标实体;
处理模块,用于基于所述目标实体对所述待识别数据进行纠错处理。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-7任一所述的应用程序中数据的处理方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-7任一所述的应用程序中数据的处理方法。
CN201910778784.3A 2019-08-22 2019-08-22 一种应用程序中数据的处理方法、装置、电子设备及存储介质 Active CN110647987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910778784.3A CN110647987B (zh) 2019-08-22 2019-08-22 一种应用程序中数据的处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910778784.3A CN110647987B (zh) 2019-08-22 2019-08-22 一种应用程序中数据的处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110647987A true CN110647987A (zh) 2020-01-03
CN110647987B CN110647987B (zh) 2024-09-13

Family

ID=68990258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910778784.3A Active CN110647987B (zh) 2019-08-22 2019-08-22 一种应用程序中数据的处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110647987B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707300A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 基于人工智能的搜索意图识别方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330120A (zh) * 2017-07-14 2017-11-07 三角兽(北京)科技有限公司 询问应答方法、询问应答装置及计算机可读存储介质
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法
CN108228712A (zh) * 2017-11-30 2018-06-29 北京三快在线科技有限公司 一种实体挖掘方法及装置,电子设备
CN108304385A (zh) * 2018-02-09 2018-07-20 叶伟 一种语音识别文本纠错方法及装置
CN109800407A (zh) * 2017-11-15 2019-05-24 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
CN109885180A (zh) * 2019-02-21 2019-06-14 北京百度网讯科技有限公司 纠错方法和装置、计算机可读介质
CN110148416A (zh) * 2019-04-23 2019-08-20 腾讯科技(深圳)有限公司 语音识别方法、装置、设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330120A (zh) * 2017-07-14 2017-11-07 三角兽(北京)科技有限公司 询问应答方法、询问应答装置及计算机可读存储介质
CN107741928A (zh) * 2017-10-13 2018-02-27 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法
CN109800407A (zh) * 2017-11-15 2019-05-24 腾讯科技(深圳)有限公司 意图识别方法、装置、计算机设备和存储介质
CN108228712A (zh) * 2017-11-30 2018-06-29 北京三快在线科技有限公司 一种实体挖掘方法及装置,电子设备
CN108304385A (zh) * 2018-02-09 2018-07-20 叶伟 一种语音识别文本纠错方法及装置
CN109885180A (zh) * 2019-02-21 2019-06-14 北京百度网讯科技有限公司 纠错方法和装置、计算机可读介质
CN110148416A (zh) * 2019-04-23 2019-08-20 腾讯科技(深圳)有限公司 语音识别方法、装置、设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113707300A (zh) * 2021-08-30 2021-11-26 康键信息技术(深圳)有限公司 基于人工智能的搜索意图识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110647987B (zh) 2024-09-13

Similar Documents

Publication Publication Date Title
US11544459B2 (en) Method and apparatus for determining feature words and server
EP2585962B1 (en) Password checking
CN111428474A (zh) 基于语言模型的纠错方法、装置、设备及存储介质
CN113094559B (zh) 信息匹配方法、装置、电子设备和存储介质
CN112580324A (zh) 文本纠错方法、装置、电子设备以及存储介质
CN110287318B (zh) 业务操作的检测方法及装置、存储介质、电子装置
CN113673228B (zh) 文本纠错方法、装置、计算机存储介质及计算机程序产品
CN108153735B (zh) 一种近义词的获取方法及系统
US20220139061A1 (en) Model training method and apparatus, keypoint positioning method and apparatus, device and medium
CN111144391B (zh) 一种ocr识别结果纠错方法及装置
CN112925900B (zh) 搜索信息处理方法、装置、设备及存储介质
CN113128209A (zh) 用于生成词库的方法及装置
CN110647987B (zh) 一种应用程序中数据的处理方法、装置、电子设备及存储介质
CN115481229A (zh) 一种应答话术推送方法、装置、电子设备及存储介质
CN106776543B (zh) 新词发现方法、装置、终端及服务器
CN107798004B (zh) 关键词查找方法、装置及终端
CN111079415B (zh) 一种基于搭配冲突的中文自动查错方法
CN111159362B (zh) 文本匹配处理方法及装置
CN112948573A (zh) 文本标签的提取方法、装置、设备和计算机存储介质
CN110705258A (zh) 文本实体识别方法及装置
CN109446052B (zh) 一种应用程序的校验方法及设备
KR20200074624A (ko) 도메인 기반의 음성 인식 모델의 최적화가 가능한 음성 인식 장치 및 그 동작 방법
CN110569342B (zh) 问题匹配方法、装置、设备及计算机可读存储介质
CN109492224B (zh) 一种词表构建的方法及装置
CN113553833A (zh) 文本纠错的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant