CN112749543B - 一种信息解析过程的匹配方法、装置、设备及存储介质 - Google Patents
一种信息解析过程的匹配方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112749543B CN112749543B CN202011529998.6A CN202011529998A CN112749543B CN 112749543 B CN112749543 B CN 112749543B CN 202011529998 A CN202011529998 A CN 202011529998A CN 112749543 B CN112749543 B CN 112749543B
- Authority
- CN
- China
- Prior art keywords
- information
- analyzed
- target
- source
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种信息解析过程的匹配方法、装置、设备或存储介质,通过获取待匹配数据;待匹配数据包括待解析信息和待解析信息对应的至少一个第一来源标识;获取历史数据集;历史数据集包括多个已解析信息、多个第二来源标识和多个解析过程;若从多个第二来源标识中确定存在目标第二来源标识,则从多个已解析信息中确定目标第二来源标识对应的目标已解析信息;基于待解析信息,确定目标已解析信息的匹配程度值;若匹配程度值大于等于预设程度值,则将目标已解析信息对应的解析过程确定为目标解析过程。如此,通过优化匹配信息解析过程这个环节,可以灵活化得为每个用户提供合适的信息解析过程,从而可以提升资源使用效率及解析过程的准确性。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种信息解析过程的匹配方法、装置、设备及存储介质。
背景技术
随着科技水平的发展和提高,人机对话、人工智能等领域的逐渐兴起,人类通过口语、手语、动作等的形式进行资讯的传递场景也越来越多。而其中文字作为载体,是最为被常用的一种方法。文字需要被计算机系统准确无误的所能理解,根据分析出的文字背后含义,执行业务场景中的预设判断和处理。做好语义内容含义的解析,本质是在正确的语境中,把文字内容进行分解,针对文字内容及表达方式,由这些的内容推断出文字背后的语义信息。
目前主流的解决方案是寻找一种分词器把完整的文字内容按照常用的习惯、词性、词组、连接词等不同维度的方式进行切分,分出的单词内容与已经存在的一些词典库(人工维护)进行匹配,当语句中含有这些词语时,就可以知道其表达的内容。
然而,目前主流解析文字处理方法过程用时较长的局限性,体现在每次的解析文字内容相互之间不存在影响或关联性,在这种模型下的解析,每次都会认为是独立事件,即时是同一使用者每次的解析处理过程也会不停的重复类似的解析。由于处理过程存在局限性,导致使用者的体验感非常差。大量类似的重复处理也存在浪费解析文字的处理能力。
发明内容
本申请实施例提供了一种信息解析过程的匹配方法、装置、设备及存储介质,通过优化匹配信息解析过程这个环节,可以灵活化得为每个用户提供合适的信息解析过程,从而可以提升资源使用效率及解析过程的准确性。
一方面,本申请实施例提供了一种信息解析过程的匹配方法,包括:
获取待匹配数据;待匹配数据包括待解析信息和待解析信息对应的至少一个第一来源标识;
获取历史数据集;历史数据集包括多个已解析信息、多个第二来源标识和多个解析过程;多个第二来源标识包括多个已解析信息中任一已解析信息对应的至少一个第二来源标识;多个解析过程包括多个已解析信息中任一已解析信息对应的解析过程记录;
若从多个第二来源标识中确定存在目标第二来源标识,则从多个已解析信息中确定目标第二来源标识对应的目标已解析信息;目标第二来源标识与至少一个第一来源标识中的第一来源标识相匹配;
基于待解析信息,确定目标已解析信息的匹配程度值;
若匹配程度值大于等于预设程度值,则将目标已解析信息对应的解析过程确定为目标解析过程;目标解析过程用于对待解析信息进行解析。
可选的,至少一个第一来源标识包括第一来源对象标识;多个第二来源标识包括多个第二来源对象标识;
若从多个第二来源标识中确定存在目标第二来源标识,则从多个已解析信息中确定目标第二来源标识对应的目标已解析信息,包括:
若从多个第二来源对象标识中确定存在与第一来源对象标识相匹配的目标第二来源对象标识,则从多个已解析信息中确定出目标第二来源对象标识对应的目标已解析信息。
可选的,至少一个第一来源标识还包括第一来源位置信息;多个第二来源标识还包括多个第二来源位置信息;
若从多个第二来源标识中确定存在目标第二来源标识,则从多个已解析信息中确定目标第二来源标识对应的目标已解析信息,还包括:
若从多个第二来源对象标识中确定不存在与第一来源对象标识相匹配的目标第二来源对象标识,则从多个第二来源位置信息中确定是否存在与第一来源位置信息相匹配的目标第二来源位置信息;
若确定存在与第一来源位置信息相匹配的目标第二来源位置信息,则从多个已解析信息中确定出目标第二来源位置信息对应的目标已解析信息。
可选的,若从多个第二来源标识中确定存在目标第二来源标识,则从多个已解析信息中确定目标第二来源标识对应的目标已解析信息,还包括:
若确定不存在与第一来源位置信息相匹配的目标第二来源位置信息,则基于第一来源位置信息确定第一来源区域信息;从多个第二来源位置信息中确定是否存在与第一来源区域信息相匹配的目标第二来源位置信息;
若确定存在与第一来源区域信息相匹配的目标第二来源位置信息,则从多个已解析信息中确定出目标第二来源位置信息对应的目标已解析信息。
可选的,待解析信息与目标已解析信息均为文本文字形式;目标已解析信息包括已解析词组集合和已解析词组集合中已解析词组对应的已解析语句;
基于待解析信息,确定目标已解析信息的匹配程度值,包括:
对待解析信息进行分词处理,得到多个待解析词组;
从已解析词组集合中,确定与多个待解析词组相匹配的多个目标词组,确定多个目标词组对应的多个已解析语句;多个已解析语句中每个已解析语句包括若干目标词组;
将每个已解析语句中目标词组的数量与多个待解析词组的数量的比值,确定为每个已解析语句的匹配程度值。
可选的,待解析信息为文本文字形式;目标已解析信息包括已解析特征值集合;
基于待解析信息,确定目标已解析信息的匹配程度值,包括:
对待解析信息进行特征提取,得到待解析信息对应的待解析特征值;
基于待解析特征值,在已解析特征值集合中进行模糊匹配,得到多个目标特征值;
确定多个目标特征值中每个目标特征值与待解析特征值的匹配程度值。
另一方面,本申请实施例提供了一种信息解析过程的匹配装置,包括:
第一获取模块,用于获取待匹配数据;待匹配数据包括待解析信息和待解析信息对应的至少一个第一来源标识;
第二获取模块,用于获取历史数据集;历史数据集包括多个已解析信息、多个第二来源标识和多个解析过程;多个第二来源标识包括多个已解析信息中任一已解析信息对应的至少一个第二来源标识;多个解析过程包括多个已解析信息中任一已解析信息对应的解析过程记录;
第一确定模块,用于若从多个第二来源标识中确定存在目标第二来源标识,则从多个已解析信息中确定目标第二来源标识对应的目标已解析信息;目标第二来源标识与至少一个第一来源标识中的第一来源标识相匹配;
第二确定模块,用于基于待解析信息,确定目标已解析信息的匹配程度值;
第三确定模块,用于若匹配程度值大于等于预设程度值,则将目标已解析信息对应的解析过程确定为目标解析过程;目标解析过程用于对待解析信息进行解析。
可选的,至少一个第一来源标识包括第一来源对象标识;多个第二来源标识包括多个第二来源对象标识;
第一确定模块,还用于若从多个第二来源对象标识中确定存在与第一来源对象标识相匹配的目标第二来源对象标识,则从多个已解析信息中确定出目标第二来源对象标识对应的目标已解析信息。
另一方面,本申请实施例提供了一种设备,设备包括处理器和存储器,存储器中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行上述的信息解析过程的匹配方法。
另一方面,本申请实施例提供了一种计算机存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现上述的信息解析过程的匹配方法。
本申请实施例提供的一种信息解析过程的匹配方法、装置、设备及存储介质具有如下有益效果:
通过获取待匹配数据;待匹配数据包括待解析信息和待解析信息对应的至少一个第一来源标识;获取历史数据集;历史数据集包括多个已解析信息、多个第二来源标识和多个解析过程;多个第二来源标识包括多个已解析信息中任一已解析信息对应的至少一个第二来源标识;多个解析过程包括多个已解析信息中任一已解析信息对应的解析过程记录;若从多个第二来源标识中确定存在目标第二来源标识,则从多个已解析信息中确定目标第二来源标识对应的目标已解析信息;目标第二来源标识与至少一个第一来源标识中的第一来源标识相匹配;基于待解析信息,确定目标已解析信息的匹配程度值;若匹配程度值大于等于预设程度值,则将目标已解析信息对应的解析过程确定为目标解析过程;目标解析过程用于对待解析信息进行解析。如此,通过优化匹配信息解析过程这个环节,可以灵活化得为每个用户提供合适的信息解析过程,从而可以提升资源使用效率及解析过程的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种应用场景的示意图;
图2是本申请实施例提供的一种信息解析过程的匹配方法的流程示意图;
图3是本申请实施例提供的一种确定目标已解析信息的流程示意图;
图4是本申请实施例提供的一种基于待解析信息确定目标已解析信息的匹配程度值的流程示意图;
图5是本申请实施例提供的另一种基于待解析信息确定目标已解析信息的匹配程度值的流程示意图;
图6是本申请实施例提供的一种信息解析过程的匹配装置的结构示意图;
图7是本申请实施例提供的一种信息解析过程的匹配方法的服务器的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本申请实施例提供的一种应用场景的示意图,包括用户101和服务器102,用户101上传待解析数据至服务器102,服务器102在对待解析数据进行解析处理之前,分析并匹配合适的信息解析过程以解析该待解析数据。
服务器102获取待匹配数据;待匹配数据包括待解析信息和待解析信息对应的至少一个第一来源标识;服务器102获取历史数据集;历史数据集包括多个已解析信息、多个第二来源标识和多个解析过程;多个第二来源标识包括多个已解析信息中任一已解析信息对应的至少一个第二来源标识;多个解析过程包括多个已解析信息中任一已解析信息对应的解析过程记录;若服务器102从多个第二来源标识中确定存在目标第二来源标识,则服务器102从多个已解析信息中确定目标第二来源标识对应的目标已解析信息;目标第二来源标识与至少一个第一来源标识中的第一来源标识相匹配;服务器102基于待解析信息,确定目标已解析信息的匹配程度值;若匹配程度值大于等于预设程度值,则服务器102将目标已解析信息对应的解析过程确定为目标解析过程;目标解析过程用于对待解析信息进行解析。
在上述应用场景中,服务器102对用户101传递的待解析数据匹配合适的解析过程,以更好地理解用户101和反馈用户101;在其他应用场景中,待解析数据也可以是由服务器102从其他服务器中获取,针对不同服务器的不同应用,匹配适用于当前应用的信息解析过程,从而可以提高信息解析的准确性。
需要说明的是,本申请主要是对匹配信息解析过程这个环节进行优化,具体信息解析过程是本申请的下游处理流程,信息解析过程是根据一些固定模型,对待解析语句的内容进行切分、处理等,不同的信息解析过程的中个别地方的输入的配置参数等会有所不同,基于此,本申请给当前待解析数据匹配合适的信息解析过程,从而可以利用合适的配置参数获得更加准确的解析结果,提高了解析过程的准确性。
以下介绍本申请一种信息解析过程的匹配方法的具体实施例,图2是本申请实施例提供的一种信息解析过程的匹配方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,该方法可以包括:
S201:获取待匹配数据;待匹配数据包括待解析信息和待解析信息对应的至少一个第一来源标识。
本申请实施例中,待匹配数据包括待解析信息和待解析信息对应的至少一个第一来源标识,待解析信息可以指用户传递的需要解析的纯文本文字内容;第一来源标识表征待解析信息的来源信息,例如用户的身份信息和用户上传待匹配数据的地理位置,可以采用序列号标识用户身份,不同用户的序列号应具备唯一性;其中,序列号可以使用类似正整数数字类型,但不仅限于是数字类型的序列号;地理位置可以采用经度纬度坐标。
S203:获取历史数据集;历史数据集包括多个已解析信息、多个第二来源标识和多个解析过程;多个第二来源标识包括多个已解析信息中任一已解析信息对应的至少一个第二来源标识;多个解析过程包括多个已解析信息中任一已解析信息对应的解析过程记录。
本申请实施例中,历史数据集包括多个已解析信息,多个已解析信息可以指用户曾经上传的已经被解析过的历史待解析信息,或者是该历史待解析信息经过特征抽取后的特征值;特征值一致或者相似的两段历史待解析信息具有类似的文字表达结构;多个第二来源标识包括多个已解析信息中任一已解析信息对应的至少一个第二来源标识,第二来源标识表征任一已解析信息的来源信息,与第一来源标识相同,可以是用户的身份信息和用户上传历史待匹配数据的地理位置,具体形式可以参考前文,此处不再赘述;多个解析过程包括多个已解析信息中任一已解析信息对应的解析过程记录,解析过程记录可以指对待解析信息进行解析过程中的重要输入参数的形象化存储内容,可以采用JSON或者XML等形式,具体根据不同文字解析服务的不同而不同。
S205:若从多个第二来源标识中确定存在目标第二来源标识,则从多个已解析信息中确定目标第二来源标识对应的目标已解析信息;目标第二来源标识与至少一个第一来源标识中的第一来源标识相匹配。
本申请实施例中,若待匹配数据只包含一个第一来源标识,则直接根据该第一来源标识,在多个第二来源标识中寻找是否存在与其相匹配的第二来源标识,若存在,则将该与其相匹配的第二来源标识确定为目标第二来源标识;然后,在多个已解析信息中找到与该目标第二来源标识对应的已解析信息,并确定为目标已解析信息,目标已解析信息即与待解析信息的来源信息(如用户身份或者用户上传信息时的地理位置)相同或者相近。
一种可选的若从多个第二来源标识中确定存在目标第二来源标识,则从多个已解析信息中确定目标第二来源标识对应的目标已解析信息的实施方式中,如图3所示,图3是本申请实施例提供的一种确定目标已解析信息的流程示意图;该实施例中,至少一个第一来源标识包括第一来源对象标识和第一来源位置信息;多个第二来源标识包括多个第二来源对象标识和多个第二来源位置信息;第一来源对象标识、第二来源对象标识表征用户身份信息;第一来源位置信息、第二来源位置信息表征用户上传信息时的地理位置;具体可以包括:
S301:从多个第二来源对象标识中确定是否存在与第一来源对象标识相匹配的目标第二来源对象标识;若确定存在与第一来源对象标识相匹配的目标第二来源对象标识,则转至步骤S303;否则,转至步骤S305。
S303:从多个已解析信息中确定出目标第二来源对象标识对应的目标已解析信息。
具体的,由于同一用户在语言表达习惯上,前后具备较强的一致性,其表现形式为高频的文字会内容会频繁出现,因此可以基于第一来源对象标识在多个第二来源对象标识中进行模糊匹配,寻找与其相匹配的目标第二来源对象标识。
S305:从多个第二来源位置信息中确定是否存在与第一来源位置信息相匹配的目标第二来源位置信息;若确定存在与第一来源位置信息相匹配的目标第二来源位置信息,则转至步骤S307;否则,转至步骤S309。
S307:从多个已解析信息中确定出目标第二来源位置信息对应的目标已解析信息。
具体的,与第一来源位置信息相同,或者处于第一来源位置信息预设范围内的均可以认为是与第一来源位置信息相匹配,因为在一定区域内的用户具有较高程度的语言使用习惯,其表现形式为文字内容的表达方式较为类似,因此在不存在与第一来源对象标识相匹配的第二来源对象标识的情况下,可以基于第一来源位置信息在多个第二来源位置信息中进行模糊匹配,寻找与其相配的目标第二来源位置信息。
S309:基于第一来源位置信息确定第一来源区域信息。
具体的,考虑到相邻地理区域之间的表达方式也存在着互相借鉴的影响,因此,在不存在与第一来源对象标识相匹配的第二来源对象标识且不存在与第一来源位置信息相匹配的第二来源位置信息的情况下,可以基于第一来源位置信息进行扩展,即将该第一来源位置信息临近的周边地域确定为第一来源区域信息。
S311:从多个第二来源位置信息中确定是否存在与第一来源区域信息相匹配的目标第二来源位置信息;若确定存在与第一来源区域信息相匹配的目标第二来源位置信息,则转至步骤S313;否则,转至步骤S315。
S313:从多个已解析信息中确定出目标第二来源位置信息对应的目标已解析信息。
具体的,确定多个第二来源位置信息对应的多个地理位置中,是否存在落入第一来源区域信息对应的地理区域中的地理位置,若存在,则将该地理位置对应的第二来源位置信息确定为目标第二来源位置信息。
S315:将常规信息解析过程确定为目标解析过程。
上述步骤S301-S315中,按照第一来源对象标识、第一来源位置信息、第一来源区域信息的优先级顺序在历史数据集中查找相匹配的第二来源标识,即,根据用户身份标识寻找是否存在历史解析信息等记录;若根据用户身份标识搜索不到记录时,再根据用户的地理位置寻找;根据用户地理位置也搜索不到时,根据用户的周边区域寻找;依然不存在时,直接采取常规信息解析过程作为目标解析过程对待解析信息进行解析,不用再执行步骤S207及其后续步骤。
S207:基于待解析信息,确定目标已解析信息的匹配程度值。
本申请实施例中,只要确定出目标已解析信息,如上述步骤S303、S307和S313,则基于待解析信息,确定目标已解析信息的匹配程度值;当存在多个目标已解析信息时,分别计算每个目标已解析信息的匹配程度值。
一种可选的实施方式中,待解析信息与目标已解析信息均为文本文字形式;目标已解析信息包括已解析词组集合和已解析词组集合中已解析词组对应的已解析语句;那么,上述基于待解析信息,确定目标已解析信息的匹配程度值,具体可以包括:
S401:对待解析信息进行分词处理,得到多个待解析词组;
S403:从已解析词组集合中,确定与多个待解析词组相匹配的多个目标词组,确定多个目标词组对应的多个已解析语句;多个已解析语句中每个已解析语句包括若干目标词组;
S405:将每个已解析语句中目标词组的数量与多个待解析词组的数量的比值,确定为每个已解析语句的匹配程度值。
下面通过一个例子对上述步骤S401-S405进行说明。假设待解析信息为“你好,请问需要帮助吗”经分词处理后,得到的多个待解析词组为“你好”、“请问”、“需要”、“帮助”、“吗”,为了方便说明,下文分别用A/B/C/D/E代替五个词组,即A表示“你好”,B表示“请问”,C表示“需要”,D表示“帮助”,E表示“吗”;相应的,已解析词组集合为{A1,A2,A3,A4…Ana,B1…Bnb,C1…Cnc,…Dnd,E1…Ene,F1…Fnf,G1…Gng,……},其中下标na、nb、nc、nd、ne和ng均表示数字,具体数据根据实际情况确定;下标数字相同的属于同一个已解析语句,如A1、B1、C1、D1、E1、F1、G1属于同一个已解析语句;字母相同表征文本内容相似,如A1和A2为同义词;为了进一步简化说明,假设已解析词组集合具体为{A1,A2,A3,B1,B2,B3,D2,D3,E1,E4,F2,F4,F5},那么与待解析词组A/B/C/D/E相匹配的多个目标词组为A1,A2,A3,B1,B2,B3,D2,D3,E1,E4,该多个目标词组对应的已解析语句为句子1:A1B1E1,句子2:A2B2D2F2,句子3:A3B3D3,句子4:E4F4;然后基于每个句子中目标词组的数量与多个待解析词组的数量的比值,确定每个句子的匹配程度值,如句子1的匹配程度值为3/5=0.6,句子2的匹配程度值为4/5=0.8,句子3的匹配程度值为0.6,句子4的匹配程度值为2/5=0.4。
另一种可选的实施方式中,待解析信息为文本文字形式;目标已解析信息包括已解析特征值集合;那么,上述基于待解析信息,确定目标已解析信息的匹配程度值,具体可以包括:
S501:对待解析信息进行特征提取,得到待解析信息对应的待解析特征值;
S503:基于待解析特征值,在已解析特征值集合中进行模糊匹配,得到多个目标特征值;
S505:确定多个目标特征值中每个目标特征值与待解析特征值的匹配程度值。
下面通过一个例子对上述步骤S501-S505进行说明。同样以待解析信息为“你好,请问需要帮助吗”为例进行说明,那么首先对其进行特征提取,按照特定算法可以得到的一串由字母和数字组成的特定长度的待解析特征值;常用的特征提取算法有MD5、SHA1等;为了便于说明,假设已解析特征值集合为{abe12,abcde,cde12,def567,fgrh890……},待解析特征值为abc12,根据特定算法进行模糊匹配后的多个目标特征值为目标特征值1:abe12,目标特征值2:abcde,目标特征值3:cde12;然后,确定每个目标特征值与待解析特征值的匹配程度值,简单地,可以根据各个对应位置数据的相同情况来计算匹配程度值,例如目标特征值1中相同位数有4位,则其匹配程度值为4/5=0.8,目标特征值2中相同位数有3位,则匹配程度值为3/5=0.6,目标特征值3中相同位数有2位,则匹配程度值为2/5=0.4。
S209:若匹配程度值大于等于预设程度值,则将目标已解析信息对应的解析过程确定为目标解析过程;目标解析过程用于对待解析信息进行解析。
本申请实施例中,目标已解析信息的匹配程度值大于等于预设程度值,则将该目标已解析信息对应的解析过程确定为目标解析过程,利用该目标解析过程的特定参数对待解析信息进行解析;否则,采取常规信息解析过程作为目标解析过程对待解析信息进行解析;如上文的两个例子中,预设程度值可以是0.8,那么在第一个例子中,句子2对应的解析过程即为目标解析过程;第二个例子中,目标特征值1对应的解析过程即为目标解析过程。如此,通过优化信息解析过程的匹配环节,可以提升资源使用效率及解析过程的准确性,对于第一次上传待解析信息的用户,可以通过搜索是否存在相似的已解析信息,若存在,则将该已解析信息对应的解析过程匹配给该第一次使用的用户,如此,可以提高其待解析信息的解析准确性,提高用户体验,也可以降低人工干预带来的低级错误。
本申请实施例还提供了一种信息解析过程的匹配装置,图6是本申请实施例提供的一种信息解析过程的匹配装置的结构示意图,如图6所示,该装置包括:
第一获取模块601,用于获取待匹配数据;待匹配数据包括待解析信息和待解析信息对应的至少一个第一来源标识;
第二获取模块602,用于获取历史数据集;历史数据集包括多个已解析信息、多个第二来源标识和多个解析过程;多个第二来源标识包括多个已解析信息中任一已解析信息对应的至少一个第二来源标识;多个解析过程包括多个已解析信息中任一已解析信息对应的解析过程记录;
第一确定模块603,用于若从多个第二来源标识中确定存在目标第二来源标识,则从多个已解析信息中确定目标第二来源标识对应的目标已解析信息;目标第二来源标识与至少一个第一来源标识中的第一来源标识相匹配;
第二确定模块604,用于基于待解析信息,确定目标已解析信息的匹配程度值;
第三确定模块605,用于若匹配程度值大于等于预设程度值,则将目标已解析信息对应的解析过程确定为目标解析过程;目标解析过程用于对待解析信息进行解析。
一种可选的实施方式中,至少一个第一来源标识包括第一来源对象标识;多个第二来源标识包括多个第二来源对象标识;
第一确定模块603,还用于若从多个第二来源对象标识中确定存在与第一来源对象标识相匹配的目标第二来源对象标识,则从多个已解析信息中确定出目标第二来源对象标识对应的目标已解析信息。
本申请实施例中的装置与方法实施例基于同样地申请构思。
本申请实施例所提供的方法实施例可以在计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图7是本申请实施例提供的一种信息解析过程的匹配方法的服务器的硬件结构框图。如图7所示,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)710(处理器710可以包括但不限于微处理器NCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器730,一个或一个以上存储应用程序723或数据722的存储介质720(例如一个或一个以上海量存储设备)。其中,存储器730和存储介质720可以是短暂存储或持久存储。存储在存储介质720的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器710可以设置为与存储介质720通信,在服务器700上执行存储介质720中的一系列指令操作。服务器700还可以包括一个或一个以上电源760,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口740,和/或,一个或一个以上操作系统721,例如Windows,Mac OS,Unix,Linux,FreeBSD等等。
输入输出接口740可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器700的通信供应商提供的无线网络。在一个实例中,输入输出接口740包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口740可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器700还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。
本申请的实施例还提供了一种存储介质,所述存储介质可设置于服务器之中以保存用于实现方法实施例中一种信息解析过程的匹配方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述信息解析过程的匹配方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
由上述本申请提供的一种信息解析过程的匹配方法、装置、设备或存储介质的实施例可见,本申请中通过获取待匹配数据;待匹配数据包括待解析信息和待解析信息对应的至少一个第一来源标识;获取历史数据集;历史数据集包括多个已解析信息、多个第二来源标识和多个解析过程;多个第二来源标识包括多个已解析信息中任一已解析信息对应的至少一个第二来源标识;多个解析过程包括多个已解析信息中任一已解析信息对应的解析过程记录;若从多个第二来源标识中确定存在目标第二来源标识,则从多个已解析信息中确定目标第二来源标识对应的目标已解析信息;目标第二来源标识与至少一个第一来源标识中的第一来源标识相匹配;基于待解析信息,确定目标已解析信息的匹配程度值;若匹配程度值大于等于预设程度值,则将目标已解析信息对应的解析过程确定为目标解析过程;目标解析过程用于对待解析信息进行解析。如此,通过优化匹配信息解析过程这个环节,可以灵活化得为每个用户提供合适的信息解析过程,从而可以提升资源使用效率及解析过程的准确性。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (6)
1.一种信息解析过程的匹配方法,其特征在于,包括:
获取待匹配数据;所述待匹配数据包括待解析信息和所述待解析信息对应的至少一个第一来源标识;所述至少一个第一来源标识包括第一来源对象标识和第一来源位置信息;
获取历史数据集;所述历史数据集包括多个已解析信息、多个第二来源标识和多个解析过程;所述多个第二来源标识包括所述多个已解析信息中任一已解析信息对应的至少一个第二来源标识;所述多个解析过程包括所述多个已解析信息中任一已解析信息对应的解析过程记录;所述解析过程记录包括对所述已解析信息进行切分处理时所使用的配置参数;所述多个第二来源标识包括多个第二来源对象标识和多个第二来源位置信息;所述第二来源对象标识表征用户身份信息;所述用户身份信息采用序列号标识,不同用户身份信息的序列号具备唯一性;第二来源位置信息表征用户上传信息时的地理位置;
若从所述多个第二来源对象标识中确定存在与所述第一来源对象标识相匹配的目标第二来源对象标识,则从所述多个已解析信息中确定出所述目标第二来源对象标识对应的目标已解析信息;
若从所述多个第二来源对象标识中确定不存在与所述第一来源对象标识相匹配的目标第二来源对象标识,则从所述多个第二来源位置信息中确定是否存在与所述第一来源位置信息相匹配的目标第二来源位置信息;若确定存在与所述第一来源位置信息相匹配的目标第二来源位置信息,则从所述多个已解析信息中确定出所述目标第二来源位置信息对应的目标已解析信息;
若确定不存在与所述第一来源位置信息相匹配的目标第二来源位置信息,则基于所述第一来源位置信息确定第一来源区域信息;从所述多个第二来源位置信息中确定是否存在与所述第一来源区域信息相匹配的目标第二来源位置信息;若确定存在与所述第一来源区域信息相匹配的目标第二来源位置信息,则从所述多个已解析信息中确定出所述目标第二来源位置信息对应的目标已解析信息;其中,所述第一来源区域信息包括所述第一来源位置信息的周边地域;
基于所述待解析信息,确定所述目标已解析信息的匹配程度值;
若所述匹配程度值大于等于预设程度值,则将所述目标已解析信息对应的解析过程确定为目标解析过程;所述目标解析过程用于对所述待解析信息进行解析,得到所述待解析信息的语义。
2.根据权利要求1所述的方法,其特征在于,所述待解析信息与所述目标已解析信息均为文本文字形式;所述目标已解析信息包括已解析词组集合和所述已解析词组集合中已解析词组对应的已解析语句;
所述基于所述待解析信息,确定所述目标已解析信息的匹配程度值,包括:
对所述待解析信息进行分词处理,得到多个待解析词组;
从所述已解析词组集合中,确定与所述多个待解析词组相匹配的多个目标词组,确定所述多个目标词组对应的多个已解析语句;所述多个已解析语句中每个已解析语句包括若干目标词组;
将所述每个已解析语句中目标词组的数量与所述多个待解析词组的数量的比值,确定为所述每个已解析语句的匹配程度值。
3.根据权利要求1所述的方法,其特征在于,所述待解析信息为文本文字形式;所述目标已解析信息包括已解析特征值集合;
所述基于所述待解析信息,确定所述目标已解析信息的匹配程度值,包括:
对所述待解析信息进行特征提取,得到所述待解析信息对应的待解析特征值;
基于所述待解析特征值,在所述已解析特征值集合中进行模糊匹配,得到多个目标特征值;
确定所述多个目标特征值中每个目标特征值与所述待解析特征值的匹配程度值。
4.一种信息解析过程的匹配装置,其特征在于,包括:
第一获取模块,用于获取待匹配数据;所述待匹配数据包括待解析信息和所述待解析信息对应的至少一个第一来源标识;所述至少一个第一来源标识包括第一来源对象标识和第一来源位置信息;
第二获取模块,用于获取历史数据集;所述历史数据集包括多个已解析信息、多个第二来源标识和多个解析过程;所述多个第二来源标识包括所述多个已解析信息中任一已解析信息对应的至少一个第二来源标识;所述多个解析过程包括所述多个已解析信息中任一已解析信息对应的解析过程记录;所述解析过程记录包括对所述已解析信息进行切分处理时所使用的配置参数;所述多个第二来源标识包括多个第二来源对象标识和多个第二来源位置信息;所述第二来源对象标识表征用户身份信息;所述用户身份信息采用序列号标识,不同用户身份信息的序列号具备唯一性;第二来源位置信息表征用户上传信息时的地理位置;
第一确定模块,用于若从所述多个第二来源对象标识中确定存在与所述第一来源对象标识相匹配的目标第二来源对象标识,则从所述多个已解析信息中确定出所述目标第二来源对象标识对应的目标已解析信息;
所述第一确定模块,还用于若从所述多个第二来源对象标识中确定不存在与所述第一来源对象标识相匹配的目标第二来源对象标识,则从所述多个第二来源位置信息中确定是否存在与所述第一来源位置信息相匹配的目标第二来源位置信息;若确定存在与所述第一来源位置信息相匹配的目标第二来源位置信息,则从所述多个已解析信息中确定出所述目标第二来源位置信息对应的目标已解析信息;
所述第一确定模块,还用于若确定不存在与所述第一来源位置信息相匹配的目标第二来源位置信息,则基于所述第一来源位置信息确定第一来源区域信息;从所述多个第二来源位置信息中确定是否存在与所述第一来源区域信息相匹配的目标第二来源位置信息;若确定存在与所述第一来源区域信息相匹配的目标第二来源位置信息,则从所述多个已解析信息中确定出所述目标第二来源位置信息对应的目标已解析信息;其中,所述第一来源区域信息包括所述第一来源位置信息的周边地域;
第二确定模块,用于基于所述待解析信息,确定所述目标已解析信息的匹配程度值;
第三确定模块,用于若所述匹配程度值大于等于预设程度值,则将所述目标已解析信息对应的解析过程确定为目标解析过程;所述目标解析过程用于对所述待解析信息进行解析,得到所述待解析信息的语义。
5.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行如权利要求1-3任一项所述的信息解析过程的匹配方法。
6.一种计算机存储介质,其特征在于,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-3任一项所述的信息解析过程的匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011529998.6A CN112749543B (zh) | 2020-12-22 | 2020-12-22 | 一种信息解析过程的匹配方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011529998.6A CN112749543B (zh) | 2020-12-22 | 2020-12-22 | 一种信息解析过程的匹配方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112749543A CN112749543A (zh) | 2021-05-04 |
CN112749543B true CN112749543B (zh) | 2022-08-05 |
Family
ID=75648167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011529998.6A Active CN112749543B (zh) | 2020-12-22 | 2020-12-22 | 一种信息解析过程的匹配方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112749543B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114938390A (zh) * | 2022-05-05 | 2022-08-23 | 广东洲明节能科技有限公司 | 设备管理方法、装置、计算机设备和存储介质 |
CN116628451B (zh) * | 2023-05-31 | 2023-11-14 | 江苏华存电子科技有限公司 | 一种待处理信息的高速解析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549656A (zh) * | 2018-03-09 | 2018-09-18 | 北京百度网讯科技有限公司 | 语句解析方法、装置、计算机设备及可读介质 |
CN111860232A (zh) * | 2020-07-03 | 2020-10-30 | Oppo广东移动通信有限公司 | 信息解析方法及装置、设备、存储介质 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699527A (zh) * | 2013-12-20 | 2014-04-02 | 上海合合信息科技发展有限公司 | 图像翻译系统及图像翻译方法 |
CN105407160B (zh) * | 2015-11-27 | 2019-04-23 | 小米科技有限责任公司 | 界面显示方法和装置 |
CN105912532B (zh) * | 2016-04-08 | 2020-11-20 | 华南师范大学 | 基于地理位置信息的语言翻译方法及系统 |
CN107274885B (zh) * | 2017-05-31 | 2020-05-26 | Oppo广东移动通信有限公司 | 语音识别方法及相关产品 |
CN107766511A (zh) * | 2017-10-23 | 2018-03-06 | 深圳市前海众兴电子商务有限公司 | 智能问答方法、终端及存储介质 |
CN107885736A (zh) * | 2017-11-29 | 2018-04-06 | 深圳市沃特沃德股份有限公司 | 翻译方法及装置 |
CN108108288A (zh) * | 2018-01-09 | 2018-06-01 | 北京奇艺世纪科技有限公司 | 一种日志数据解析方法、装置及设备 |
CN109767318A (zh) * | 2018-12-15 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 贷款产品推荐方法、装置、设备及存储介质 |
CN111508482A (zh) * | 2019-01-11 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 语义理解及语音交互方法、装置、设备及存储介质 |
CN111951808B (zh) * | 2019-04-30 | 2023-09-08 | 深圳市优必选科技有限公司 | 语音交互方法、装置、终端设备及介质 |
CN110597951B (zh) * | 2019-08-13 | 2024-01-05 | 平安科技(深圳)有限公司 | 文本解析方法、装置、计算机设备和存储介质 |
CN110717337A (zh) * | 2019-09-29 | 2020-01-21 | 北京声智科技有限公司 | 信息处理方法、装置、计算设备和存储介质 |
CN110544477A (zh) * | 2019-09-29 | 2019-12-06 | 北京声智科技有限公司 | 一种语音识别方法、装置、设备及介质 |
CN110673920A (zh) * | 2019-09-29 | 2020-01-10 | 深圳前海环融联易信息科技服务有限公司 | 国际化处理方法、装置、计算机设备及存储介质 |
CN111142728B (zh) * | 2019-12-26 | 2022-06-03 | 腾讯科技(深圳)有限公司 | 车载环境智能文本处理方法、装置、电子设备及存储介质 |
-
2020
- 2020-12-22 CN CN202011529998.6A patent/CN112749543B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549656A (zh) * | 2018-03-09 | 2018-09-18 | 北京百度网讯科技有限公司 | 语句解析方法、装置、计算机设备及可读介质 |
CN111860232A (zh) * | 2020-07-03 | 2020-10-30 | Oppo广东移动通信有限公司 | 信息解析方法及装置、设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112749543A (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210150142A1 (en) | Method and apparatus for determining feature words and server | |
CN107301170B (zh) | 基于人工智能的切分语句的方法和装置 | |
CN110866093A (zh) | 机器问答方法及装置 | |
CN110968684A (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN112749543B (zh) | 一种信息解析过程的匹配方法、装置、设备及存储介质 | |
CN115328756A (zh) | 一种测试用例生成方法、装置及设备 | |
CN111310440A (zh) | 文本的纠错方法、装置和系统 | |
CN111160191A (zh) | 一种视频关键帧提取方法、装置及存储介质 | |
CN110674365A (zh) | 一种搜索方法、装置、设备及存储介质 | |
CN111813923A (zh) | 文本摘要方法、电子设备及存储介质 | |
JP2019144706A (ja) | 関係性推定モデル学習装置、方法、及びプログラム | |
CN113434631B (zh) | 基于事件的情感分析方法、装置、计算机设备及存储介质 | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
CN117787290A (zh) | 基于知识图谱的绘图提示方法和装置 | |
CN113590771A (zh) | 一种数据挖掘方法、装置、设备及存储介质 | |
CN106407332B (zh) | 基于人工智能的搜索方法和装置 | |
CN112560425A (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN110705258A (zh) | 文本实体识别方法及装置 | |
CN110929526A (zh) | 样本生成方法、装置以及电子设备 | |
CN116069947A (zh) | 一种日志数据事件图谱构建方法、装置、设备及存储介质 | |
CN114997146A (zh) | 一种参数校验方法、装置、设备及存储介质 | |
CN114706841A (zh) | 查询内容库构建方法、装置、电子设备及可读存储介质 | |
CN110502741B (zh) | 中文文本的识别方法及装置 | |
CN112883703A (zh) | 一种识别关联文本的方法、装置、电子设备及存储介质 | |
CN112749540A (zh) | 文本匹配方法、文本匹配模型的训练方法及装置、设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |