CN111881680A - 文本的标准化处理方法、装置、电子设备及计算机介质 - Google Patents

文本的标准化处理方法、装置、电子设备及计算机介质 Download PDF

Info

Publication number
CN111881680A
CN111881680A CN202010773099.4A CN202010773099A CN111881680A CN 111881680 A CN111881680 A CN 111881680A CN 202010773099 A CN202010773099 A CN 202010773099A CN 111881680 A CN111881680 A CN 111881680A
Authority
CN
China
Prior art keywords
text
text component
component
standard
components
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010773099.4A
Other languages
English (en)
Inventor
柯昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yidu Cloud Beijing Technology Co Ltd
Original Assignee
Yidu Cloud Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yidu Cloud Beijing Technology Co Ltd filed Critical Yidu Cloud Beijing Technology Co Ltd
Priority to CN202010773099.4A priority Critical patent/CN111881680A/zh
Publication of CN111881680A publication Critical patent/CN111881680A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本公开涉及一种文本的标准化处理方法、装置、电子设备及计算机可读介质,属于数据处理技术领域。该方法包括:获取待处理的原始文本,并对原始文本进行拆分,得到原始文本中的各个待识别文本成分;获取通过标准文本成分集合预先训练的文本成分识别模型,并通过文本成分识别模型确定待识别文本成分中的第一可识别文本成分和未识别文本成分;对未识别文本成分进行标准化校正;通过文本成分识别模型确定校正后的未识别文本成分中的第二可识别文本成分;根据第一可识别文本成分和第二可识别文本成分得到原始文本的标准化文本。本公开通过将不同的原始文本归一化为统一格式和写法的标准化文本,可以提高文本数据统计和处理的效率。

Description

文本的标准化处理方法、装置、电子设备及计算机介质
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种文本的标准化处理方法、文本的标准化处理装置、电子设备及计算机可读介质。
背景技术
随着新型冠状病毒肺炎疫情在全球的爆发,对于密切接触者的追踪在控制疫情扩散的方面尤为重要,而病人的地理位置信息在追踪其密切接触者的时候则是一项关键数据。
然而,这些收集到的地址文本数据通常不够规范,没有一个统一的格式和写法,很难进行进一步的统计与管理。
鉴于此,本领域亟需一种能够将不同写法的地址文本转换为统一标准化格式的文本的标准化处理方法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种文本的标准化处理方法、文本的标准化处理装置、电子设备及计算机可读介质,进而至少在一定程度上提高文本数据统计和处理的效率。
根据本公开的第一个方面,提供一种文本的标准化处理方法,包括:
获取待处理的原始文本,并对所述原始文本进行拆分,得到所述原始文本中的各个待识别文本成分;
获取通过标准文本成分集合预先训练的文本成分识别模型,并通过所述文本成分识别模型确定所述待识别文本成分中的第一可识别文本成分和未识别文本成分;
对所述未识别文本成分进行标准化校正;
通过所述文本成分识别模型确定校正后的所述未识别文本成分中的第二可识别文本成分;其中,所述第一可识别文本成分和所述第二可识别文本成分属于所述标准文本成分集合;
根据所述第一可识别文本成分和所述第二可识别文本成分,得到所述原始文本的标准化文本。
在本公开的一种示例性实施例中,所述文本成分识别模型的训练过程包括:
获取标准文本集合,并对所述标准文本集合中的各个标准文本进行拆分,得到所述标准文本中的各个标准文本成分;
对所述标准文本成分添加对应的类型标签,并获取各个所述标准文本成分对应的同义文本成分;
根据所述标准文本成分和各个所述标准文本成分对应的同义文本成分,得到所述标准文本成分集合;
根据所述标准文本成分集合中带有所述类型标签的所述标准文本成分和对应的同义文本成分,训练所述文本成分识别模型。
在本公开的一种示例性实施例中,所述通过所述文本成分识别模型确定所述待识别文本成分中的第一可识别文本成分和未识别文本成分,包括:
将所述待识别文本成分添加对应的类型标签后,输入所述文本成分识别模型;
通过所述文本成分识别模型判断所述待识别文本成分是否属于所述标准文本成分集合中的所述类型标签中对应的标准文本成分或同义文本成分;
若所述待识别文本成分属于所述类型标签中对应的标准文本成分或同义文本成分,则将所述待识别文本成分确定为第一可识别文本成分;
若所述待识别文本成分不属于所述类型标签中对应的标准文本成分或同义文本成分,则将所述待识别文本成分确定为未识别文本成分。
在本公开的一种示例性实施例中,在所述通过所述文本成分识别模型确定所述待识别文本成分中的第一可识别文本成分和未识别文本成分之后,所述方法还包括:
若所述第一可识别文本成分为所述同义文本成分,则将所述第一可识别文本成分转换为与所述同义文本成分对应的标准文本成分。
在本公开的一种示例性实施例中,所述对所述未识别文本成分进行标准化校正,包括:
若所述未识别文本成分为错误文本成分,则对所述错误文本成分进行拆分,得到所述错误文本成分的各个子文本成分;
根据所述子文本成分与所述标准文本成分和同义文本成分的相似度,从所述标准文本成分集合中确定与所述错误文本成分对应的正确文本成分;
根据所述正确文本成分对所述错误文本成分进行校正,得到校正后的所述未识别文本成分。
在本公开的一种示例性实施例中,所述对所述未识别文本成分进行标准化校正,包括:
若所述未识别文本成分为缩写文本成分,则根据所述缩写文本成分与所述标准文本成分和同义文本成分进行匹配,从所述标准文本成分集合中确定与所述缩写文本成分对应的完整文本成分;
根据所述完整文本成分对所述缩写文本成分进行校正,得到校正后的所述未识别文本成分。
在本公开的一种示例性实施例中,所述根据所述第一可识别文本成分和所述第二可识别文本成分,得到所述原始文本的标准化文本,包括:
获取所述原始文本的应用需求,并根据所述应用需求从所述第一可识别文本成分和所述第二可识别文本成分中获取目标文本成分;
根据所述目标文本成分按照预设文本顺序得到所述原始文本的标准化文本。
根据本公开的第二方面,提供一种文本的标准化处理装置,包括:
待识别文本获取模块,用于获取待处理的原始文本,并对所述原始文本进行拆分,得到所述原始文本中的各个待识别文本成分;
第一文本识别模块,用于获取通过标准文本成分集合预先训练的文本成分识别模型,并通过所述文本成分识别模型确定所述待识别文本成分中的第一可识别文本成分和未识别文本成分;
未识别文本校正模块,用于对所述未识别文本成分进行标准化校正;
第二文本识别模块,用于通过所述文本成分识别模型确定校正后的所述未识别文本成分中的第二可识别文本成分;其中,所述第一可识别文本成分和所述第二可识别文本成分属于所述标准文本成分集合;
标准化文本确定模块,用于根据所述第一可识别文本成分和所述第二可识别文本成分,得到所述原始文本的标准化文本。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的文本的标准化处理方法。
根据本公开的第四方面,提供一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的文本的标准化处理方法。
本公开示例性实施例可以具有以下有益效果:
本公开示例实施方式的文本的标准化处理方法中,通过预先训练的文本成分识别模型识别出原始文本中的各个文本成分,并对其中未识别出的文本成分进行校正后再次进行识别,可以将包含不同文本成分的原始文本归一化为统一格式和写法的标准化文本,在后续对上述文本进行处理或使用时,可以进一步提高文本数据统计和管理的效率,避免由于原始文本的不规范而导致的文本数据统计不全、管理不便等问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本公开示例实施方式的文本的标准化处理方法的流程示意图;
图2示出了本公开示例实施方式的文本成分识别模型的训练过程的流程示意图;
图3示出了本公开示例实施方式的通过文本成分识别模型识别待识别文本成分的流程示意图;
图4示出了本公开示例实施方式的对错误文本成分进行标准化校正的流程示意图;
图5示出了本公开示例实施方式的对缩写文本成分进行标准化校正的流程示意图;
图6示出了本公开示例实施方式的文本的标准化处理装置的框图;
图7示出了适于用来实现本公开实施方式的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施方式首先提供了一种文本的标准化处理方法。参考图1所示,上述文本的标准化处理方法可以包括以下步骤:
步骤S110.获取待处理的原始文本,并对原始文本进行拆分,得到原始文本中的各个待识别文本成分。
步骤S120.获取通过标准文本成分集合预先训练的文本成分识别模型,并通过文本成分识别模型确定待识别文本成分中的第一可识别文本成分和未识别文本成分。
步骤S130.对未识别文本成分进行标准化校正。
步骤S140.通过文本成分识别模型确定校正后的未识别文本成分中的第二可识别文本成分;其中,第一可识别文本成分和第二可识别文本成分属于标准文本成分集合。
步骤S150.根据第一可识别文本成分和第二可识别文本成分,得到原始文本的标准化文本。
本示例实施方式中的一种文本的标准化处理方法,可以应用于各种外文地址的标准化处理,例如英文、马来文等多种语言形式的地址文本数据的标准化处理。
由于新型冠状病毒肺炎疫情在全球的爆发,各国政府开始建立针对于新冠疫情的医疗系统,尤其是疫情实时监测系统的建设尤为重要。其中,对于患病人员的密切接触者的追踪在疫情的扩散控制方面起到了关键性作用,而病人多方面的地理位置信息,如家庭住址、工作地址等,在追踪其密切接触者的时候则是一项关键数据。
一般情况下,这些收集到的地址文本数据通常不够规范,同一个地址可能会有很多种不同的写法,很难进行统计与管理。所以,需要对这些地址文本进行归一化处理,将这些不同写法的地址文本归一化成统一的标准化文本,这样一来,再进行密切接触者追踪时就不会因为地址的不规范而导致追踪数据不完全的情况。
对于中文地址的标准化方法来说,一般可以基于国内行政区划地址标准表,来进行地址文本的标准化。而对于各种西文地址来说,其标准化处理方法与中文地址的标准化方法不同。一方面,中文文本在处理之前一般都要进行分词处理,而英文等西文文本在处理之前需要进行一些如词干化等方法的预处理过程。另一方面,在标准化方法的具体步骤上,西文文本与中文文本相比会存在一些策略上的不同,例如:在通过标准行政区划地址文本生成概率数据模型时,需要结合英文的书写习惯进行一些同义和转换;原始地址文本的处理需要通过一些英文单词或词组粒度的归一词典进行预处理;对于英文与数字混合的文本成分的处理,以及缩写处理等,都有与中文文本处理不同的策略方法。本示例实施方式中,仅以马来文与英文的原始地址信息文本的标准化处理为例,进行本公开具体实施方式的说明,该方法对于其他语言种类的西文文本来说同样适用。
本公开示例实施方式的文本的标准化处理方法中,通过预先训练的文本成分识别模型识别出原始文本中的各个文本成分,并对其中未识别出的文本成分进行校正后再次进行识别,可以将包含不同文本成分的原始文本归一化为统一格式和写法的标准化文本,在后续对上述文本进行处理或使用时,可以进一步提高文本数据统计和管理的效率,避免由于原始文本的不规范而导致的文本数据统计不全、管理不便等问题。
下面,结合图2至图5对本示例实施方式的上述步骤进行更加详细的说明。
本示例实施方式中,在进行文本标准化的步骤之前,首先需要通过标准文本成分集合预先训练文本成分识别模型。如果是对地址文本进行处理,则利用已知的行政区划标准地址的标准术语集得到标准地址成分集合,再生成用于识别标准地址成分的数据模型。如图2所示,文本成分识别模型的训练过程具体可以包括以下几个步骤:
步骤S210.获取标准文本集合,并对标准文本集合中的各个标准文本进行拆分,得到标准文本中的各个标准文本成分。
标准文本集合,指的是由各个具有标准格式和标准写法的文本所构成的集合,通过标准文本集合所训练的文本成分识别模型,能够识别出原始文本中格式和写法标准的文本成分。
如果存在已知的标准文本集合,则只需要进行一些常用的文本预处理,如大小写转换、标点符号处理等,即可进入后续步骤。如果没有标准文本集合,只有较为标准的文本集合,则除了上述文本预处理之外,还需要进行一些成分拆分等步骤,以得到标准文本集合。
得到标准文本集合之后,对其中的文本数据进行拆分,即可得到对应的各个标准文本成分。在英文或马来文中,一般是对标准文本集合的文本数据进行单词或词组维度的拆分,得到对应的标准文本成分。
步骤S220.对标准文本成分添加对应的类型标签,并获取各个标准文本成分对应的同义文本成分。
除标准文本成分以外,还需要对标准文本成分进行同义词、同义词组的转换,建立一些同义词转换词典,得到各个标准文本成分对应的同义文本成分。另外,对不同的标准文本成分添加对应的类型标签,例如,某国的行政区划标准地址主要有:县、区、乡、街道,以及岛屿名、建筑名,则根据这些区域划分对标准文本成分进行标识。
步骤S230.根据标准文本成分和各个标准文本成分对应的同义文本成分,得到标准文本成分集合。
将所有的标准文本成分以及与其对应的各个同义文本成分共同放入标准文本成分集合中,作为模型训练的训练数据。
步骤S240.根据标准文本成分集合中带有类型标签的标准文本成分和对应的同义文本成分,训练文本成分识别模型。
建立可以用于识别文本成分的数据模型,如trie树数据模型(即前缀树数据模型,是一种用于文本成分识别方法的数据模型)等,并通过上述带有类型标签的训练数据对该模型进行训练,得到训练好的文本成分识别模型,用于后续原始文本成分的识别。
通过上述步骤训练文本成分识别模型后,就可以将训练好的文本成分识别模型应用于本示例实施方式图1中的文本的标准化处理方法中,该方法的详细说明如下:
在步骤S110中,获取待处理的原始文本,并对原始文本进行拆分,得到原始文本中的各个待识别文本成分。
待处理的原始文本指的是从各处直接获取的格式、写法等不统一的,或者存在一些拼写错误的文本数据,由于这样的文本数据会在后续统计与管理的过程中造成很大不便,因此,需要对其进行标准化处理。
本示例实施方式中,首先获取待处理的原始文本,并对原始文本进行单词或词组维度的拆分,得到原始文本中的各个待识别文本成分。然后通过一些前置预处理的策略对待识别文本成分中的一些内容进行转换,比如对字母编号等内容识别后对其进行类型的设置,以及单词同义词的转换等。
在步骤S120中,获取通过标准文本成分集合预先训练的文本成分识别模型,并通过文本成分识别模型确定待识别文本成分中的第一可识别文本成分和未识别文本成分。
获取上述预先训练好的文本成分识别模型,并通过该模型对原始文本中的各个待识别文本成分进行识别,判断各个待识别文本成分是否在标准文本成分集合中。其中,第一可识别文本成分属于标准文本成分集合,未识别文本成分不属于标准文本成分集合。
本示例实施方式中,如图3所示,通过文本成分识别模型确定待识别文本成分中的第一可识别文本成分和未识别文本成分,具体可以包括以下几个步骤:
步骤S310.将待识别文本成分添加对应的类型标签后,输入文本成分识别模型。
将原始文本中的各个待识别文本成分输入文本成分识别模型之前,需要标示出各个待识别文本成分的类型标签。
步骤S320.通过文本成分识别模型判断待识别文本成分是否属于标准文本成分集合中的类型标签中对应的标准文本成分或同义文本成分。
例如,待识别文本成分是一个县名,则通过该文本成分识别模型判断在县名的类型标签中,是否能够匹配到与待识别文本成分对应的标准文本成分或同义文本成分。
步骤S330.若待识别文本成分属于类型标签中对应的标准文本成分或同义文本成分,则将待识别文本成分确定为第一可识别文本成分。
若能够匹配到对应的标准文本成分或同义文本成分,则说明该待识别文本成分属于标准文本成分集合中,将其确定为第一可识别文本成分。其中,第一可识别文本成分指的是不需要通过纠错或规范化等步骤,就可以直接识别出的待识别文本成分。
步骤S340.若待识别文本成分不属于类型标签中对应的标准文本成分或同义文本成分,则将待识别文本成分确定为未识别文本成分。
若不能匹配到对应的标准文本成分或同义文本成分,则说明该待识别文本成分不属于标准文本成分集合中,将其确定为未识别文本成分,需要进行处理后再次识别。
在通过文本成分识别模型确定待识别文本成分中的第一可识别文本成分和未识别文本成分之后还可以包括:
若第一可识别文本成分为同义文本成分,则将第一可识别文本成分转换为与同义文本成分对应的标准文本成分。
如果第一可识别文本成分为同义文本成分,则需要将其转换为统一的标准文本成分,方便后续处理。
在步骤S130中,对未识别文本成分进行标准化校正。
有些未识别的文本成分,可能是由于拼写错误或者缩写简写导致的,所以需要通过纠正和标准化模块进行处理,然后再次进行识别和后续策略处理。
未识别文本成分可以包括错误文本成分、缩写文本成分以及不需要的文本成分。对于错误文本成分和缩写文本成分,可以通过一些方法进行标准化校正,修正为可以通过文本成分识别模型识别的文本成分;而对于原始文本中不需要的文本成分,在识别结束之后进行舍弃即可。
例如,在英文地址文本成分的识别中,对于不在标准地址集合中的文本成分,如专有地名、街区编号、楼栋编号、楼层、邮编等进行识别处理时,其中,街区编号、楼栋编号具有相同的模式,一般是由NO.、UNIT、BLOCK等固定词之后接编号组成,这类地址文本成分虽然不在标准地址集合中,但也是有意义的,需要保留下来;还有些专有地名也不在标准地址集合中,有可能是某个地方的别名或建筑物名称,又或者标准地址集合中没有收录,这类地址文本成分也是有意义,需要保留的;另外,还有一些楼层和邮编的处理则依据地址文本的组成特点进行策略定制,识别出来后可以作为地址的成分,但是后续使用时一般不需要。
本示例实施方式中,如图4所示,对于错误文本成分进行标准化校正,具体可以包括以下几个步骤:
步骤S410.若未识别文本成分为错误文本成分,则对错误文本成分进行拆分,得到错误文本成分的各个子文本成分。
对于错误文本成分的纠正,首先将错误文本成分进行多重粒度的拆分,得到错误文本成分的各个子文本成分。例如,某一错误单词为LUMAT,则将其拆分为LUM、UMA、MAT、LU等不同细粒度的子文本成分。
步骤S420.根据子文本成分与标准文本成分和同义文本成分的相似度,从标准文本成分集合中确定与错误文本成分对应的正确文本成分。
将拆分后得到的各个子文本成分与标准文本成分和同义文本成分之间建立索引关系,并通过召回过滤、打分排序、上下文验证等步骤,从标准文本成分集合中确定与错误文本成分对应的正确文本成分。
步骤S430.根据正确文本成分对错误文本成分进行校正,得到校正后的未识别文本成分。
确定正确文本成分后,根据正确文本成分对错误文本成分进行校正,再将校正后的错误文本成分通过文本成分识别模型再次进行识别。
本示例实施方式中,如图5所示,对于缩写文本成分进行标准化校正,具体可以包括以下几个步骤:
步骤S510.若未识别文本成分为缩写文本成分,则根据缩写文本成分与标准文本成分和同义文本成分进行匹配,从标准文本成分集合中确定与缩写文本成分对应的完整文本成分。
对于缩写文本成分的校正,首先与标准文本成分集合中的标准文本成分和同义文本成分进行匹配,查找具有共同成分的标准文本成分或同义文本成分,再通过统计与验证等步骤,从其中筛选出与缩写文本成分对应的完整文本成分。
步骤S520.根据完整文本成分对缩写文本成分进行校正,得到校正后的未识别文本成分。
确定完整文本成分后,根据完整文本成分对缩写文本成分进行校正,再将校正后的缩写文本成分通过文本成分识别模型再次进行识别。
在步骤S140中,通过文本成分识别模型确定校正后的未识别文本成分中的第二可识别文本成分。
通过上述步骤将未识别文本成分中的错误文本成分和缩写文本成分进行校正之后,通过文本成分识别模型对校正后的未识别文本成分再次进行识别,找出其中的第二可识别文本成分,模型识别的具体操作步骤与图3中的步骤完全相同,此处不再赘述。其中,第二可识别文本成分与第一可识别文本成分类似,也属于标准文本成分集合中,可能为标准文本成分或同义文本成分。若第二可识别文本成分为同义文本成分,同样也需要将其转换为对应的标准文本成分。
在步骤S150中,根据第一可识别文本成分和第二可识别文本成分,得到原始文本的标准化文本。
本示例实施方式中,通过获取原始文本的应用需求,并根据应用需求从第一可识别文本成分和第二可识别文本成分中获取目标文本成分,再根据目标文本成分按照预设文本顺序得到原始文本的标准化文本。
对于地址文本来说,一般情况下的预设文本顺序是按照地名从小到大的顺序进行排列的。最终输出的各个地址文本成分的结构化数据,既包含了标准的地址成分,也可能含有楼栋编号、楼层、专有地名等地址成分。后续应用中,可以根据不同的需求,从中选取所需的成分,作为原始地址文本的归一化结果。
例如,某一地址的原始文本为“NO:8SPG 286-30-123RPN KAMPONG LUMUT BELAITKC3135 BRUNEI DARUSSALAM”,通过本示例实施方式的上述步骤进行标准化之后,得到的结果为“NO.8,SPG 286-30-123,RPN KAMPONG,KG LUMUT,BL”,其中“SPG 286-30-123”为街道名,“KG LUMUT”为乡村名,“BL”为县名(BELAIT),“NO.8”为楼栋编号,“RPN KAMPONG”为专有地名,在标准地址集合中没有收录。另外,“KC3135”为邮编,“BRUNEI DARUSSALAM”为国家名,不需要出现在标准化地址中,因此可以不需要保留。
应当注意,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本公开还提供了一种文本的标准化处理装置。参考图6所示,该文本的标准化处理装置可以包括待识别文本获取模块610、第一文本识别模块620、未识别文本校正模块630、第二文本识别模块640以及标准化文本确定模块650。其中:
待识别文本获取模块610可以用于获取待处理的原始文本,并对原始文本进行拆分,得到原始文本中的各个待识别文本成分;
第一文本识别模块620可以用于获取通过标准文本成分集合预先训练的文本成分识别模型,并通过文本成分识别模型确定待识别文本成分中的第一可识别文本成分和未识别文本成分;
未识别文本校正模块630可以用于对未识别文本成分进行标准化校正;
第二文本识别模块640可以用于通过文本成分识别模型确定校正后的未识别文本成分中的第二可识别文本成分;其中,第一可识别文本成分和第二可识别文本成分属于标准文本成分集合;
标准化文本确定模块650可以用于根据第一可识别文本成分和第二可识别文本成分,得到原始文本的标准化文本。
在本公开的一些示例性实施例中,本公开提供的一种文本的标准化处理装置还可以包括识别模型训练模块,该识别模型训练模块可以包括标准文本拆分单元、同义文本获取单元、标准文本成分集合确定单元以及识别模型训练单元。其中:
标准文本拆分单元可以用于获取标准文本集合,并对标准文本集合中的各个标准文本进行拆分,得到标准文本中的各个标准文本成分;
同义文本获取单元可以用于对标准文本成分添加对应的类型标签,并获取各个标准文本成分对应的同义文本成分;
标准文本成分集合确定单元可以用于根据标准文本成分和各个标准文本成分对应的同义文本成分,得到标准文本成分集合;
识别模型训练单元可以用于根据标准文本成分集合中带有类型标签的标准文本成分和对应的同义文本成分,训练文本成分识别模型。
在本公开的一些示例性实施例中,第一文本识别模块620可以包括类型标签添加单元、文本成分判断单元、第一可识别文本成分确定单元以及未识别文本成分确定单元。其中:
类型标签添加单元可以用于将待识别文本成分添加对应的类型标签后,输入文本成分识别模型;
文本成分判断单元可以用于通过文本成分识别模型判断待识别文本成分是否属于标准文本成分集合中的类型标签中对应的标准文本成分或同义文本成分;
第一可识别文本成分确定单元可以用于若待识别文本成分属于类型标签中对应的标准文本成分或同义文本成分,则将待识别文本成分确定为第一可识别文本成分;
未识别文本成分确定单元可以用于若待识别文本成分不属于类型标签中对应的标准文本成分或同义文本成分,则将待识别文本成分确定为未识别文本成分。
在本公开的一些示例性实施例中,第一文本识别模块620还可以包括同义文本成分转换单元,可以用于若第一可识别文本成分为同义文本成分,则将第一可识别文本成分转换为与同义文本成分对应的标准文本成分。
在本公开的一些示例性实施例中,未识别文本校正模块630可以包括错误文本成分拆分单元、正确文本成分确定单元以及错误文本成分校正单元。其中:
错误文本成分拆分单元可以用于若所述未识别文本成分为错误文本成分,则对所述错误文本成分进行拆分,得到所述错误文本成分的各个子文本成分;
正确文本成分确定单元可以用于根据所述子文本成分与所述标准文本成分和同义文本成分的相似度,从所述标准文本成分集合中确定与所述错误文本成分对应的正确文本成分;
错误文本成分校正单元可以用于根据正确文本成分对错误文本成分进行校正,得到校正后的未识别文本成分。
在本公开的一些示例性实施例中,未识别文本校正模块630还可以包括完整文本成分确定单元以及缩写文本成分校正单元。其中:
完整文本成分确定单元可以用于若未识别文本成分为缩写文本成分,则根据缩写文本成分与标准文本成分和同义文本成分进行匹配,从标准文本成分集合中确定与缩写文本成分对应的完整文本成分;
缩写文本成分校正单元可以用于根据完整文本成分对缩写文本成分进行校正,得到校正后的未识别文本成分。
在本公开的一些示例性实施例中,标准化文本确定模块650可以包括目标文本成分获取单元以及标准化文本确定单元。其中:
目标文本成分获取单元可以用于获取原始文本的应用需求,并根据应用需求从第一可识别文本成分和第二可识别文本成分中获取目标文本成分;
标准化文本确定单元可以用于根据目标文本成分按照预设文本顺序得到原始文本的标准化文本。
上述文本的标准化处理装置中各模块/单元的具体细节在相应的方法实施例部分已有详细的说明,此处不再赘述。
图7示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图7示出的电子设备的计算机系统700仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的各种功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之,上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种文本的标准化处理方法,其特征在于,包括:
获取待处理的原始文本,并对所述原始文本进行拆分,得到所述原始文本中的各个待识别文本成分;
获取通过标准文本成分集合预先训练的文本成分识别模型,并通过所述文本成分识别模型确定所述待识别文本成分中的第一可识别文本成分和未识别文本成分;
对所述未识别文本成分进行标准化校正;
通过所述文本成分识别模型确定校正后的所述未识别文本成分中的第二可识别文本成分;其中,所述第一可识别文本成分和所述第二可识别文本成分属于所述标准文本成分集合;
根据所述第一可识别文本成分和所述第二可识别文本成分,得到所述原始文本的标准化文本。
2.根据权利要求1所述的文本的标准化处理方法,其特征在于,所述文本成分识别模型的训练过程包括:
获取标准文本集合,并对所述标准文本集合中的各个标准文本进行拆分,得到所述标准文本中的各个标准文本成分;
对所述标准文本成分添加对应的类型标签,并获取各个所述标准文本成分对应的同义文本成分;
根据所述标准文本成分和各个所述标准文本成分对应的同义文本成分,得到所述标准文本成分集合;
根据所述标准文本成分集合中带有所述类型标签的所述标准文本成分和对应的同义文本成分,训练所述文本成分识别模型。
3.根据权利要求1所述的文本的标准化处理方法,其特征在于,所述通过所述文本成分识别模型确定所述待识别文本成分中的第一可识别文本成分和未识别文本成分,包括:
将所述待识别文本成分添加对应的类型标签后,输入所述文本成分识别模型;
通过所述文本成分识别模型判断所述待识别文本成分是否属于所述标准文本成分集合中的所述类型标签中对应的标准文本成分或同义文本成分;
若所述待识别文本成分属于所述类型标签中对应的标准文本成分或同义文本成分,则将所述待识别文本成分确定为第一可识别文本成分;
若所述待识别文本成分不属于所述类型标签中对应的标准文本成分或同义文本成分,则将所述待识别文本成分确定为未识别文本成分。
4.根据权利要求3所述的文本的标准化处理方法,其特征在于,在所述通过所述文本成分识别模型确定所述待识别文本成分中的第一可识别文本成分和未识别文本成分之后,所述方法还包括:
若所述第一可识别文本成分为所述同义文本成分,则将所述第一可识别文本成分转换为与所述同义文本成分对应的标准文本成分。
5.根据权利要求1所述的文本的标准化处理方法,其特征在于,所述对所述未识别文本成分进行标准化校正,包括:
若所述未识别文本成分为错误文本成分,则对所述错误文本成分进行拆分,得到所述错误文本成分的各个子文本成分;
根据所述子文本成分与所述标准文本成分和同义文本成分的相似度,从所述标准文本成分集合中确定与所述错误文本成分对应的正确文本成分;
根据所述正确文本成分对所述错误文本成分进行校正,得到校正后的所述未识别文本成分。
6.根据权利要求1所述的文本的标准化处理方法,其特征在于,所述对所述未识别文本成分进行标准化校正,包括:
若所述未识别文本成分为缩写文本成分,则根据所述缩写文本成分与所述标准文本成分和同义文本成分进行匹配,从所述标准文本成分集合中确定与所述缩写文本成分对应的完整文本成分;
根据所述完整文本成分对所述缩写文本成分进行校正,得到校正后的所述未识别文本成分。
7.根据权利要求1所述的文本的标准化处理方法,其特征在于,所述根据所述第一可识别文本成分和所述第二可识别文本成分,得到所述原始文本的标准化文本,包括:
获取所述原始文本的应用需求,并根据所述应用需求从所述第一可识别文本成分和所述第二可识别文本成分中获取目标文本成分;
根据所述目标文本成分按照预设文本顺序得到所述原始文本的标准化文本。
8.一种文本的标准化处理装置,其特征在于,包括:
待识别文本获取模块,用于获取待处理的原始文本,并对所述原始文本进行拆分,得到所述原始文本中的各个待识别文本成分;
第一文本识别模块,用于获取通过标准文本成分集合预先训练的文本成分识别模型,并通过所述文本成分识别模型确定所述待识别文本成分中的第一可识别文本成分和未识别文本成分;
未识别文本校正模块,用于对所述未识别文本成分进行标准化校正;
第二文本识别模块,用于通过所述文本成分识别模型确定校正后的所述未识别文本成分中的第二可识别文本成分;其中,所述第一可识别文本成分和所述第二可识别文本成分属于所述标准文本成分集合;
标准化文本确定模块,用于根据所述第一可识别文本成分和所述第二可识别文本成分,得到所述原始文本的标准化文本。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的文本的标准化处理方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至7中任一项所述的文本的标准化处理方法。
CN202010773099.4A 2020-08-04 2020-08-04 文本的标准化处理方法、装置、电子设备及计算机介质 Pending CN111881680A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010773099.4A CN111881680A (zh) 2020-08-04 2020-08-04 文本的标准化处理方法、装置、电子设备及计算机介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010773099.4A CN111881680A (zh) 2020-08-04 2020-08-04 文本的标准化处理方法、装置、电子设备及计算机介质

Publications (1)

Publication Number Publication Date
CN111881680A true CN111881680A (zh) 2020-11-03

Family

ID=73211590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010773099.4A Pending CN111881680A (zh) 2020-08-04 2020-08-04 文本的标准化处理方法、装置、电子设备及计算机介质

Country Status (1)

Country Link
CN (1) CN111881680A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022142703A1 (zh) * 2020-12-29 2022-07-07 医渡云(北京)技术有限公司 文本的标准化处理方法、装置、电子设备及计算机介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
WO2017097166A1 (zh) * 2015-12-11 2017-06-15 北京国双科技有限公司 识别领域命名实体的方法及装置
CN109815498A (zh) * 2019-01-25 2019-05-28 深圳市小赢信息技术有限责任公司 一种中文地址标准化方法、装置及电子设备
CN110502754A (zh) * 2019-08-26 2019-11-26 腾讯科技(深圳)有限公司 文本处理方法和装置
CN110895651A (zh) * 2018-08-23 2020-03-20 北京京东金融科技控股有限公司 地址标准化处理方法、装置、设备及计算机可读存储介质
CN111209740A (zh) * 2019-12-31 2020-05-29 中移(杭州)信息技术有限公司 文本模型训练方法、文本纠错方法、电子设备及存储介质
CN111310440A (zh) * 2018-11-27 2020-06-19 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111460827A (zh) * 2020-04-01 2020-07-28 北京爱咔咔信息技术有限公司 文本信息处理方法、系统、设备及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224622A (zh) * 2015-09-22 2016-01-06 中国搜索信息科技股份有限公司 面向互联网的地名地址提取与标准化方法
WO2017097166A1 (zh) * 2015-12-11 2017-06-15 北京国双科技有限公司 识别领域命名实体的方法及装置
CN110895651A (zh) * 2018-08-23 2020-03-20 北京京东金融科技控股有限公司 地址标准化处理方法、装置、设备及计算机可读存储介质
CN111310440A (zh) * 2018-11-27 2020-06-19 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN109815498A (zh) * 2019-01-25 2019-05-28 深圳市小赢信息技术有限责任公司 一种中文地址标准化方法、装置及电子设备
CN110502754A (zh) * 2019-08-26 2019-11-26 腾讯科技(深圳)有限公司 文本处理方法和装置
CN111209740A (zh) * 2019-12-31 2020-05-29 中移(杭州)信息技术有限公司 文本模型训练方法、文本纠错方法、电子设备及存储介质
CN111460827A (zh) * 2020-04-01 2020-07-28 北京爱咔咔信息技术有限公司 文本信息处理方法、系统、设备及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022142703A1 (zh) * 2020-12-29 2022-07-07 医渡云(北京)技术有限公司 文本的标准化处理方法、装置、电子设备及计算机介质

Similar Documents

Publication Publication Date Title
US10657325B2 (en) Method for parsing query based on artificial intelligence and computer device
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN107291783B (zh) 一种语义匹配方法及智能设备
CN108959257B (zh) 一种自然语言解析方法、装置、服务器及存储介质
CN109522552B (zh) 一种医疗信息的归一化方法、装置、介质及电子设备
CN104503998B (zh) 针对用户查询句的类型识别方法及装置
CN106528535B (zh) 一种基于编码和机器学习的多语种识别方法
CN114757176B (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN113312461A (zh) 基于自然语言处理的智能问答方法、装置、设备及介质
CN111597800B (zh) 同义句的获取方法及装置、设备及存储介质
CN110543637A (zh) 一种中文分词方法及装置
CN112395392A (zh) 一种意图识别方法及装置、可读存储介质
CN112307172A (zh) 一种语义解析设备、方法、终端及存储介质
CN111626042A (zh) 指代消解方法及装置
CN111737424A (zh) 一种问题的匹配方法、装置、设备及存储介质
CN111881680A (zh) 文本的标准化处理方法、装置、电子设备及计算机介质
CN112581297B (zh) 基于人工智能的信息推送方法、装置及计算机设备
CN113157887A (zh) 知识问答意图识别方法、装置、及计算机设备
CN113705207A (zh) 语法错误识别方法及装置
CN116501846A (zh) 开放式对话方法、装置、电子设备及介质
CN115455922B (zh) 表单校验方法、装置、电子设备和存储介质
CN110929514A (zh) 文本校对方法、装置、计算机可读存储介质及电子设备
CN114492396A (zh) 用于汽车专有名词的文本错误纠正方法及可读存储介质
CN114186020A (zh) 一种语义联想方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination