CN112668341A - 文本正则化方法、装置、设备和可读存储介质 - Google Patents

文本正则化方法、装置、设备和可读存储介质 Download PDF

Info

Publication number
CN112668341A
CN112668341A CN202110024630.2A CN202110024630A CN112668341A CN 112668341 A CN112668341 A CN 112668341A CN 202110024630 A CN202110024630 A CN 202110024630A CN 112668341 A CN112668341 A CN 112668341A
Authority
CN
China
Prior art keywords
text
word
classification
recognized
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110024630.2A
Other languages
English (en)
Other versions
CN112668341B (zh
Inventor
谢泽颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202110024630.2A priority Critical patent/CN112668341B/zh
Priority claimed from CN202110024630.2A external-priority patent/CN112668341B/zh
Publication of CN112668341A publication Critical patent/CN112668341A/zh
Application granted granted Critical
Publication of CN112668341B publication Critical patent/CN112668341B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种文本正则化方法、装置、设备和可读存储介质,所述文本正则化方法包括:获取待识别文本,并基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果,进而基于所述分类识别结果,对所述待识别文本进行文本正则化,获得文本正则化结果。本申请解决了文本正则化准确度低的技术问题。

Description

文本正则化方法、装置、设备和可读存储介质
技术领域
本申请涉及金融科技(Fintech)的人工智能领域,尤其涉及一种文本正则化方法、装置、设备和可读存储介质。
背景技术
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链Blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,机器学习的应用领域也越来越广泛,目前,在进行中文语音合成时,日期、货币和电话号码等非标准词通常需要进行文本正则化转化为可读的标准词,例如,“110年”需转化为“一百一十年”,“拨打110”需转为“拨打幺幺零”等,目前,通常通过正则表达式或有限状态机对非标准词进行匹配,以实现对文本的文本正则化,但是,由于非标准词的种类复杂多样且通常存在多种含义,进而通常通过正则表达式或有限状态机对非标准词进行匹配的准确度通常较低,进而导致文本正则化的准确度较低。
发明内容
本申请的主要目的在于提供一种文本正则化方法、装置、设备和可读存储介质,旨在解决现有技术中文本正则化准确度低的技术问题。
为实现上述目的,本申请提供一种文本正则化方法,所述文本正则化方法应用于文本正则化设备,所述文本正则化方法包括:
获取待识别文本,并基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果;
基于所述分类识别结果,对所述待识别文本进行文本正则化,获得文本正则化结果。
可选地,所述基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果的步骤包括:
对所述待识别文本进行特征编码,获得文本特征编码数据;
将所述文本特征编码数据输入预设词分类模型,以基于所述文本语义特征信息,对各所述待识别词进行分类,获得分类结果;
基于所述分类结果,识别所述待识别文本中的各目标非标准词和确定各所述目标非标准词对应的目标非标准词类别,获得所述分类识别结果。
可选地,所述预设词分类模型包括特征提取层和分类层,
所述将所述文本特征编码数据输入预设词分类模型,以基于所述文本语义特征信息,对各所述待识别词进行分类,获得分类结果的步骤包括:
将所述文本特征编码数据输入所述特征提取层,对所述文本特征编码数据进行特征提取,获得所述文本语义特征信息;
将所述文本语义特征信息输入所述分类层,将所述文本语义特征信息中各文本语义词向量表示分别映射为对应的分类概率向量,获得所述分类结果。
可选地,所述分类结果至少包括一个所述待识别词对应的分类概率向量,
所述基于所述分类结果,识别所述待识别文本中的各目标非标准词和确定各所述目标非标准词对应的目标非标准词类别,获得所述分类识别结果的步骤包括:
基于各所述分类概率向量,分别确定各所述待识别词的词分类标签;
基于各所述词分类标签,在各所述待识别词中确定各所述目标非标准词和各所述目标非标准词对应的目标非标准词类别。
可选地,所述基于所述分类识别结果,对所述待识别文本进行文本正则化,获得文本正则化结果的步骤包括:
基于所述分类识别结果,确定所述待识别文本中各目标非标准词对应的目标非标准词类别;
依据各所述目标非标准词类别,分别为各所述目标非标准词匹配对应的预设正则化规则;
依据各所述预设正则化规则,分别对所述待识别文本中各所述目标非标准词进行正则化,获得所述文本正则化结果。
可选地,在所述将所述文本特征编码数据输入预设词分类模型,以基于所述文本语义特征信息,对各所述待识别词进行分类,获得分类结果的步骤之前,所述文本正则化方法还包括:
获取训练文本和所述训练文本对应的预设文本类别标签;
将所述训练文本输入预设待训练词分类模型,以基于所述训练文本的语义信息,对所述训练文本中各目标词进行分类,获得各所述目标词对应的分类标签共同对应的输出文本类别标签;
基于所述预设文本类别标签和所述输出文本类别标签,计算模型误差;
基于所述模型误差,对所述预设待训练词分类模型进行更新,并判断更新后的所述预设待训练词分类模型是否满足预设训练结束条件;
若否,则返回获取训练文本和所述训练文本对应的预设文本类别标签的步骤,直至更新后的所述预设待训练词分类模型满足所述预设训练结束条件;
若是,则将所述预设待训练词分类模型作为所述预设词分类模型。
可选地,所述获取训练文本和所述训练文本对应的预设文本类别标签的步骤包括:
获取训练文本和预设非标准词类别体系;
基于所述预设非标准词类别体系,对所述训练文本中各非标准词进行标签标注,获得各所述非标准词对应的标注标签;
基于所述训练文本中各标准词的词标签和各所述标注标签,生成所述预设文本类别标签。
本申请还提供一种文本正则化装置,所述文本正则化装置为虚拟装置,且所述文本正则化装置应用于文本正则化设备,所述文本正则化装置包括:
分类识别模块,用于获取待识别文本,并基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果;
正则化模块,用于基于所述分类识别结果,对所述待识别文本进行文本正则化,获得文本正则化结果。
可选地,所述分类识别模块还用于:
对所述待识别文本进行特征编码,获得文本特征编码数据;
将所述文本特征编码数据输入预设词分类模型,以基于所述文本语义特征信息,对各所述待识别词进行分类,获得分类结果;
基于所述分类结果,识别所述待识别文本中的各目标非标准词和确定各所述目标非标准词对应的目标非标准词类别,获得所述分类识别结果。
可选地,所述分类识别模块还用于:
将所述文本特征编码数据输入所述特征提取层,对所述文本特征编码数据进行特征提取,获得所述文本语义特征信息;
将所述文本语义特征信息输入所述分类层,将所述文本语义特征信息中各文本语义词向量表示分别映射为对应的分类概率向量,获得所述分类结果。
可选地,所述分类识别模块还用于:
基于各所述分类概率向量,分别确定各所述待识别词的词分类标签;
基于各所述词分类标签,在各所述待识别词中确定各所述目标非标准词和各所述目标非标准词对应的目标非标准词类别。
可选地,所述正则化模块还用于:
基于所述分类识别结果,确定所述待识别文本中各目标非标准词对应的目标非标准词类别;
依据各所述目标非标准词类别,分别为各所述目标非标准词匹配对应的预设正则化规则;
依据各所述预设正则化规则,分别对所述待识别文本中各所述目标非标准词进行正则化,获得所述文本正则化结果。
可选地,所述文本正则化装置还用于:
获取训练文本和所述训练文本对应的预设文本类别标签;
将所述训练文本输入预设待训练词分类模型,以基于所述训练文本的语义信息,对所述训练文本中各目标词进行分类,获得各所述目标词对应的分类标签共同对应的输出文本类别标签;
基于所述预设文本类别标签和所述输出文本类别标签,计算模型误差;
基于所述模型误差,对所述预设待训练词分类模型进行更新,并判断更新后的所述预设待训练词分类模型是否满足预设训练结束条件;
若否,则返回获取训练文本和所述训练文本对应的预设文本类别标签的步骤,直至更新后的所述预设待训练词分类模型满足所述预设训练结束条件;
若是,则将所述预设待训练词分类模型作为所述预设词分类模型。
可选地,所述文本正则化装置还用于:
获取训练文本和预设非标准词类别体系;
基于所述预设非标准词类别体系,对所述训练文本中各非标准词进行标签标注,获得各所述非标准词对应的标注标签;
基于所述训练文本中各标准词的词标签和各所述标注标签,生成所述预设文本类别标签。
本申请还提供一种文本正则化设备,所述文本正则化设备为实体设备,所述文本正则化设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述文本正则化方法的程序,所述文本正则化方法的程序被处理器执行时可实现如上述的文本正则化方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现文本正则化方法的程序,所述文本正则化方法的程序被处理器执行时实现如上述的文本正则化方法的步骤。
本申请提供了一种文本正则化方法、装置、设备和可读存储介质,相比于现有技术采用的通过正则表达式或有限状态机对非标准词进行匹配,以实现对文本的文本正则化的技术手段,本申请在获取待识别文本之后,基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果,进而基于所述分类识别结果,即可判断各所述待识别词是否为非标准词,且可识别非标准词的非标准词类别,其中,需要说明的是,虽然非标准词本身的词义存在多种含义,但是非标词在当前的文本语义中通常只含有唯一一种含义,进而基于文本语义特征信息进行分类识别,可实现对非标准词的词义的消歧,进而即使非标准词复杂多样且存在歧义,也可实现对非标准词的精确分类,进而确定的待识别文本中的各非标准词的非标准词类别,即可有针对性地对待识别文本中的各非标准词进行正则化,进而可实现对所述待识别文本的文本正则化,获得文本正则化结果,克服了现有技术中在通过正则表达式或有限状态机对非标准词进行匹配,以实现对文本的文本正则化时,由于非标准词的种类复杂多样且通常存在多种含义,进而通常通过正则表达式或有限状态机对非标准词进行匹配的准确度通常较低,进而导致文本正则化的准确度较低的技术缺陷,提高了文本正则化的准确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请文本正则化方法第一实施例的流程示意图;
图2为本申请文本正则化方法第二实施例的流程示意图;
图3为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种文本正则化方法,在本申请文本正则化方法的第一实施例中,参照图1,所述文本正则化方法包括:
步骤S10,获取待识别文本,并基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果;
在本实施例中,需要说明的是,所述文本正则化方法应用于中文语音合成系统,用于对文本进行文本正则化,以将文本转化为中文可读形式的正则化文本,例如将“110年”转化为“一百一十年”和“拨打110”需转为“拨打幺幺零”等,所述文本语义特征信息为由所述待识别文本中各待识别词对应的词向量表示组成的具备所述待识别文本的语义的信息,用于基于所述待识别文本语义,对各待识别词进行分类,其中,所述词向量表示为基于待识别文本的语义转化的所述待识别词的向量表示。
获取待识别文本,并基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果,具体地,获取待识别文本,并所述待识别文本中各待识别词使用向量进行表示,获得各所述待识别词对应的向量化词,进而将各所述向量化词组成的矩阵作为所述待识别文本对应的文本特征编码数据,其中,所述文本特征编码数据为由各所述向量化词组成的向量化文本,进而对所述文本特征编码数据进行特征提取,以提取所述文本特征编码数据的语义信息,获得所述文本语义特征信息,其中,在一种可实施方式中,所述文本语义特征信息为文本语义特征表示矩阵,用于表示所述文本特征编码数据和所述文本特征编码数据的语义信息,其中,所述文本语义特征表示矩阵的每一列为一待识别词对应的词义特征表示向量,用于表示待识别词和待识别词在所述待识别文本中的词义,其中,需要说明的是,由于所述词义特征表示向量与所述待识别词在所述待识别文本中的词义相关联,进而若相同两个的待识别词在文本中的词义不同,则表示这个两个的待识别词的词义特征表示向量将不同,进而基于各所述词义特征表示向量,对各所述待识别词进行分类,获得各所述待识别词对应的词分类类别,其中,所述词分类类别包括标准词类别和各非标准词类别,其中,所述标准词类别为可读形式的中文词的类别,所述非标准词类别为不可读形式的中文词的类别,其中,各所述非标准词类别包括日期类别、电话号码类别和货币大小数值类别等,例如,假设所述待识别文本为“我今年18岁,有存款120元”,则“18”和“120”属于所述非标准词类别,其余的词属于标准词类别,进而基于各所述词分类类别,识别所述待识别文本中的各非标准词和各所述非标准词对应的非标准类别,获得所述分类识别结果。
其中,需要说明的是,在一种可实施的方式中,所述向量化词为所述待识别词对应的词向量。
进一步地,在步骤S10中,所述基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果的步骤包括:
步骤S11,对所述待识别文本进行特征编码,获得文本特征编码数据;
在本实施例中,对所述待识别文本进行特征编码,获得文本特征编码数据,具体地,生成所述待识别文本中每一待识别词对应的待识别词向量、待识别词性向量和待识别词位置向量,其中,所述待识别词向量为表示待识别词的编码向量,用于唯一表示所述待识别词,所述待识别词性向量为表示所述待识别词的词性的编码向量,所述待识别词位置向量为表示所述待识别词在所述待识别文本中的位置的编码向量,进而基于每一所述待识别词对应的待识别词向量、对应的待识别词性向量和对应的待识别词位置向量,生成每一所述待识别词对应的向量化词,进而将各所述向量化词构成的向量化文本作为所述文本特征编码数据。
步骤S12,将所述文本特征编码数据输入预设词分类模型,以基于所述文本语义特征信息,对各所述待识别词进行分类,获得分类结果;
在本实施例中,将所述文本特征编码数据输入预设词分类模型,以基于所述文本语义特征信息,对各所述待识别词进行分类,获得分类结果,具体地,将所述文本特征编码数据输入预设词分类模型,对所述文本特征编码数据进行特征提取,以提取所述文本特征编码数据的文本语义特征信息,获得文本语义特征表示矩阵,进而对所述文本语义特征表示矩阵进行全连接,以将所述文本语义特征表示矩阵中各词义特征表示向量映射为分类概率向量,进而将各所述分类概率向量作为所述分类结果,其中,所述分类概率向量为由所述分类概率向量对应的待识别词属于各词分类类别的概率组成的向量,例如,假设所述分类概率向量为(0.8,0.15,0.05),则0.8表示所述待识别词存在80%的概率属于标准词类别,0.15表示所述待识别词存在15%的概率属于电话号码类别,0.,05表示所述待识别词存在5%的概率属于日期类别。
进一步地,在步骤S12中,所述预设词分类模型包括特征提取层和分类层,
所述将所述文本特征编码数据输入预设词分类模型,以基于所述文本语义特征信息,对各所述待识别词进行分类,获得分类结果的步骤包括:
步骤S121,将所述文本特征编码数据输入所述特征提取层,对所述文本特征编码数据进行特征提取,获得所述文本语义特征信息;
在本实施例中,将所述文本特征编码数据输入所述特征提取层,对所述文本特征编码数据进行特征提取,获得所述文本语义特征信息,具体地,将所述文本特征编码数据输入所述特征提取层,对所述文本特征编码数据进行数据处理,其中,所述数据处理包括卷积和池化等,以将所述文本特征编码数据映射为预设大小的文本语义特征表示矩阵,并将所述文本语义特征表示矩阵作为所述文本语义特征信息。
步骤S122,将所述文本语义特征信息输入所述分类层,将所述文本语义特征信息中各文本语义词向量表示分别映射为对应的分类概率向量,获得所述分类结果。
在本实施例中,将所述文本语义特征信息输入所述分类层,将所述文本语义特征信息中各文本语义词向量表示分别映射为对应的分类概率向量,获得所述分类结果,具体地,将所述文本语义特征表示矩阵输入所述分类层,对所述文本语义特征表示矩阵进行全连接,以将所述文本语义特征表示矩阵中各词义特征表示向量映射为对应的分类概率向量,并将各所述分类概率向量作为所述分类概率结果。
步骤S13,基于所述分类结果,识别所述待识别文本中的各目标非标准词和确定各所述目标非标准词对应的目标非标准词类别,获得所述分类识别结果。
在本实施例中,基于所述分类结果,识别所述待识别文本中的各目标非标准词和确定各所述目标非标准词对应的目标非标准词类别,获得所述分类识别结果,具体地,将各所述分类概率向量中最大概率值对应的词分类类别作为对应的待识别词的目标词分类类别,进而若各所述目标词分类类别中存在非标准词类别,则判定所述待识别文本中存在非标准词,并将各所述目标词分类类别中的各非标准词类别对应的待识别词作为目标非标准词,将各目标非标准词对应的目标词分类类别作为目标非标准词类别,进而将各所述目标非标准词和各所述非标准词对应的目标非标准词类别作为所述分类识别结果。
进一步地,在步骤S13中,所述分类结果至少包括一个所述待识别词对应的分类概率向量,
所述基于所述分类结果,识别所述待识别文本中的各目标非标准词和确定各所述目标非标准词对应的目标非标准词类别,获得所述分类识别结果的步骤包括:
步骤S131,基于各所述分类概率向量,分别确定各所述待识别词的词分类标签;
在本实施例中,需要说明的是,所述分类概率向量的每一比特位均对应一分类标签,其中,所述分类标签为词分类类别的标识,比特位上的值为待识别词属于所述分类标签对应的词分类类别的概率值。
基于各所述分类概率向量,分别确定各所述待识别词的词分类标签,具体地,确定每一所述分类概率向量中的各最大概率值,并将每一所述最大概率值所在的比特位对应的分类标签作为对应的待识别词对应的词分类标签。
步骤S132,基于各所述词分类标签,在各所述待识别词中确定各所述目标非标准词和各所述目标非标准词对应的目标非标准词类别。
在本实施例中,基于各所述词分类标签,在各所述待识别词中确定各所述目标非标准词和各所述目标非标准词对应的目标非标准词类别,具体地,判断将各所述词分类标签是否至少存在一非标准词标签,其中,所述非标准词标签为非标准词的分类标签,若是,则将各所述非标准词标签对应的待识别词作为目标非标准词,将各所述非标准词标签对应的词分类类别作为目标非标准词类别。
步骤S20,基于所述分类识别结果,对所述待识别文本进行文本正则化,获得文本正则化结果。
在本实施例中,需要说明的是,所述文本正则化为将文本转化为可读中文形式的文本的过程,用于将文本转化为可读中文形式的文本后,合成文本对应的中文语音,例如,“拨打110”需转化为可读中文形式的“拨打幺幺零”。
基于所述分类识别结果,对所述待识别文本进行文本正则化,获得文本正则化结果,具体地,基于所述分类识别结果中的各目标非标准词类别,为各所述目标非标准词匹配对应的预设正则化规则,进而基于匹配获得的各预设正则化规则,对所述待识别文本中对应各目标非标准词进行正则化,以将各所述目标非标准词转化为可读中文形式的词,获得所述待识别文本对应的正则化文本,并将所述正则化文本作为所述文本正则化结果,其中,所述预设正则化规则为预先设置好的将非标准词转化为可读中文形式的词的规则,其中,所述预设正则化规则包括正则表达式等,例如,货币类型的非标准词“110”将转化为“一百一十”,电话号码类型的非标准词将转化为“幺幺零”等。
进一步地,在步骤S20中,所述基于所述分类识别结果,对所述待识别文本进行文本正则化,获得文本正则化结果的步骤包括:
步骤S21,基于所述分类识别结果,确定所述待识别文本中各目标非标准词对应的目标非标准词类别;
在本实施例中,需要说明的是,所述分类识别结果包括对所述待识别文本中各待识别词的分类结果和判断各所述待识别词是否为非标准词的判断结果。
基于所述分类识别结果,确定所述待识别文本中各目标非标准词对应的目标非标准词类别,具体地,基于对各所述待识别文本中各待识别词的分类结果和识别各所述待识别词是否为非标准词的结果,确定所述待识别文本中各目标非标准词对应的目标非标准词类别。
步骤S22,依据各所述目标非标准词类别,分别为各所述目标非标准词匹配对应的预设正则化规则;
在本实施例中,依据各所述目标非标准词类别,分别为各所述目标非标准词匹配对应的预设正则化规则,具体地,将各所述目标非标准词类别作为查询标识,在预设正则化规则集合中查询各所述查询标识对应的预设正则化规则,以为各所述目标非标准词匹配对应的预设正则化规则,其中,所述预设正则化规则集合至少包括一预设正则化规则。
步骤S23,依据各所述预设正则化规则,分别对所述待识别文本中各所述目标非标准词进行正则化,获得所述文本正则化结果。
在本实施例中,依据各所述预设正则化规则,分别对所述待识别文本中各所述目标非标准词进行正则化,获得所述文本正则化结果,具体地,依据各所述预设正则化规则,分别对所述待识别文本中各所述目标非标准词进行正则化,以将所述待识别文本中各所述目标非标准词均转化为可读中文形式的词,获得正则化后的待识别文本,并将正则化后的待识别文本作为所述文本正则化结果。
本申请实施例提供了一种文本正则化方法,相比于现有技术采用的通过正则表达式或有限状态机对非标准词进行匹配,以实现对文本的文本正则化的技术手段,本申请实施例在获取待识别文本之后,基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果,进而基于所述分类识别结果,即可判断各所述待识别词是否为非标准词,且可识别非标准词的非标准词类别,其中,需要说明的是,虽然非标准词本身的词义存在多种含义,但是非标词在当前的文本语义中通常只含有唯一一种含义,进而基于文本语义特征信息进行分类识别,可实现对非标准词的词义的消歧,进而即使非标准词复杂多样且存在歧义,也可实现对非标准词的精确分类,进而确定的待识别文本中的各非标准词的非标准词类别,即可有针对性地对待识别文本中的各非标准词进行正则化,进而可实现对所述待识别文本的文本正则化,获得文本正则化结果,克服了现有技术中在通过正则表达式或有限状态机对非标准词进行匹配,以实现对文本的文本正则化时,由于非标准词的种类复杂多样且通常存在多种含义,进而通常通过正则表达式或有限状态机对非标准词进行匹配的准确度通常较低,进而导致文本正则化的准确度较低的技术缺陷,提高了文本正则化的准确度。
进一步地,参照图2,基于本申请中第一实施例,在本申请的另一实施例中,在所述将所述文本特征编码数据输入预设词分类模型,以基于所述文本语义特征信息,对各所述待识别词进行分类,获得分类结果的步骤之前,所述文本正则化方法还包括:
步骤A10,获取训练文本和所述训练文本对应的预设文本类别标签;
在本实施例中,需要说明的是,所述预设文本类别标签为所述训练文本中各词对应的词类别标签组成的标签向量,其中,所述词类别标签为词分类类别的标识,所述词分类类别包括标准词类别和各非标准词类别,例如,将所述训练文本为(a,b,c,d),词a对应的词类别标签为A,词b对应的词类别标签为B,词c对应的词类别标签为C,词d对应的词类别标签为D,则所述预设文本类别标签为向量(A,B,C,D)。
进一步地,在步骤A10中,所述获取训练文本和所述训练文本对应的预设文本类别标签的步骤包括:
步骤A11,获取训练文本和预设非标准词类别体系;
在本实施例中,需要说明的是,所述预设非标准词类别体系为预先设置好的非标准词类别体系,用于对非标准词进行标签标注。
步骤A12,基于所述预设非标准词类别体系,对所述训练文本中各非标准词进行标签标注,获得各所述非标准词对应的标注标签;
在本实施例中,需要说明的是,所述预设非标准词类别体系为由预先设置好的各预设非标准词类别组成的类别体系。
基于所述预设非标准词类别体系,对所述训练文本中各非标准词进行标签标注,获得各所述非标准词对应的标注标签,具体地,基于所述训练文本中各非标准词在所述训练文本中的词义,在所述预设非标准词类别体系中查询各非标准词对应的预设非标准词类别,以为各非标准词赋予对应的预设非标准词类别对应的类别标签,进而实现对所述训练文本中各非标准词的标签标注,获得各所述非标准词对应的标注标签。
在一种可实施的方式中,所述非标准词的词义为非标准词与所述非标准词对应的上下文信息共同组成的词组,且该词组可作为所述预设非标准词类别体系中的搜索索引,用于在所述预设非标准词类别体系中查询各非标准词对应的预设非标准词类别,例如,假设所述训练文本为“今天挣了200元”,则非标准词“200”对应的词义为“200元”,所述训练文本为“着火了,快拨打119”,则非标准词“119”对应的词义为“拨打119”。
步骤A13,基于所述训练文本中各标准词的词标签和各所述标注标签,生成所述预设文本类别标签。
在本实施例中,需要说明的是,所述标准词的词标签为标准词类别的标签。
基于所述训练文本中各标准词的词标签和各所述标注标签,生成所述预设文本类别标签,具体地,依据所述训练文本中各词的排序顺序,将各标准词的词标签和各所述标注标签组合为标签向量,并将所述标签向量作为所述预设文本类别标签。
步骤A20,将所述训练文本输入预设待训练词分类模型,以基于所述训练文本的语义信息,对所述训练文本中各目标词进行分类,获得各所述目标词对应的分类标签共同对应的输出文本类别标签;
在本实施例中,需要说明的是,所述训练文本为经过了向量化的文本特征编码数据。
将所述训练文本输入预设待训练词分类模型,以基于所述训练文本的语义信息,对所述训练文本中各目标词进行分类,获得各所述目标词对应的分类标签共同对应的输出文本类别标签,具体地,将所述训练文本输入预设待训练词分类模型,对所述训练文本进行特征提取,以提取所述训练文本的文本语义特征信息,获得训练文本语义特征表示矩阵,进而对所述训练文本语义特征表示矩阵进行全连接,以将所述训练文本语义特征表示矩阵中各训练词义特征表示向量映射为训练分类概率向量,进而将每一训练分类概率向量中最大训练概率值对应的类别标签作为训练分类概率向量对应的目标词的分类标签,并将各目标词的分类标签以各目标词在训练文本中的排列顺序组成训练标签向量,并将所述训练标签向量作为所述输出文本类别标签。
步骤A30,基于所述预设文本类别标签和所述输出文本类别标签,计算模型误差;
在本实施例中,基于所述预设文本类别标签和所述输出文本类别标签,计算模型误差,具体地,计算所述预设文本类别标签和所述输出文本类别标签之间的向量距离,并将所述向量距离作为所述模型误差,其中,所述向量距离包括汉明距离。
步骤A40,基于所述模型误差,对所述预设待训练词分类模型进行更新,并判断更新后的所述预设待训练词分类模型是否满足预设训练结束条件;
在本实施例中,基于所述模型误差,对所述预设待训练词分类模型进行更新,并判断更新后的所述预设待训练词分类模型是否满足预设训练结束条件,具体地,基于所述模型误差,计算所述预设待训练词分类模型对应的梯度信息,并依据所述梯度信息,更新所述预设待训练词分类模型的模型参数,并判断更新后的所述预设待训练词分类模型是否满足预设训练结束条件,其中,所述预设训练结束条件包括损失函数收敛和模型训练达到最大迭代次数等。
步骤A50,若否,则返回获取训练文本和所述训练文本对应的预设文本类别标签的步骤,直至更新后的所述预设待训练词分类模型满足所述预设训练结束条件;
在本实施例中,若否,则返回获取训练文本和所述训练文本对应的预设文本类别标签的步骤,以重新对预设待训练词分类模型进行训练更新,直至更新后的所述预设待训练词分类模型满足所述预设训练结束条件。
步骤A60,若是,则将所述预设待训练词分类模型作为所述预设词分类模型。
本申请实施例提供了一种预设词分类模型的训练方法,在训练成功后,即可基于所述预设词分类模型,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果,进而基于所述分类识别结果,即可判断各所述待识别词是否为非标准词,且可识别非标准词的非标准词类别,其中,需要说明的是,虽然非标准词本身的词义存在多种含义,但是非标词在当前的文本语义中通常只含有唯一一种含义,进而基于文本语义特征信息进行分类识别,可实现对非标准词的词义的消歧,进而即使非标准词复杂多样且存在歧义,也可实现对非标准词的精确分类,进而确定的待识别文本中的各非标准词的非标准词类别,即可有针对性地对待识别文本中的各非标准词进行正则化,进而可实现对所述待识别文本的文本正则化,获得文本正则化结果,为克服现有技术中在通过正则表达式或有限状态机对非标准词进行匹配,以实现对文本的文本正则化时,由于非标准词的种类复杂多样且通常存在多种含义,进而通常通过正则表达式或有限状态机对非标准词进行匹配的准确度通常较低,进而导致文本正则化的准确度较低的技术缺陷奠定了基础。
参照图3,图3是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图3所示,该文本正则化设备可以包括:处理器1001,例如CPU,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该文本正则化设备还可以包括矩形用户接口、网络接口、摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。矩形用户接口可以包括显示屏(Display)、输入子模块比如键盘(Keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
本领域技术人员可以理解,图3中示出的文本正则化设备结构并不构成对文本正则化设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及文本正则化程序。操作系统是管理和控制文本正则化设备硬件和软件资源的程序,支持文本正则化程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与文本正则化系统中其它硬件和软件之间通信。
在图3所示的文本正则化设备中,处理器1001用于执行存储器1005中存储的文本正则化程序,实现上述任一项所述的文本正则化方法的步骤。
本申请文本正则化设备具体实施方式与上述文本正则化方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种文本正则化装置,所述文本正则化装置应用于文本正则化设备,所述文本正则化装置包括:
分类识别模块,用于获取待识别文本,并基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果;
正则化模块,用于基于所述分类识别结果,对所述待识别文本进行文本正则化,获得文本正则化结果。
可选地,所述分类识别模块还用于:
对所述待识别文本进行特征编码,获得文本特征编码数据;
将所述文本特征编码数据输入预设词分类模型,以基于所述文本语义特征信息,对各所述待识别词进行分类,获得分类结果;
基于所述分类结果,识别所述待识别文本中的各目标非标准词和确定各所述目标非标准词对应的目标非标准词类别,获得所述分类识别结果。
可选地,所述分类识别模块还用于:
将所述文本特征编码数据输入所述特征提取层,对所述文本特征编码数据进行特征提取,获得所述文本语义特征信息;
将所述文本语义特征信息输入所述分类层,将所述文本语义特征信息中各文本语义词向量表示分别映射为对应的分类概率向量,获得所述分类结果。
可选地,所述分类识别模块还用于:
基于各所述分类概率向量,分别确定各所述待识别词的词分类标签;
基于各所述词分类标签,在各所述待识别词中确定各所述目标非标准词和各所述目标非标准词对应的目标非标准词类别。
可选地,所述正则化模块还用于:
基于所述分类识别结果,确定所述待识别文本中各目标非标准词对应的目标非标准词类别;
依据各所述目标非标准词类别,分别为各所述目标非标准词匹配对应的预设正则化规则;
依据各所述预设正则化规则,分别对所述待识别文本中各所述目标非标准词进行正则化,获得所述文本正则化结果。
可选地,所述文本正则化装置还用于:
获取训练文本和所述训练文本对应的预设文本类别标签;
将所述训练文本输入预设待训练词分类模型,以基于所述训练文本的语义信息,对所述训练文本中各目标词进行分类,获得各所述目标词对应的分类标签共同对应的输出文本类别标签;
基于所述预设文本类别标签和所述输出文本类别标签,计算模型误差;
基于所述模型误差,对所述预设待训练词分类模型进行更新,并判断更新后的所述预设待训练词分类模型是否满足预设训练结束条件;
若否,则返回获取训练文本和所述训练文本对应的预设文本类别标签的步骤,直至更新后的所述预设待训练词分类模型满足所述预设训练结束条件;
若是,则将所述预设待训练词分类模型作为所述预设词分类模型。
可选地,所述文本正则化装置还用于:
获取训练文本和预设非标准词类别体系;
基于所述预设非标准词类别体系,对所述训练文本中各非标准词进行标签标注,获得各所述非标准词对应的标注标签;
基于所述训练文本中各标准词的词标签和各所述标注标签,生成所述预设文本类别标签。
本申请文本正则化装置的具体实施方式与上述文本正则化方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的文本正则化方法的步骤。
本申请可读存储介质具体实施方式与上述文本正则化方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。

Claims (10)

1.一种文本正则化方法,其特征在于,所述文本正则化方法包括:
获取待识别文本,并基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果;
基于所述分类识别结果,对所述待识别文本进行文本正则化,获得文本正则化结果。
2.如权利要求1所述文本正则化方法,其特征在于,所述基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果的步骤包括:
对所述待识别文本进行特征编码,获得文本特征编码数据;
将所述文本特征编码数据输入预设词分类模型,以基于所述文本语义特征信息,对各所述待识别词进行分类,获得分类结果;
基于所述分类结果,识别所述待识别文本中的各目标非标准词和确定各所述目标非标准词对应的目标非标准词类别,获得所述分类识别结果。
3.如权利要求2所述文本正则化方法,其特征在于,所述预设词分类模型包括特征提取层和分类层,
所述将所述文本特征编码数据输入预设词分类模型,以基于所述文本语义特征信息,对各所述待识别词进行分类,获得分类结果的步骤包括:
将所述文本特征编码数据输入所述特征提取层,对所述文本特征编码数据进行特征提取,获得所述文本语义特征信息;
将所述文本语义特征信息输入所述分类层,将所述文本语义特征信息中各文本语义词向量表示分别映射为对应的分类概率向量,获得所述分类结果。
4.如权利要求2所述文本正则化方法,其特征在于,所述分类结果至少包括一个所述待识别词对应的分类概率向量,
所述基于所述分类结果,识别所述待识别文本中的各目标非标准词和确定各所述目标非标准词对应的目标非标准词类别,获得所述分类识别结果的步骤包括:
基于各所述分类概率向量,分别确定各所述待识别词的词分类标签;
基于各所述词分类标签,在各所述待识别词中确定各所述目标非标准词和各所述目标非标准词对应的目标非标准词类别。
5.如权利要求1所述文本正则化方法,其特征在于,所述基于所述分类识别结果,对所述待识别文本进行文本正则化,获得文本正则化结果的步骤包括:
基于所述分类识别结果,确定所述待识别文本中各目标非标准词对应的目标非标准词类别;
依据各所述目标非标准词类别,分别为各所述目标非标准词匹配对应的预设正则化规则;
依据各所述预设正则化规则,分别对所述待识别文本中各所述目标非标准词进行正则化,获得所述文本正则化结果。
6.如权利要求2所述文本正则化方法,其特征在于,在所述将所述文本特征编码数据输入预设词分类模型,以基于所述文本语义特征信息,对各所述待识别词进行分类,获得分类结果的步骤之前,所述文本正则化方法还包括:
获取训练文本和所述训练文本对应的预设文本类别标签;
将所述训练文本输入预设待训练词分类模型,以基于所述训练文本的语义信息,对所述训练文本中各目标词进行分类,获得各所述目标词对应的分类标签共同对应的输出文本类别标签;
基于所述预设文本类别标签和所述输出文本类别标签,计算模型误差;
基于所述模型误差,对所述预设待训练词分类模型进行更新,并判断更新后的所述预设待训练词分类模型是否满足预设训练结束条件;
若否,则返回获取训练文本和所述训练文本对应的预设文本类别标签的步骤,直至更新后的所述预设待训练词分类模型满足所述预设训练结束条件;
若是,则将所述预设待训练词分类模型作为所述预设词分类模型。
7.如权利要求6所述文本正则化方法,其特征在于,所述获取训练文本和所述训练文本对应的预设文本类别标签的步骤包括:
获取训练文本和预设非标准词类别体系;
基于所述预设非标准词类别体系,对所述训练文本中各非标准词进行标签标注,获得各所述非标准词对应的标注标签;
基于所述训练文本中各标准词的词标签和各所述标注标签,生成所述预设文本类别标签。
8.一种文本正则化装置,其特征在于,所述文本正则化装置包括:
分类识别模块,用于获取待识别文本,并基于所述待识别文本对应的文本语义特征信息,对所述待识别文本中各待识别词进行分类识别,获得分类识别结果;
正则化模块,用于基于所述分类识别结果,对所述待识别文本进行文本正则化,获得文本正则化结果。
9.一种文本正则化设备,其特征在于,所述文本正则化设备包括:存储器、处理器以及存储在存储器上的用于实现所述文本正则化方法的程序,
所述存储器用于存储实现文本正则化方法的程序;
所述处理器用于执行实现所述文本正则化方法的程序,以实现如权利要求1至7中任一项所述文本正则化方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现文本正则化方法的程序,所述实现文本正则化方法的程序被处理器执行以实现如权利要求1至7中任一项所述文本正则化方法的步骤。
CN202110024630.2A 2021-01-08 文本正则化方法、装置、设备和可读存储介质 Active CN112668341B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110024630.2A CN112668341B (zh) 2021-01-08 文本正则化方法、装置、设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110024630.2A CN112668341B (zh) 2021-01-08 文本正则化方法、装置、设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN112668341A true CN112668341A (zh) 2021-04-16
CN112668341B CN112668341B (zh) 2024-05-31

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505607A (zh) * 2021-06-15 2021-10-15 北京三快在线科技有限公司 一种意图识别方法、装置、电子设备及可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661462A (zh) * 2009-07-17 2010-03-03 北京邮电大学 四层结构的中文文本正则化体系及实现
US20160071511A1 (en) * 2014-09-05 2016-03-10 Samsung Electronics Co., Ltd. Method and apparatus of smart text reader for converting web page through text-to-speech
CN107680579A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
CN107680580A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置
CN108536656A (zh) * 2018-03-09 2018-09-14 北京云知声信息技术有限公司 基于wfst的文本正则化方法及系统
CN109979429A (zh) * 2019-05-29 2019-07-05 南京硅基智能科技有限公司 一种tts的方法及系统
CN110767212A (zh) * 2019-10-24 2020-02-07 百度在线网络技术(北京)有限公司 一种语音处理方法、装置和电子设备
US20200082807A1 (en) * 2018-01-11 2020-03-12 Neosapience, Inc. Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
CN110991176A (zh) * 2020-02-27 2020-04-10 北京海天瑞声科技股份有限公司 跨语言非标准词识别方法及装置
CN111144127A (zh) * 2019-12-25 2020-05-12 科大讯飞股份有限公司 文本语义识别方法及其模型的获取方法及相关装置
CN111611452A (zh) * 2020-05-22 2020-09-01 上海携程商务有限公司 搜索文本的歧义识别方法、系统、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661462A (zh) * 2009-07-17 2010-03-03 北京邮电大学 四层结构的中文文本正则化体系及实现
US20160071511A1 (en) * 2014-09-05 2016-03-10 Samsung Electronics Co., Ltd. Method and apparatus of smart text reader for converting web page through text-to-speech
CN107680580A (zh) * 2017-09-28 2018-02-09 百度在线网络技术(北京)有限公司 文本转换模型训练方法和装置、文本转换方法和装置
CN107680579A (zh) * 2017-09-29 2018-02-09 百度在线网络技术(北京)有限公司 文本正则化模型训练方法和装置、文本正则化方法和装置
US20200082807A1 (en) * 2018-01-11 2020-03-12 Neosapience, Inc. Text-to-speech synthesis method and apparatus using machine learning, and computer-readable storage medium
CN108536656A (zh) * 2018-03-09 2018-09-14 北京云知声信息技术有限公司 基于wfst的文本正则化方法及系统
CN109979429A (zh) * 2019-05-29 2019-07-05 南京硅基智能科技有限公司 一种tts的方法及系统
CN110767212A (zh) * 2019-10-24 2020-02-07 百度在线网络技术(北京)有限公司 一种语音处理方法、装置和电子设备
CN111144127A (zh) * 2019-12-25 2020-05-12 科大讯飞股份有限公司 文本语义识别方法及其模型的获取方法及相关装置
CN110991176A (zh) * 2020-02-27 2020-04-10 北京海天瑞声科技股份有限公司 跨语言非标准词识别方法及装置
CN111611452A (zh) * 2020-05-22 2020-09-01 上海携程商务有限公司 搜索文本的歧义识别方法、系统、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DANNY SEBASTIAN.ETC: "Text Normalization for Indonesian Abbreviated Word Using Crowdsourcing Method", IEEE, 31 December 2019 (2019-12-31) *
王瑞波;李济洪;李国臣;杨耀文;: "基于Dropout正则化的汉语框架语义角色识别", 中文信息学报, no. 01, 15 January 2017 (2017-01-15) *
贾玉祥;黄德智;刘武;俞士汶;: "中文语音合成中的文本正则化研究", 中文信息学报, no. 05, 15 September 2008 (2008-09-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505607A (zh) * 2021-06-15 2021-10-15 北京三快在线科技有限公司 一种意图识别方法、装置、电子设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN108170859B (zh) 语音查询的方法、装置、存储介质及终端设备
WO2022078346A1 (zh) 文本意图识别方法、装置、电子设备及存储介质
US20210064860A1 (en) Intelligent extraction of information from a document
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN111325156B (zh) 人脸识别方法、装置、设备和存储介质
CN110222330B (zh) 语义识别方法及装置、存储介质、计算机设备
CN110377733B (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN111767375A (zh) 语义召回方法、装置、计算机设备及存储介质
CN111581923A (zh) 文案生成方法、装置、设备和计算机可读存储介质
CN111666766A (zh) 数据处理方法、装置和设备
CN115935344A (zh) 一种异常设备的识别方法、装置及电子设备
CN114612921A (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN113435182A (zh) 自然语言处理中分类标注的冲突检测方法、装置和设备
CN113569933A (zh) 商标图样匹配方法及其相应的装置、设备、介质
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN111859957A (zh) 情感原因子句标签的抽取方法、装置、设备及存储介质
CN112668341B (zh) 文本正则化方法、装置、设备和可读存储介质
CN112307200A (zh) 情感属性获取方法、装置、设备、及存储介质
CN112668341A (zh) 文本正则化方法、装置、设备和可读存储介质
Vishwanath et al. Deep reader: Information extraction from document images via relation extraction and natural language
CN113032523B (zh) 三元组信息的抽取方法、装置、电子设备和存储介质
CN112541357B (zh) 实体识别方法、装置及智能设备
WO2021244099A1 (zh) 语音编辑方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant