CN113761883A - 一种文本信息识别方法、装置、电子设备及存储介质 - Google Patents

一种文本信息识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113761883A
CN113761883A CN202110536584.4A CN202110536584A CN113761883A CN 113761883 A CN113761883 A CN 113761883A CN 202110536584 A CN202110536584 A CN 202110536584A CN 113761883 A CN113761883 A CN 113761883A
Authority
CN
China
Prior art keywords
text information
word
character
feature vector
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110536584.4A
Other languages
English (en)
Inventor
周青宇
李忠利
李超
曹云波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110536584.4A priority Critical patent/CN113761883A/zh
Publication of CN113761883A publication Critical patent/CN113761883A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种文本信息识别方法,包括:通过文本信息识别模型对待识别文本信息进行字义识别处理,得到待识别文本信息对应的字义特征向量;通过文本信息识别模型对所述待识别文本信息进行字音识别处理,得到待识别文本信息对应的字音特征向量;通过文本信息识别模型对待识别文本信息进行字形识别处理,得到待识别文本信息对应的字形特征向量;对所述字义特征向量、字音特征向量以及字形特征向量,进行特征融合处理,得到融合特征向量;基于融合特征向量,对所述待识别文本信息进行识别。本发明还提供了文本信息识别装置、电子设备及存储介质。本发明能够实现自动对待识别文本信息进行识别,高效地发现待识别文本信息中所出现的错误字符。

Description

一种文本信息识别方法、装置、电子设备及存储介质
技术领域
本发明涉及信息处理技术,尤其涉及文本信息识别方法、装置、电子设备及存储介质。
背景技术
文本信息的种类丰富,如新闻、医疗病历、论文、微博、聊天等待识别文本信息,展示展示正确的文本信息供用户阅读,可以节省用户的文本浏览时间。对于出现错误的文本信息需要及时的纠正,通过人工智能对文本信息进行检查是一种高效的解决手段,为此,人工智能技术(AI,Artificial Intelligence)提供了适当的文本处理进程的运行机制来支持上述应用的方案。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能,在文本处理领域中,可以利用数字计算机或者数字计算机控制的机器实现对文本信息的识别。
发明内容
有鉴于此,本发明实施例提供一种文本信息识别方法、装置、电子设备及存储介质,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种文本信息识别方法,包括:
获取目标文本信息,并且对所述目标文本信息进行预处理,得到待识别文本信息;
通过文本信息识别模型对所述待识别文本信息进行字义识别处理,得到所述待识别文本信息对应的字义特征向量;
通过文本信息识别模型对所述待识别文本信息进行字音识别处理,得到所述待识别文本信息对应的字音特征向量;
通过文本信息识别模型对所述待识别文本信息进行字形识别处理,得到所述待识别文本信息对应的字形特征向量;
对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到融合特征向量;
基于所述融合特征向量,对所述待识别文本信息进行识别。
本发明实施例还提供了一种文本信息识别装置,所述装置包括:
信息传输模块,用于获取目标文本信息,并且对所述目标文本信息进行预处理,得到待识别文本信息;
信息处理模块,用于通过文本信息识别模型对所述待识别文本信息进行字义识别处理,得到所述待识别文本信息对应的字义特征向量;
所述信息处理模块,用于通过文本信息识别模型对所述待识别文本信息进行字音识别处理,得到所述待识别文本信息对应的字音特征向量;
所述信息处理模块,用于通过文本信息识别模型对所述待识别文本信息进行字形识别处理,得到所述待识别文本信息对应的字形特征向量;
所述信息处理模块,用于对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到融合特征向量;
所述信息处理模块,用于基于所述融合特征向量,对所述待识别文本信息进行识别。
上述方案中,
所述信息处理模块,用于根据所述目标文本信息的识别环境,提取所述目标文本所携带的文本参数信息,触发相应的分词库;
所述信息处理模块,用于通过所触发的所述分词库单词词典对所述目标文本进行分词处理,提取中文字符文本,形成不同的词语级特征向量;
所述信息处理模块,用于对所述不同的词语级特征向量进行除噪处理,形成与所述目标文本相对应的词语级特征向量集合。
上述方案中,
所述信息处理模块,用于确定与所述目标文本信息的识别环境相匹配的动态噪声阈值;
所述信息处理模块,用于根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;
所述信息处理模块,用于根据与所述动态噪声阈值相匹配的动态分词策略,对所述目标文本进行分词处理,提取中文字符文本,形成与所述目标文本相对应的动态词语级特征向量集合。
上述方案中,
所述信息处理模块,用于确定与所述目标文本信息的识别环境相对应的固定噪声阈值;
所述信息处理模块,用于根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;
所述信息处理模块,用于根据与所述固定噪声阈值相匹配的固定分词策略,对所述目标文本进行分词处理,提取中文字符文本,与所述目标文本相对应的固定词语级特征向量集合。
上述方案中,
所述信息处理模块,用于通过所述文本信息识别模型中的字义编码器网络,对所述待识别文本信息进行处理,确定与所述待识别文本信息所对应的字符特征向量;
所述信息处理模块,用于通过所述字义编码器网络,根据所述字符特征向量确定与所述待识别文本信息所对应的至少一个词语级的隐变量;
所述信息处理模块,用于通过所述字义编码器网络,根据所述至少一个词语级的隐变量以及与所述待识别文本信息所对应的字符特征向量,确定所述待识别文本信息对应的字义特征向量。
上述方案中,
所述信息处理模块,用于根据所述目标文本信息的识别环境,通过所述文本信息识别模型中的字音编码器网络,提取所述待识别文本信息中每一个字符对应的拼音,以及所述待识别文本信息中每一个字符对应的语调;
所述信息处理模块,用于根据所述待识别文本信息中每一个字符对应的拼音,以及所述待识别文本信息中每一个字符对应的语调,确定所述待识别文本信息中每一个字符级别的单一字符读音特征向量;
所述信息处理模块,用于通过所述文本信息识别模型中的字音编码器网络,对所述待识别文本信息中每一个字符对应的单一字符读音特征向量进行组合处理,形成语句级别的读音特征向量;
所述信息处理模块,用于基于所述语句级别的读音特征向量,确定所述待识别文本信息对应的字音特征向量。
上述方案中,
所述信息处理模块,用于通过所述文本信息识别模型中的字形编码器网络,对所待识别文本信息对应的字符图像进行单一化提取;
所述信息处理模块,用于通过所述字形编码器网络对经过单一化处理的字符图像进行降噪处理;
所述信息处理模块,用于通过所述字形编码器网络对经过降噪处理的字符的图像进行交叉降采样处理,得到所述字符图像的降采样结果,并对所述降采样结果进行归一化处理;
所述信息处理模块,用于对所述字符图像的降采样结果进行横向规范化处理,得到横向规范化处理结果;
所述信息处理模块,用于根据所述横向规范化处理结果,确定与待识别文本信息对应的字形特征向量。
上述方案中,
所述信息处理模块,用于根据所述目标文本信息的识别环境,筛选简体中文黑体字符图像、繁体中文黑体字符图像和小篆体中文字符图像,作为所待识别文本信息对应的字符图像。
上述方案中,
所述信息处理模块,用于通过文本信息识别模型的特征融合网络,对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到单一字符级别的融合特征向量;
所述信息处理模块,用于通过所述文本信息识别模型的特征融合网络,对所述单一字符级别的融合特征向量进行融合处理,得到语句级别的融合特征向量。
上述方案中,
所述信息处理模块,用于通过所文本信息识别模型的解码器网络,根据所述融合特征向量,生成与所述识别文本信息相对应的错误字符被选取概率;
所述信息处理模块,用于对所述错误字符被选取概率与目标文本信息的识别环境的置信度阈值进行比较,得到置信度阈值比较结果;
所述信息处理模块,用于根据所述置信度阈值比较结果,执行至少以下之一:
保持所述识别文本信息相对应的错误字符;
对所述识别文本信息相对应的错误字符进行调整。
上述方案中,
所述信息处理模块,用于根据所述目标文本信息的识别环境类型,确定与所述文本信息识别模型相匹配的训练样本集合,其中,所述训练样本集合包括至少一组训练样本;
所述信息处理模块,用于通过所述文本信息识别模型相匹配的噪音阈值提取与所述训练样本相匹配的训练样本集合;
所述信息处理模块,用于根据与所述训练样本相匹配的训练样本集合对所述文本信息识别模型进行训练。
上述方案中,
所述信息处理模块,用于确定与所述文本信息识别模型相匹配的多任务损失函数;
所述信息处理模块,用于基于所述多任务损失函数,调整所述文本信息识别模型中的不同编码器网络参数和解码器网络参数,直至所述文本信息识别模型对应的不同维度的损失函数达到相应的收敛条件;以实现所述文本信息识别模型的参数与目标文本信息的识别环境类型相适配。
本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中实现前序的文本信息识别方法。
本发明实施例还提供了一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现前序的文本信息识别方法。
本发明实施例还提供了一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时实现前序的文本信息识别方法。
本发明实施例具有以下有益效果:
本发明实施例通过获取目标文本信息,并且对所述目标文本信息进行预处理,得到待识别文本信息;通过文本信息识别模型对所述待识别文本信息进行字义识别处理,得到所述待识别文本信息对应的字义特征向量;通过文本信息识别模型对所述待识别文本信息进行字音识别处理,得到所述待识别文本信息对应的字音特征向量;通过文本信息识别模型对所述待识别文本信息进行字形识别处理,得到所述待识别文本信息对应的字形特征向量;对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到融合特征向量;基于所述融合特征向量,对所述待识别文本信息进行识别,由此,可以通过融合特征向量,自动对待识别文本信息进行识别,高效地发现待识别文本信息中所出现的错误字符,不仅省去了人工标注混淆集的繁琐步骤,而且可以检测和识别不在混淆集中的错误字符,通过字形、字音、字义的联合检测,识别的准确度更高,提升用户的使用体验。
附图说明
图1为本发明实施例提供的文本信息识别方法的使用场景示意图;
图2为本发明实施例提供的电子设备的组成结构示意图;
图3为本发明实施例提供的文本信息识别方法一个可选的流程示意图;
图4为本发明实施例中文本信息识别模型的模型结构示意图;
图5为本发明实施例中文本信息识别模型一个可选的结构示意图;
图6为本发明实施例中文本信息识别模型一个可选的识别过程示意图;
图7为本发明实施例中文本信息识别模型中编码器一个可选的结构示意图;
图8为本发明实施例中文本信息识别模型中编码器的向量拼接示意图;
图9为本发明实施例中文本信息识别模型中编码器的编码过程示意图;
图10为本发明实施例中文本信息识别模型中解码器的解码过程示意图;
图11为本发明实施例中文本信息识别模型中解码器的解码过程示意图;
图12为本发明实施例中文本信息识别模型中解码器的解码过程示意图;
图13为本发明实施例提供的文本信息识别方法一个可选的流程示意图;
图14为本发明实施例中文本信息识别模型的应用环境示意图;
图15为本发明实施例所提供的文本信息识别模型的工作过程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)分词库:又称切词库,指一种特定的分词方法,不同的分词库各自对应的单词字典,并可以根据各自对应的单词字典对相应的文本信息进行分词处理。
3)模型训练,对图像数据集进行多分类学习。该模型可采用TensorFlow、torch等深度学习框架进行构建,使用CNN等神经网络层的多层结合组成多分类模型。模型的输入为图像经过openCV等工具读取形成的三通道或原通道矩阵,模型输出为多分类概率,通过softmax等算法最终输出网页类别。在训练时,模型通过交叉熵等目标函数向正确趋势逼近。
4)神经网络(Neural Network,NN):人工神经网络(Artificial Neural Network,ANN),简称神经网络或类神经网络,在机器学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。
5)编码器-解码器结构:机器识别技术常用的网络结构。由编码器和解码器两部分组成,编码器将输入的文本转换为一系列能够表达输入文本特征的上下文向量,解码器接收编码器输出的结果作为自己的输入,输出对应的另一种语言的文本序列。
6)小程序(Mini Program),是一种基于面向前端的语言(例如JavaScript)开发的、在超文本标记语言(HTML,Hyper Text Markup Language)页面中实现服务的程序,由客户端(例如浏览器或内嵌浏览器核心的任意客户端)经由网络(如互联网)下载、并在客户端的浏览器环境中解释和执行的软件,节省在客户端中安装的步骤。例如,通过语音指令唤醒终端中的小程序实现在社交网络客户端中可以下载、运行用于实现机票购买、任务处理与制作、数据展示等各种服务的小程序。
7)BERT:全称为Bidirectional Encoder Representations from Transformers,一种利用海量文本的语言模型训练方法。该方法被广泛用于多种自然语言处理任务,如文本分类、文本匹配、机器阅读理解等。
8)hidden representation:隐向量表示,一个连续的向量,表示所代表单词或者语句的语义信息。sentence-level/word-level:语句级别和单词级别。
图1为本发明实施例提供的文本信息识别方法的使用场景示意图,参见图1,终端(包括终端10-1和终端10-2)上设置有能够执行不同功能相应客户端其中,所属客户端为终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中获取不同的文本信息(包括但不限于:资讯文章、专业论文、公众号文章、小说、病历信息)进行浏览,终端通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线链路实现数据传输,其中,终端(包括终端10-1和终端10-2)通过网络300从相应的服务器200中所获取的文本信息类型并不相同,例如:终端(包括终端10-1和终端10-2)既可以通过网络300从相应的服务器200中获取任意类型的文本信息,也可以通过网络300从相应的服务器200中获取浏览摘要信息后选择所需要的待识别文本信息进行浏览。服务器200中可以保存不同的机器学习进程通过不同的文本处理神经网络对所获得的文本信息进行检查,发现错别字,通过本申请所提供的文本信息识别方法,可以通过获取目标文本信息,并且对所述目标文本信息进行预处理,得到待识别文本信息;通过文本信息识别模型对所述待识别文本信息进行字义识别处理,得到所述待识别文本信息对应的字义特征向量;通过文本信息识别模型对所述待识别文本信息进行字音识别处理,得到所述待识别文本信息对应的字音特征向量;通过文本信息识别模型对所述待识别文本信息进行字形识别处理,得到所述待识别文本信息对应的字形特征向量;对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到融合特征向量;基于所述融合特征向量,对所述待识别文本信息进行识别。在本发明的一些实施例中,服务器200中所保存的不同类型的文本信息可以是在不同的在不同文本信息识别环境中利用编程语言的软件代码环境中所编写的,代码对象可以是不同类型的代码实体。例如,在C语言的软件代码中,一个代码对象可以是一个函数。在JAVA语言的软件代码中,一个代码对象可以是一个类,IOS端OC语言中可以是一段目标代码。在C++语言的软件代码中,一个代码对象可以是一个类或一个函数以执行来自于不同终端的文本处理指令。其中本申请中不再对文本信息识别模型所要处理的文本信息的来源进行区分。
服务器200通过网络300向终端(终端10-1和/或终端10-2)发送不同类型的文本信息的过程中服务器200需要确定用户所选取的文本信息进行监控,因此。作为一个事例,服务器200用于获取文本信息识别环境中的目标文本,基于所述融合特征向量,对所述待识别文本信息进行识别,对错误的字符信息进行修改,最终在显示界面中呈现相匹配的正确的文本信息或者错误信息的修改过程,便于用户执行后续的不同操作。
下面对本发明实施例的电子设备的结构做详细说明,电子设备可以各种形式来实施,如带有文本处理功能的专用终端,也可以为带有文本处理功能的电子设备,例如前述图1中的服务器200。图2为本发明实施例提供的电子设备的组成结构示意图,可以理解,图2仅仅示出了电子设备的示例性结构而非全部结构,根据需要可以实施图2示出的部分结构或全部结构。
本发明实施例提供的电子设备包括:至少一个处理器201、存储器202、用户接口203和至少一个网络接口204。电子设备20中的各个组件通过总线系统205耦合在一起。可以理解,总线系统205用于实现这些组件之间的连接通信。总线系统205除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统205。
其中,用户接口203可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
可以理解,存储器202可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。本发明实施例中的存储器202能够存储数据以支持终端(如10-1)的操作。这些数据的示例包括:用于在终端(如10-1)上操作的任何计算机程序,如操作系统和应用程序。其中,操作系统包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。
在一些实施例中,本发明实施例提供的文本信息识别装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的文本信息识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的文本信息识别方法。例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
作为本发明实施例提供的文本信息识别装置采用软硬件结合实施的示例,本发明实施例所提供的文本信息识别装置可以直接体现为由处理器201执行的软件模块组合,软件模块可以位于存储介质中,存储介质位于存储器202,处理器201读取存储器202中软件模块包括的可执行指令,结合必要的硬件(例如,包括处理器201以及连接到总线205的其他组件)完成本发明实施例提供的文本信息识别方法。
作为示例,处理器201可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
作为本发明实施例提供的文本信息识别装置采用硬件实施的示例,本发明实施例所提供的装置可以直接采用硬件译码处理器形式的处理器201来执行完成,例如,被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,ComplexProgrammable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable GateArray)或其他电子元件执行实现本发明实施例提供的文本信息识别方法。
本发明实施例中的存储器202用于存储各种类型的数据以支持电子设备20的操作。这些数据的示例包括:用于在电子设备20上操作的任何可执行指令,如可执行指令,实现本发明实施例的从文本信息识别方法的程序可以包含在可执行指令中。
在另一些实施例中,本发明实施例提供的文本信息识别装置可以采用软件方式实现,图2示出了存储在存储器202中的文本信息识别装置2020,其可以是程序和插件等形式的软件,并包括一系列的模块,作为存储器202中存储的程序的示例,可以包括文本信息识别装置2020,文本信息识别装置2020中包括以下的软件模块:信息传输模块2081,信息处理模块2082。当文本信息识别装置2020中的软件模块被处理器201读取到RAM中并执行时,将实现本发明实施例提供的文本信息识别方法,下面对文本信息识别装置2020中各个软件模块的功能进行介绍:
信息传输模块2081,用于获取目标文本信息,并且对所述目标文本信息进行预处理,得到待识别文本信息。
信息处理模块2082,用于通过文本信息识别模型对所述待识别文本信息进行字义识别处理,得到所述待识别文本信息对应的字义特征向量。
所述信息处理模块2082,用于通过文本信息识别模型对所述待识别文本信息进行字音识别处理,得到所述待识别文本信息对应的字音特征向量。
所述信息处理模块2082,用于通过文本信息识别模型对所述待识别文本信息进行字形识别处理,得到所述待识别文本信息对应的字形特征向量。
所述信息处理模块2082,用于对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到融合特征向量。
所述信息处理模块2082,用于基于所述融合特征向量,对所述待识别文本信息进行识别。
根据图2所示的电子设备,在本申请的一个方面中,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述文本信息识别方法的各种可选实现方式中所提供的不同实施例及实施例的组合。
结合图2示出的电子设备20说明本发明实施例提供的文本信息识别方法,参见图3,图3为本发明实施例提供的文本信息识别方法一个可选的流程示意图,可以理解地,图3所示的步骤可以由运行文本信息识别装置的各种电子设备执行,例如可以是如带有检索指令检查处理功能的专用终端、带有对输入字符进行检测功能的电子设备或者检查用户上传文本信息的电子设备集群。下面针对图3示出的步骤进行说明。
步骤301:文本信息识别装置获取目标文本信息,并且对目标文本信息进行预处理,得到待识别文本信息。
在本发明的一些实施例中,对目标文本信息进行预处理,得到待识别文本信息,可以通过以下方式实现:
根据所述目标文本信息的识别环境,提取所述目标文本所携带的文本参数信息,触发相应的分词库;通过所触发的所述分词库单词词典对所述目标文本进行分词处理,提取中文字符文本,形成不同的词语级特征向量;对所述不同的词语级特征向量进行除噪处理,形成与所述目标文本相对应的词语级特征向量集合。在预处理的过程中,可以不将目标文本中的阿拉伯数字转为汉字,仅做与数字无关的转换,例如繁体转简体等,保留句子中的阿拉伯数字的原始形式,同时,与数字连接的国际单位制缩写,比如g,kg,cm等,也不做转换,保留原始状态。对于中文文本,相应的需要对中文文本进行分词,因为在汉语里面词语才能包含完整的信息。相应的可以使用中文分词工具Jieba对中文文本进行分词。其中,“这件事发生在二零零一年”,分词之后变成了“这/件/事/发/生/在/二/零/零/一/年”。其中,所谓分词,即有动词含义也有名词含义;每个分词就是一个单词或者词组,即有确定意义的最小语义单元;对于所接收的不同的用户或者不同的文本信息识别模型的使用环境,其需要划分其中包含的最小语义单位也是不同的,需要及时地做出调整,这一过程叫做分词,即分词可以指上述划分最小语义单位的过程;另一方面,划分后获得的最小语义单位,也常常被称为分词,即分词这个操作执行后获得的单词;有时为了将两个意思相互区别,将后一个意思所指称的最小语义单位称为分词对象(Term);本申请中即使用分词对象这个称呼;分词对象对应于倒排表中作为索引依据的关键词。对于汉语而言,由于作为最小语义单位的词往往是由不同数量的字组成的,词之间不存在空白隔断等拼音文字中天然的区分标志,因此,对于汉语而言,准确进行分词以获得合理的分词对象是一个重要的步骤。
在本发明的一些实施例中,对所述不同的词语级特征向量进行除噪处理,形成与所述目标文本相对应的词语级特征向量集合,可以通过以下方式实现:
确定与所述目标文本信息的识别环境相匹配的动态噪声阈值;根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;根据与所述动态噪声阈值相匹配的动态分词策略,对所述目标文本进行分词处理,提取中文字符文本,形成与所述目标文本相对应的动态词语级特征向量集合。也可以确定与所述目标文本信息的识别环境相对应的固定噪声阈值;根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;根据与所述固定噪声阈值相匹配的固定分词策略,对所述目标文本进行分词处理,提取中文字符文本,与所述目标文本相对应的固定词语级特征向量集合。具体来说,对于进行文本信息的识别时,由于学术识别的使用环境中,终端所显示的文本信息仅包括了学术论文的文本信息,与所述文本信息识别模型的使用环境相匹配的动态噪声阈值需要小于娱乐信息文本的阅读环境中的动态噪声阈值。相反的,当文本信息识别模型固化于相应的硬件机构中,例如智能学习台灯中时,使用环境为对用户上传的语文作业进行检查是(或者语文试卷或者,用户的作文)时,由于噪声较为单一,通过固定文本信息识别模型相对应的固定噪声阈值,能够有效提升文本信息识别模型的处理速度,减少用户的等待时间,提升用户的使用体验。
步骤302:文本信息识别装置通过文本信息识别模型对所述待识别文本信息进行字义识别处理,得到所述待识别文本信息对应的字义特征向量。
步骤303:文本信息识别装置通过文本信息识别模型对所述待识别文本信息进行字音识别处理,得到所述待识别文本信息对应的字音特征向量。
在本发明的一些实施例中,参考图4,图4为本发明实施例中文本信息识别模型的模型结构示意图,其中,得到所述待识别文本信息对应的字义特征向量,可以通过以下方式实现:
通过所述文本信息识别模型中的字义编码器网络,对所述待识别文本信息进行处理,确定与所述待识别文本信息所对应的字符特征向量;通过所述字义编码器网络,根据所述字符特征向量确定与所述待识别文本信息所对应的至少一个词语级的隐变量;通过所述字义编码器网络,根据所述至少一个词语级的隐变量以及与所述待识别文本信息所对应的字符特征向量,确定所述待识别文本信息对应的字义特征向量。具体来说,如图4所示,字义编码器网络的输入记作X=(x1,x2,…,xn),N为输入句子的长度。在本申请中,可以使用12层预训练的BERT模型来编码字意信息。BERT模型由12层Transformer构成,具体每一层的编码参考公式1:
Figure BDA0003070081700000151
其中,L为字意编码器的层数,这里使用12。
编码后字义特征向量参考公式2:
Figure BDA0003070081700000152
继续参考图5,图5为本发明实施例中文本信息识别模型一个可选的结构示意图,其中,Encoder包括:N=6个相同的layers组成,每一层包含两个sub-layers。第一个sub-layer就是多头注意力层(multi-head attention layer)然后是一个简单的全连接层。其中每个sub-layer都加了残差连接(residual connection)和归一化(normalisation)。
Decoder包括:由N=6个相同的Layer组成,其中layer和encoder并不相同,这里的layer包含了三个sub-layers,其中有一个self-attention layer,encoder-decoderattention layer最后是一个全连接层。前两个sub-layer都是基于multi-head attentionlayer。具体的,左侧的Nx表示编码器的其中一层的结构,这一层中包括两个子层,第一个子层为多头注意力层,第二个子层为前向传播层。每个子层的输入和输出都存在关联,当前子层的输出作为下一个子层的一个输入数据。每个子层的后面紧接着一个归一化操作,归一化操作能够提高模型的收敛速度。右侧的Nx表示解码器的其中一层的结构,解码器的一层中包括三个子层,第一个子层为mask矩阵控制的多头注意力子层,用来建模已经生成的目标端句子向量,在训练的过程中,需要一个mask矩阵来控制,使得每次多头注意力计算的时候,只计算到前t-1个词。第二个子层是多头注意力子层,是编码器和解码器之间的注意力机制,也就是在源文本中查找相关的语义信息,该层的计算使用了点积的方式。第三个子层是前向传播子层,与编码器中的前向传播子层的计算方式一致。解码器的每个子层之间也都存在着关联,当前子层的输出作为下一个子层的一个输入数据。并且解码器的每个子层之后同样紧接着一个归一化操作,以加快模型收敛。
继续参考图6,图6为本发明实施例中文本信息识别模型一个可选的识别过程示意图,其中,其中,encoder和decoder部分都包含了6个encoder和decoder。进入到第一个encoder的inputs结合embedding和positional embedding。通过了6个encoder之后,输出到了decoder部分的每一个decoder中;输入待识别语句为英语“我是学生”经过文本信息识别模型的处理,输出的识别结果为:“我/是/学/生”。
继续参考图7,图7为本发明实施例中文本信息识别模型中编码器一个可选的结构示意图,其中,其输入由维度为d的查询(Q)和键(K)以及维度为d的值(V)组成,所有键计算查询的点积,并应用softmax函数获得值的权重。
继续参考图7,图7为本发明实施例中文本信息识别模型中编码器的向量示意图,其中Q,K和V的是通过输入encoder的向量x与W^Q,W^K,W^V相乘得到Q,K和V。W^Q,W^K,W^V在文章的维度是(512,64),然后假设我们inputs的维度是(m,512),其中m代表了字的个数。所以输入向量与W^Q,W^K,W^V相乘之后得到的Q、K和V的维度就是(m,64)。
继续参考图8,图8为本发明实施例中文本信息识别模型中编码器的向量拼接示意图,其中,Z0到Z7就是对应的8个并行的head(维度是(m,64)),然后concat这个8个head之后就得到了(m,512)维度。最后与W^O相乘之后就到了维度为(m,512)的输出的矩阵,那么这个矩阵的维度就和进入下一个encoder的维度保持一致。
继续参考图9,图9为本发明实施例中文本信息识别模型中编码器的编码过程示意图,其中,x1经过self-attention到了z1的状态,通过了self-attetion的张量还需要进过残差网络和Later Norm的处理,然后进入到全连接的前馈网络中,前馈网络需要进行同样的操作,进行的残差处理和正规化。最后输出的张量才可以的进入到了下一个encoder之中,然后这样的操作,迭代经过了6次,迭代处理的结果进入到decoder中。
继续参考图10,图10为本发明实施例中文本信息识别模型中解码器的解码过程示意图,其中,decoder的输入输出和解码过程:
输出:对应i位置的输出词的概率分布;
输入:encoder的输出&对应i-1位置decoder的输出。所以中间的attention不是self-attention,它的K,V来自encoder,Q来自上一位置decoder的输出。
继续参考图11和图12,图11为本发明实施例中文本信息识别模型中解码器的解码过程示意图,其中。解码器网络的最后一个decoder输出的向量会经过Linear层和softmax层。图12为本发明实施例中文本信息识别模型中解码器的解码过程示意图,Linear层的作用就是对decoder部分出来的向量做映射成一个logits向量,然后softmax层根据这个logits向量,将其转换为了概率值,最后找到概率最大值的位置,即完成了解码器的输出。
步骤304:文本信息识别装置通过文本信息识别模型对所述待识别文本信息进行字形识别处理,得到所述待识别文本信息对应的字形特征向量。
结合图2所示的模型结构,参见图13,图13为本发明实施例提供的文本信息识别方法一个可选的流程示意图,可以理解地,图13所示的步骤可以由运行文本信息识别装置的各种电子设备执行,以得到待识别文本信息对应的字音特征向量和字形特征向量,具体包括以下步骤:
步骤1301:根据所述目标文本信息的识别环境,通过所述文本信息识别模型中的字音编码器网络,提取所述待识别文本信息中每一个字符对应的拼音,以及所述待识别文本信息中每一个字符对应的语调。
步骤1302:根据所述待识别文本信息中每一个字符对应的拼音,以及所述待识别文本信息中每一个字符对应的语调,确定所述待识别文本信息中每一个字符级别的单一字符读音特征向量。
步骤1303:通过所述文本信息识别模型中的字音编码器网络,对所述待识别文本信息中每一个字符对应的单一字符读音特征向量进行组合处理,形成语句级别的读音特征向量。
其中,可以首先提取出每个字的汉语拼音。将拼音的一声、二声、三声、四声和轻声用1、2、3、4和0这5个数字表示。以“轻”字为例,本文中将其拼音记作字母和数字序列p=(q,i,n,g,1)。
为了捕捉汉字读音在单字级别和整句级别的信息,可以分别字级别字音编码和语句级别别字音编码。其中,字级别读音编码可以使用一个单向的RNN模型,此处采用GRU模型的处理过程参考公式3:
Figure BDA0003070081700000181
其中,E(pi,j)是拼音的embedding,
Figure BDA0003070081700000182
是第i个字的第j个拼音或数字字母的向量表示。语句级别别字音编码采用4层的Transformer模型,输入为字级别字音编码器的输出。需要说明的是,门控循环单元网络(GRU Gated Recurrent Unit)是比LSTM参数更少的能够很好处理序列信息的模型,接下来将融合特征输入前馈神经网络,目的是为了处理其他特征的有效信息。将错误字符识别作为预测发生概率问题,使用sigmoid函数(逻辑函数)作为输出层,损失函数是标准的交叉熵损失,参考以下:
Figure BDA0003070081700000183
其中,GRU层是为了进行深度特征抽取,也可以省略GRU层替换为多拼接几层前馈神经网络层,同样能够有效的处理和融合特征。
编码后的字音特征向量可以表示为公式4:
Figure BDA0003070081700000191
其中,本发明实施例可结合云技术或区块链网络技术实现,云技术(Cloudtechnology)是指在广域网或局域网内将硬件、软件及网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术,也可理解为基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术及应用技术等的总称。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站,因此云技术需要以云计算作为支撑。
需要说明的是,云计算是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。作为云计算的基础能力提供商,会建立云计算资源池平台,简称云平台,一般称为基础设施即服务(IaaS,Infrastructure as a Service),在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(可为虚拟化机器,包含操作系统)、存储设备和网络设备。
在本发明的一些实施例中,通过云端的TTS服务器可以利用唤醒文本生成N个不同的唤醒词语音(读音),形成不同帧长的特征向量,举例来说,用户可以根据不同的使用场景对待识别文本进行任意修改,TTS服务器根据发音词典将所述待识别文本所包含的每个字符转换成音节标识,以提取对应的唤醒词特征。
在本发明的一些实施例中,还可以通过所述文字语音转换服务器,根据发音词典将所述待识别文本所包含的每个字符转换成音节标识;构建所述音节标识与所述待识别文本所包含的字符之间的映射关系集合,形成不同的音节组合序列,作为所述唤醒语音特征集合中的元素。具体来说,待识别文本为中文时,每个汉字为一个字符,每个字符的读音对应音节标识。例如,待识别文本信息为“难”字,其读音可以是第二声,也可以是第四声,每个读音分配一个标识ID(Identifier)用于作为音节标识,进而构建音节标识与待识别文本所包含的字符之间的映射关系集合,形成不同的音节组合序列,作为唤醒语音特征集合中的元素,进一步地,当醒词文本信息为“薄”字其读音可以是第二声“bao”,也可以是第二声“bo”,每个读音分配一个标识ID(Identifier)用于作为音节标识,进而构建音节标识与待识别文本所包含的字符之间的映射关系集合,形成不同的音节组合序列,作为唤醒语音特征集合中的元素。
步骤1304:基于所述语句级别的读音特征向量,确定所述待识别文本信息对应的字音特征向量。
步骤1305:通过所述文本信息识别模型中的字形编码器网络,对所待识别文本信息对应的字符图像进行单一化提取,并通过所述字形编码器网络对经过单一化处理的字符图像进行降噪处理。
步骤1306:通过所述字形编码器网络对经过降噪处理的字符的图像进行交叉降采样处理,得到所述字符图像的降采样结果,并对所述降采样结果进行归一化处理。
在本发明的一些实施例中,可以根据所述目标文本信息的识别环境,筛选简体中文黑体字符图像、繁体中文黑体字符图像和小篆体中文字符图像,作为所待识别文本信息对应的字符图像。其中,可以使用5层ResNet网络作为字形编码器,处理过程参考公式5:
Figure BDA0003070081700000201
Figure BDA0003070081700000202
步骤1307:对所述字符图像的降采样结果进行横向规范化处理,得到横向规范化处理结果。
其中,横向规范化处理综合考虑一层所有维度的输入,计算该层的平均输入值和输入方差,然后用同一个规范化操作来转换各个维度的输入。横向规范化处理(LayerNormalization)针对单个训练样本进行,不依赖于其他数据,因此可以避免BN中受mini-batch数据分布影响的问题,可以用于小mini-batch场景、动态网络场景和RNN,特别是自然语言处理领域。此外,LN不需要保存mini-batch的均值和方差,节省了额外的存储空间。
步骤1308:根据所述横向规范化处理结果,确定与待识别文本信息对应的字形特征向量。
步骤305:文本信息识别装置对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到融合特征向量。
在本发明的一些实施例中,可以通过文本信息识别模型的特征融合网络,对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到单一字符级别的融合特征向量;通过所述文本信息识别模型的特征融合网络,对所述单一字符级别的融合特征向量进行融合处理,得到语句级别的融合特征向量。其中,对于单字级融合参考公式6:
Figure BDA0003070081700000211
之后使用了3层Transformer进行整句级信息融合,参考公式7:
Figure BDA0003070081700000212
其中L’为3,最后,预测第i个字对应的正确汉字及其概率,参考公式8。
Figure BDA0003070081700000213
步骤306:文本信息识别装置基于所述融合特征向量,对所述待识别文本信息进行识别。
在本发明的一些实施例中,在确定是否出现错误字符时,可以通过所文本信息识别模型的解码器网络,根据所述融合特征向量,生成与所述识别文本信息相对应的错误字符被选取概率;对所述错误字符被选取概率与目标文本信息的识别环境的置信度阈值进行比较,得到置信度阈值比较结果;根据所述置信度阈值比较结果,执行至少以下之一:保持所述识别文本信息相对应的错误字符;或者,对所述识别文本信息相对应的错误字符进行调整。
当然在服务器中部署文本信息识别模型之前,还需对文本信息识别模型进行训练以确定模型参数,具体来说,可以根据所述目标文本信息的识别环境类型,确定与所述文本信息识别模型相匹配的训练样本集合,其中,所述训练样本集合包括至少一组训练样本;通过所述文本信息识别模型相匹配的噪音阈值提取与所述训练样本相匹配的训练样本集合;根据与所述训练样本相匹配的训练样本集合对所述文本信息识别模型进行训练。训练过程中,可以确定与所述文本信息识别模型相匹配的多任务损失函数;基于所述多任务损失函数,调整所述文本信息识别模型中的不同编码器网络参数和解码器网络参数,直至所述文本信息识别模型对应的不同维度的损失函数达到相应的收敛条件;以实现所述文本信息识别模型的参数与目标文本信息的识别环境类型相适配。
下面以封装于相应APP中的文本信息识别模型对本发明实施例所提供的文本信息识别模型进行说明,其中,图14为本发明实施例中文本信息识别模型的应用环境示意图,如图14所示,随着人机交互技术的发展,越来越多的基于人机交互技术的智能产品应运而生,例如即时通讯客户端的自动回复机器人,这些智能产品可以和用户进行聊天交流,并根据用户的问题生成相应的回答信息,这一过程中需要对用户输入的信息中的错别字进行检测,以保证回复的正确性。
图15为本发明实施例所提供的文本信息识别模型的工作过程示意图,具体包括以下步骤:
步骤1501:获取待处理文本信息和关联文本信息,并触发即时通讯APP中的文本信息识别模型。
步骤1502:基于即时通讯APP中对话信息,确定使用语境类型。
步骤1503:获取目标文本信息,并且对所述目标文本信息进行预处理,得到待识别文本信息。
步骤1504:通过文本信息识别模型对所述待识别文本信息进行字义识别处理,得到所述待识别文本信息对应的字义特征向量。
步骤1505:通过文本信息识别模型对所述待识别文本信息进行字音识别处理,得到所述待识别文本信息对应的字音特征向量。
步骤1506:通过文本信息识别模型对所述待识别文本信息进行字形识别处理,得到所述待识别文本信息对应的字形特征向量。
步骤1507:对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到融合特征向量。
步骤1508:与阈值比较,执行不同处理,判断是否高于阈值,如果是,执行步骤1509,否则,执行步骤1510。
步骤1509:返回改正后的字符。
步骤1510:返回原字符。
有益技术效果:
本发明实施例通过获取目标文本信息,并且对所述目标文本信息进行预处理,得到待识别文本信息;通过文本信息识别模型对所述待识别文本信息进行字义识别处理,得到所述待识别文本信息对应的字义特征向量;通过文本信息识别模型对所述待识别文本信息进行字音识别处理,得到所述待识别文本信息对应的字音特征向量;通过文本信息识别模型对所述待识别文本信息进行字形识别处理,得到所述待识别文本信息对应的字形特征向量;对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到融合特征向量;基于所述融合特征向量,对所述待识别文本信息进行识别,由此,可以通过融合特征向量,自动对待识别文本信息进行识别,高效地发现待识别文本信息中所出现的错误字符,不仅省去了人工标注混淆集的繁琐步骤,而且可以检测和识别不在混淆集中的错误字符,通过字形、字音、字义的联合检测,识别的准确度更高,提升用户的使用体验。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (15)

1.一种文本信息识别方法,其特征在于,所述方法包括:
获取目标文本信息,并且对所述目标文本信息进行预处理,得到待识别文本信息;
通过文本信息识别模型对所述待识别文本信息进行字义识别处理,得到所述待识别文本信息对应的字义特征向量;
通过文本信息识别模型对所述待识别文本信息进行字音识别处理,得到所述待识别文本信息对应的字音特征向量;
通过文本信息识别模型对所述待识别文本信息进行字形识别处理,得到所述待识别文本信息对应的字形特征向量;
对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到融合特征向量;
基于所述融合特征向量,对所述待识别文本信息进行识别。
2.根据权利要求1所述的方法,其特征在于,所述获取目标文本信息,并且对所述目标文本信息进行预处理,得到待识别文本信息,包括:
根据所述目标文本信息的识别环境,提取所述目标文本所携带的文本参数信息,触发相应的分词库;
通过所触发的所述分词库单词词典对所述目标文本进行分词处理,提取中文字符文本,形成不同的词语级特征向量;
对所述不同的词语级特征向量进行除噪处理,形成与所述目标文本相对应的词语级特征向量集合。
3.根据权利要求2所述的方法,其特征在于,所述对所述不同的词语级特征向量进行除噪处理,形成与所述目标文本相对应的词语级特征向量集合,包括:
确定与所述目标文本信息的识别环境相匹配的动态噪声阈值;
根据所述动态噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述动态噪声阈值相匹配的动态分词策略;
根据与所述动态噪声阈值相匹配的动态分词策略,对所述目标文本进行分词处理,提取中文字符文本,形成与所述目标文本相对应的动态词语级特征向量集合。
4.根据权利要求2所述的方法,其特征在于,所述对所述不同的词语级特征向量进行除噪处理,形成与所述目标文本相对应的词语级特征向量集合,包括:
确定与所述目标文本信息的识别环境相对应的固定噪声阈值;
根据所述固定噪声阈值对所述不同的词语级特征向量进行除噪处理,并触发与所述固定噪声阈值相匹配的固定分词策略;
根据与所述固定噪声阈值相匹配的固定分词策略,对所述目标文本进行分词处理,提取中文字符文本,与所述目标文本相对应的固定词语级特征向量集合。
5.根据权利要求1所述的方法,其特征在于,所述通过文本信息识别模型对所述待识别文本信息进行字义识别处理,得到所述待识别文本信息对应的字义特征向量,包括:
通过所述文本信息识别模型中的字义编码器网络,对所述待识别文本信息进行处理,确定与所述待识别文本信息所对应的字符特征向量;
通过所述字义编码器网络,根据所述字符特征向量确定与所述待识别文本信息所对应的至少一个词语级的隐变量;
通过所述字义编码器网络,根据所述至少一个词语级的隐变量以及与所述待识别文本信息所对应的字符特征向量,确定所述待识别文本信息对应的字义特征向量。
6.根据权利要求1所述的方法,其特征在于,所述通过文本信息识别模型对所述待识别文本信息进行字音识别处理,得到所述待识别文本信息对应的字音特征向量,包括:
根据所述目标文本信息的识别环境,通过所述文本信息识别模型中的字音编码器网络,提取所述待识别文本信息中每一个字符对应的拼音,以及所述待识别文本信息中每一个字符对应的语调;
根据所述待识别文本信息中每一个字符对应的拼音,以及所述待识别文本信息中每一个字符对应的语调,确定所述待识别文本信息中每一个字符级别的单一字符读音特征向量;
通过所述文本信息识别模型中的字音编码器网络,对所述待识别文本信息中每一个字符对应的单一字符读音特征向量进行组合处理,形成语句级别的读音特征向量;
基于所述语句级别的读音特征向量,确定所述待识别文本信息对应的字音特征向量。
7.根据权利要求1所述的方法,其特征在于,所述通过文本信息识别模型对所述待识别文本信息进行字形识别处理,得到所述待识别文本信息对应的字形特征向量,包括:
通过所述文本信息识别模型中的字形编码器网络,对所待识别文本信息对应的字符图像进行单一化提取;
通过所述字形编码器网络对经过单一化处理的字符图像进行降噪处理;
通过所述字形编码器网络对经过降噪处理的字符的图像进行交叉降采样处理,得到所述字符图像的降采样结果,并对所述降采样结果进行归一化处理;
对所述字符图像的降采样结果进行横向规范化处理,得到横向规范化处理结果;
根据所述横向规范化处理结果,确定与待识别文本信息对应的字形特征向量。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
根据所述目标文本信息的识别环境,筛选简体中文黑体字符图像、繁体中文黑体字符图像和小篆体中文字符图像,作为所待识别文本信息对应的字符图像。
9.根据权利要求1所述的方法,其特征在于,对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到融合特征向量,包括:
通过文本信息识别模型的特征融合网络,对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到单一字符级别的融合特征向量;
通过所述文本信息识别模型的特征融合网络,对所述单一字符级别的融合特征向量进行融合处理,得到语句级别的融合特征向量。
10.根据权利要求1所述的方法,其特征在于,所述基于所述融合特征向量,对所述待识别文本信息进行识别,包括:
通过所文本信息识别模型的解码器网络,根据所述融合特征向量,生成与所述识别文本信息相对应的错误字符被选取概率;
对所述错误字符被选取概率与目标文本信息的识别环境的置信度阈值进行比较,得到置信度阈值比较结果;
根据所述置信度阈值比较结果,执行至少以下之一:
保持所述识别文本信息相对应的错误字符;
对所述识别文本信息相对应的错误字符进行调整。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述目标文本信息的识别环境类型,确定与所述文本信息识别模型相匹配的训练样本集合,其中,所述训练样本集合包括至少一组训练样本;
通过所述文本信息识别模型相匹配的噪音阈值提取与所述训练样本相匹配的训练样本集合;
根据与所述训练样本相匹配的训练样本集合对所述文本信息识别模型进行训练。
12.根据权利要求11所述的方法,其特征在于,所述根据与所述训练样本相匹配的训练样本集合对所述文本信息识别模型进行训练,包括:
确定与所述文本信息识别模型相匹配的多任务损失函数;
基于所述多任务损失函数,调整所述文本信息识别模型中的不同编码器网络参数和解码器网络参数,直至所述文本信息识别模型对应的不同维度的损失函数达到相应的收敛条件;以实现所述文本信息识别模型的参数与目标文本信息的识别环境类型相适配。
13.一种文本信息识别装置,其特征在于,所述装置包括:
信息传输模块,用于获取目标文本信息,并且对所述目标文本信息进行预处理,得到待识别文本信息;
信息处理模块,用于通过文本信息识别模型对所述待识别文本信息进行字义识别处理,得到所述待识别文本信息对应的字义特征向量;
所述信息处理模块,用于通过文本信息识别模型对所述待识别文本信息进行字音识别处理,得到所述待识别文本信息对应的字音特征向量;
所述信息处理模块,用于通过文本信息识别模型对所述待识别文本信息进行字形识别处理,得到所述待识别文本信息对应的字形特征向量;
所述信息处理模块,用于对所述字义特征向量、所述字音特征向量以及所述字形特征向量,进行特征融合处理,得到融合特征向量;
所述信息处理模块,用于基于所述融合特征向量,对所述待识别文本信息进行识别。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现权利要求1至12任一项所述的文本信息识别方法。
15.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时实现权利要求1至12任一项所述的文本信息识别方法。
CN202110536584.4A 2021-05-17 2021-05-17 一种文本信息识别方法、装置、电子设备及存储介质 Pending CN113761883A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110536584.4A CN113761883A (zh) 2021-05-17 2021-05-17 一种文本信息识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110536584.4A CN113761883A (zh) 2021-05-17 2021-05-17 一种文本信息识别方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113761883A true CN113761883A (zh) 2021-12-07

Family

ID=78787076

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110536584.4A Pending CN113761883A (zh) 2021-05-17 2021-05-17 一种文本信息识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113761883A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065768A (zh) * 2021-12-08 2022-02-18 马上消费金融股份有限公司 特征融合模型的训练、文本处理方法及装置
CN114461806A (zh) * 2022-02-28 2022-05-10 同盾科技有限公司 广告识别模型的训练方法及装置、广告屏蔽方法
WO2023184633A1 (zh) * 2022-03-31 2023-10-05 上海蜜度信息技术有限公司 一种中文拼写纠错方法及系统、存储介质及终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065768A (zh) * 2021-12-08 2022-02-18 马上消费金融股份有限公司 特征融合模型的训练、文本处理方法及装置
CN114461806A (zh) * 2022-02-28 2022-05-10 同盾科技有限公司 广告识别模型的训练方法及装置、广告屏蔽方法
WO2023184633A1 (zh) * 2022-03-31 2023-10-05 上海蜜度信息技术有限公司 一种中文拼写纠错方法及系统、存储介质及终端

Similar Documents

Publication Publication Date Title
CN109446534B (zh) 机器翻译方法及装置
WO2021072875A1 (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
CN109214006B (zh) 图像增强的层次化语义表示的自然语言推理方法
KR20200031154A (ko) 인공 신경망을 이용한 심층 문맥 기반 문법 오류 정정
CN113761883A (zh) 一种文本信息识别方法、装置、电子设备及存储介质
KR102315830B1 (ko) 반지도 학습 기반 단어 단위 감정 임베딩과 lstm 모델을 이용한 대화 내에서 발화의 감정 분류 방법
CN114676234A (zh) 一种模型训练方法及相关设备
CN111739520B (zh) 一种语音识别模型训练方法、语音识别方法、装置
Madhfar et al. Effective deep learning models for automatic diacritization of Arabic text
CN116578688A (zh) 基于多轮问答的文本处理方法、装置、设备及存储介质
CN111597807B (zh) 分词数据集生成方法、装置、设备及其存储介质
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN112185361A (zh) 一种语音识别模型训练方法、装置、电子设备及存储介质
CN114757210A (zh) 翻译模型的训练方法、语句翻译方法、装置、设备、程序
CN116611459B (zh) 翻译模型的训练方法、装置、电子设备及存储介质
CN113705207A (zh) 语法错误识别方法及装置
CN116483314A (zh) 一种自动化智能活动图生成方法
CN114611529B (zh) 意图识别方法和装置、电子设备及存储介质
CN116432705A (zh) 文本生成模型构建、文本生成方法和装置、设备及介质
WO2023137903A1 (zh) 基于粗糙语义的回复语句确定方法、装置及电子设备
CN115759262A (zh) 基于知识感知注意力网络的视觉常识推理方法及系统
CN115374784A (zh) 一种多模态信息选择性融合的中文命名实体识别方法
CN113657092A (zh) 识别标签的方法、装置、设备以及介质
CN113555006B (zh) 一种语音信息识别方法、装置、电子设备及存储介质
Sharma et al. Language identification for hindi language transliterated text in roman script using generative adversarial networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination