CN110874408B - 模型训练方法、文本识别方法、装置及计算设备 - Google Patents

模型训练方法、文本识别方法、装置及计算设备 Download PDF

Info

Publication number
CN110874408B
CN110874408B CN201810996981.8A CN201810996981A CN110874408B CN 110874408 B CN110874408 B CN 110874408B CN 201810996981 A CN201810996981 A CN 201810996981A CN 110874408 B CN110874408 B CN 110874408B
Authority
CN
China
Prior art keywords
text
target
training
semantic
level features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810996981.8A
Other languages
English (en)
Other versions
CN110874408A (zh
Inventor
任巨伟
赵伟朋
周伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810996981.8A priority Critical patent/CN110874408B/zh
Publication of CN110874408A publication Critical patent/CN110874408A/zh
Application granted granted Critical
Publication of CN110874408B publication Critical patent/CN110874408B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种模型训练方法、文本识别方法、装置及计算设备。其中,进行模型训练时,基于其语义信息生成目标训练文本的语义级别特征,从而将目标训练文本的词级别特征以及语义级别特征融合获得文本特征,在基于目标训练文本的文本特征,训练文本识别模型,训练获得的文本识别模型可以具体基于待处理文本的文本特征进行文本识别,待处理文本的文本特征由其语义级别特征以及词级别特征融合获得,本申请实施例中在原有词级别特征基础上,加入语义级别特征,使得文本识别模型可以从语义上进行文本识别,提高了模型识别准确度。

Description

模型训练方法、文本识别方法、装置及计算设备
技术领域
本申请实施例涉及计算机应用技术领域,尤其涉及一种模型训练方法、文本识别方法、装置及计算设备。
背景技术
随着人机交互技术的发展,人机对话在诸多场景中得到了广泛应用,所谓人机对话也即是基于用户输入语句,能够智能输出相应的应答内容,看起来像是用户与设备进行了对话。
目前实现人机对话的方案中,通常是将用户输入语句与知识库中的<Q,A>数据进行匹配,其中,Q为知识库中的知识点,也即采用标准术语表述的标准文本,A为知识点对应的应答内容,基于相似度可以从知识库中查找与用户输入语句匹配的知识点,从而即可以找到对应的应答内容。
因此,如何准确识别与用户输入语句匹配的知识点,是提高人机对话准确度的关键技术,现有的一种方式是采用机器学习模型来进行识别,使用机器学习模型进行文本识别时,需要将文本转换为向量表示,常见方式是将文本进行分词,再采用诸如one-hot(独热编码)等方式进行编码获得词级别特征,词级别特征即作为文本的向量表示输入至机器学习模型中,但是词级别特征往往忽略了词与词之间的关联,因此就会影响模型识别的准确度。
发明内容
本申请实施例提供一种模型训练方法、文本识别方法、装置及计算设备,用以解决现有技术中模型识别准确度较低的技术问题。
第一方面,本申请实施例中提供了一种模型训练方法,包括:
确定目标训练文本对应的词级别特征;
基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
将所述目标训练文本的语义级别特征与词级别特征融合,获得所述目标训练文本的文本特征;
利用所述目标训练文本的文本特征,训练文本识别模型。
第二方面,本申请实施例中提供了一种文本识别方法,包括:
确定待处理文本的词级别特征;
基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
将所述待处理文本的词级别特征及语义级别特征融合获得所述待处理文本的文本特征;
基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于训练文本的文本特征训练获得;所述训练文本的文本特征由所述训练文本的词级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得。
第三方面,本申请实施例中提供了一种模型训练方法,包括:
基于目标训练文本的字符,确定所述目标训练文本的字符级别特征;
基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
将所述目标训练文本的语义级别特征与字符级别特征融合,获得所述目标训练文本的文本特征;
利用所述目标训练文本的文本特征,训练文本识别模型。
第四方面,本申请实施例中提供了一种文本识别方法,包括:
基于待处理文本的字符,确定所述待处理文本的字符级别特征;
基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
将所述待处理文本的字符级别特征及语义级别特征融合获得所述待处理文本的文本特征;
基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于训练文本的文本特征训练获得;所述训练文本的文本特征由所述训练文本的字符级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得。
第五方面,本申请实施例中提供了一种模型训练方法,包括:
基于目标训练文本的N元分词,确定所述目标训练文本的N元模型级别特征;
基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
将所述目标训练文本的语义级别特征与字符级别特征融合,获得所述目标训练文本的文本特征;
利用所述目标训练文本的文本特征,训练文本识别模型。
第六方面,本申请实施例中提供了一种文本识别方法,包括:
基于待处理文本的N元分词,确定所述待处理文本的N元模型级别特征;
基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
将所述待处理文本的N元模型级别特征及语义级别特征融合获得所述待处理文本的文本特征;
基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于训练文本的文本特征训练获得;所述训练文本的文本特征由所述训练文本的N元模型级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得。
第七方面,本申请实施例中提供了一种模型训练装置,包括:
第一训练特征确定模块,用于确定目标训练文本对应的词级别特征;
第二训练特征确定模块,用于基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
训练特征融合模块,用于将所述目标训练文本的语义级别特征与词级别特征融合,获得所述目标训练文本的文本特征;
模型训练模块,用于利用所述目标训练文本的文本特征,训练文本识别模型。
第八方面,本申请实施例中提供了一种文本识别装置,包括:
第一文本特征确定模块,用于确定待处理文本的词级别特征;
第二文本特征确定模块,用于基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
文本特征融合模块,用于将所述待处理文本的词级别特征及语义级别特征融合获得所述待处理文本的文本特征;
文本识别模块,用于基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于训练文本的文本特征训练获得;所述训练文本的文本特征由所述训练文本的词级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得。
第九方面,本申请实施例中提供了一种计算设备,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
确定目标训练文本对应的词级别特征;
基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
将所述目标训练文本的语义级别特征与词级别特征融合,获得所述目标训练文本的文本特征;
利用所述目标训练文本的文本特征,训练文本识别模型。
第十方面,本申请实施例中提供了一种计算设备,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
确定待处理文本的词级别特征;
基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
将所述待处理文本的词级别特征及语义级别特征融合获得所述待处理文本的文本特征;
基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于训练文本的文本特征训练获得;所述训练文本的文本特征由所述训练文本的词级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得。
本申请实施例中,进行模型训练时,对于目标训练文本,基于其语义信息生成目标训练文本的语义级别特征,从而将目标训练文本的词级别特征以及语义级别特征融合获得文本特征,在基于目标训练文本的文本特征,训练文本识别模型,从而训练获得的文本识别模型可以具体基于待处理文本的文本特征进行识别,而待处理文本的文本特征由其语义级别特征以及词级别特征融合获得,本申请实施例中在原有词级别特征基础上,加入语义级别特征,使得文本特征能够准确表达文本的语义信息,使得文本识别模型可以从语义级别进行文本识别,因此提高了模型识别准确度。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请提供的一种模型训练方法一个实施例的流程图;
图2示出了本申请实施例中文本识别模型在一个实际应用中的网络结构示意图;
图3示出了本申请提供的一种文本识别方法一个实施例的流程图;
图4示出了本申请提供的一种文本识别方法又一个实施例的流程图;
图5示出了本申请提供的一种模型训练装置一个实施例的结构示意图;
图6示出了本申请提供的一种计算设备一个实施例的结构示意图;
图7示出了本申请提供的一种文本识别装置一个实施例的结构示意图;
图8示出了本申请提供的一种计算设备又一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本申请实施例的技术方案可以应用于文本匹配、文本分类等文本识别应用场景中,文本匹配例如可以应用于人机对话、信息检索、问题发现、舆情监控等场景中,其中,人机对话例如可以包括智能问答、机器人客服、聊天机器人等,文本分类例如可以应用于垃圾过滤、新闻分类、词性标注、意图识别等场景中。
在上述文本识别场景中,目前通常采用文本识别模型进行文本识别,文本识别模型为机器学习模型,比如其可以采用各种神经网络模型等,文本识别模型的输入为文本的向量表示,现有技术中,文本向量通常采用的是文本的词级别特征,也即将文本中的词利用诸如one-hot等编码方式编码获得。但是词级别特征基于文本的词生成,是一个词袋模型,词与词互相独立,没有考虑词与词之间的关联,因此词级别特征是离散稀疏的,而实际应用中文本中的词与词通常是相互影响的,因此也会影响模型识别准确度。
发明人在研究中发现,由于词级别特征是离散稀疏的,词与词之间是互相独立的,因此导致词级别特征丧失了上下文信息,使得其无法准确表达文本的语义信息,有可能丧失了文本的核心信息,才导致模型识别不准确度。因此,为了提高模型识别准确度,发明人经过一系列研究提出了本申请的技术方案,在本申请实施例中,进行模型训练时,对于目标训练文本,基于其语义信息生成目标训练文本的语义级别特征,从而将目标训练文本的词级别特征以及语义级别特征融合获得文本特征,在基于目标训练文本的文本特征,训练文本识别模型,从而文本识别模型可以具体基于待处理文本的文本特征进行识别,而待处理文本的文本特征由其语义级别特征以及词级别特征融合获得,本申请实施例中在原有词级别特征基础上,加入语义级别特征,使得文本特征能够更准确表达文本的语义信息,因此可以提高文本识别模型的识别准确度。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例提供的一种模型训练方法一个实施例的流程图,该方法可以包括以下几个步骤:
101:确定目标训练文本对应的词级别特征。
其中,文本识别模型的训练通常需要大量训练文本,该目标训练文本可以是指参与训练文本识别模型的大量训练文本中的任一个训练文本,也即针对每一个训练文本均需要按照本实施例所述技术方案提取其文本特征,再参与模型训练。
其中,词级别特征基于目标训练文本的词编码获得,可选地,可以将目标训练文本的词作为离散特征,编码获得词级别特征。在实际应用中,可以采用one-hot(独热编码)方式进行编码获得,当然本申请实施例对具体编码方式不进行限定,只有可以基于目标训练文本的词,获得表征目标训练文本的向量表示的任意方式均可。
该目标训练文本的词可以采用分词技术,对目标训练文本进行分词获得,具体的分词方式与现有技术相同,本申请实施例也不对此进行具体限定。
102:基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征。
本申请实施例中,确定目标训练文本的语义信息,并基于目标训练文本的语义信息,编码获得目标训练文本的语义级别特征。通过语义级别特征可以表示文本的语义信息,语义信息可以表达目标训练文本的核心意思或者概念,其可以通过目标训练文本的核心关键词或者核心短语等构成,表示了词与词之间的关联关系,因此基于语义信息确定的语义级别特征可以表达词与词之间的关联关系。
103:将所述目标训练文本的语义级别特征与词级别特征融合,获得所述目标训练文本的文本特征。
104:利用所述目标训练文本的文本特征,训练文本识别模型。
本申请实施例中,将语义级别特征与词级别特征融合,获得文本特征,由于语义级别特征可以表达目标训练文本的语义信息,使得文本特征也即可以包含词与词之间建立的语义信息,而不仅仅是单个词的特征,因此使得训练获得的模型更加准确,使得模型能够从语义级别进行文本识别,提高了模型识别准确度。
其中,作为一种可选方式,可以是将语义级别特征与词级别特征进行拼接,获得目标训练文本的文本特征。
由于语义级别特征以及词级别特征均为向量表示,因此可以从维度上进行向量拼接,获得该文本特征。
当然,本申请实施例并不对融合方式做具体限定,除了拼接方式,其它可以融合的任意方式,例如向量相加、相乘等方式,均应落在本申请实施例的保护范围内。
其中,在应用于文本分类场景中,该文本识别模型可以为一种分类器,用于识别待处理文本所属类别或者所属领域等。该文本识别模型可以采用多种方式实现,比如神经网络框架、SVM((Support Vector Machine,支持向量机)等。
在应用于文本匹配场景中,文本识别模型用于识别与待处理文本相匹配的目标文本,比如在人机对话场景中,用于识别与待处理文本相匹配的知识点。该文本识别模型可以为深度学习模型,采用神经网络框架实现,例如该文本识别模型可以为CNN(ConvolutionalNeural Network,卷积神经网络)、RNN(Recurrent Neural Network,循环神经网络)或者DSSM(Deep Structured Semantic Models,深度结构化语义模型)等。
作为一种可能的实现方式,所述基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征可以包括:
确定所述目标训练文本中的至少一个语义单元;
基于所述至少一个语义单元,确定所述目标训练文本的语义级别特征。
其中,目标训练文本中的语义单元由目标训练文本中可以表达目标训练文本核心信息或概念的词组或者短语构成。
可选地,所述确定所述目标训练文本中的至少一个语义单元可以包括:
确定所述目标训练文本所属目标类别对应的多个训练文本;
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集;
从所述至少一个频繁项集中,确定所述目标训练文本命中的至少一个目标频繁项集;
将每个目标频繁项集中的项组合得到一个语义单元,以获得表示所述目标训练文本语义信息的至少一个语义单元。
其中,目标训练文本所属目标类别,在文本分类应用场景中,该目标类别即可以是指目标训练文本的类型或者领域或者其它分类特性等。
而在文本匹配应用场景中,该目标类别可以是指与目标训练文本语义匹配的标准文本对应的类别,该标准文本对应的多个训练文本均可以是指与标准文本语义匹配的文本,由于在实际应用中,通常同一个意思会有多种表述描述,该多个训练文本以及标准文本均为表达同一个语义信息的描述语句,标准文本采用专业术语表述,比如人机对话场景中知识库中的知识点,而多个训练文本可以是该标准文本所传达意思的通俗表达,因此在人机对话场景中,利用本申请实施例的文本识别模型可以识别用户通俗表达输入的语句,找到与用户通俗表达语句相匹配的知识点,进而可以找到对应的应答内容。
在该可能实现方式中,采用频繁项集挖掘技术,从多个训练文本中挖掘频繁项集,由于多个训练文本属于同一个类别,可能包含相同的语义信息,多个训练文本中出现频率较高的词组或者短语即可能代表该多个训练文本的语义信息,因此通过频繁项集挖掘可以获得至少一个频繁项集。
在进行频繁项集挖掘时,具体是将每一个训练文本作为一个事务,训练文本中的词作为事务中项进行挖掘。
其中,具体的,可以采用FP-Growth(Frequent Pattern Growth,频繁模式增长)算法对所述多个训练文本进行频繁项集挖掘。FP-Growth算法是一种频繁项集挖掘算法,它采取分治策略,通过构造FP-tree(频繁模式树)结构来挖掘频繁项集。
在一个可选方式中,所述将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集可以包括:
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得至少一个备选频繁项集;
从所述至少一个备选频繁项集中,筛选挖掘支持度大于第一预设值以及挖掘频率大于第二预设值的至少一个频繁项集。
其中,挖掘频率可以是指频繁项集中的多个项在多个训练文本中的共同出现次数,该第二预设值例如可以为50等。
挖掘支持度可以是指频繁项集中的多个项在多个训练文本中的共同出现次数与每个项在多个训练文本中的出现次数的乘积的比值,例如假设一个频繁项集包括A和B两个项,A在多个训练文本中的出现次数为a,B在多个训练文本中的出现次数为b,A和B在多个训练文本共同出现的次数为c,则挖掘支持度即为c/(a*b)。
在又一个可选方式中,将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集可以包括:
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得至少一个备选频繁项集;
从所述至少一个备选频繁项集中,筛选项数目大于特定阈值的至少一个频繁项集。
其中,可选地,可以是从所述至少一个备选频繁项集中,筛选挖掘支持度大于第一预设值、挖掘频率大于第二预设值,且项数目大于特定阈值的至少一个频繁项集。
为了避免单个词构成的频繁项集,该特定阈值例如可以为1。
在又一个可选方式中,将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集可以包括:
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个备选频繁项集;
确定每个备选频繁项集相对于所述至少一个备选频繁项集的信息增益(IG,Information Gain);
基于每个备选频繁项集的信息增益,从所述至少一个备选频繁项集中筛选获得至少一个频繁项集。
按照本申请实施例的技术方案,针对每一个类别下的多个训练文本均可以挖掘获至少一个备选频繁项集,同一个备选频繁项集可能会对应一个或多个类别。为了区分不同类别,本申请实施例中,可以计算每个备选频繁项集相对于所述目标类别对应的至少一个备选频繁项集的信息增益,信息增益越大表明该备选频繁项集相对于该目标类别的区分性越大,因此可以具体是按照信息增益从大到小的顺序,从所述至少一个备选频繁项集中筛选获得至少一个频繁项集。
具体的,可以是筛选前top-k个频繁项集,k为大于0的正整数。
该信息增益可以具体按照如下公式计算获得:
IG(T)=H(C)-H(C|T)
其中,T表示一个备选频繁项集,H(C)表示该至少一个备选频繁项集中包含T时的信息量;H(C|T)表示该至少一个备选频繁项集中不包含T时的信息量,二者之差即表示T为该至少一个备选频繁项集带来的信息增益。
另外,在某些实施例中,由于词级别特征不仅无法表达词与词之间的上下文信息,而且通常丧失了词序信息,因此,可选地,所述将每个目标频繁项集中的项组合得到一个语义单元,以获得表示所述目标训练文本的语义信息的至少一个语义单元包括:
将每个目标频繁项集中的项,按照在所述目标训练文本中的出现顺序组合得到一个语义单元,以获得表示所述目标训练文本的语义信息的至少一个语义单元。
此外,在某些实施例中,从所述至少一个频繁项集中,确定所述目标训练文本命中的至少一个目标频繁项集可以包括:
从所述至少一个频繁项集中,选择每个项均包含于所述目标训练文本中的频繁项集作为目标训练文本命中的目标频繁项集,以获得至少一个目标频繁项集。
也即目标训练文本命中的目标频繁项集中的每个项均出现在目标训练文本中,目标频繁项集中的每个项也即是指词。
本申请实施例中,除了可以采用频繁项集方式确定目标训练文本的语义单元,当然还可以采用其他方式,比如对目标训练文本进行语义挖掘等,以识别获得表达目标训练文本核心信息的关键词组或者短语等作为语义单元。
目标训练文本可以对应一个或多个语义单元,每个语义单元可以是由词组或者短语构成。
在某些实施例中,基于所述至少一个语义单元,确定所述目标训练文本的语义级别特征可以包括:
将每个语义单元作为离散特征,编码获得所述目标训练文本的语义级别特征。例如可以采用one-hot方式编码获得。
one-hot方式对应的语料表中可以由字符、词、词组和/或短语等构成,使得其即可以对目标训练文本的词进行编码,也可以对语义单元进行编码。
此外,除了提取表示目标训练文本语义信息的语义单元,还可以采用其它方式挖掘目标训练文本的语义表达方式,因此作为又一种可能的实现方式,所述确定所述目标训练文本的语义信息对应的语义级别特征可以包括:
利用主题模型(Topic Model)识别所述目标训练文本对应的主题分布概率;
将所述主题分布概率作为所述目标训练文本的语义级别特征。
通过主题模型可以挖掘词与词之间的语义关联,主题分布概率即可以表示该目标训练文本的语义信息。
利用主题模型可以自动分析文本,统计文本内的词语,根据统计的信息来断定文本含有哪些主题,以及每个主题所占的比例各为多少,该主题分布概率也即包括对应每个主题的所占的比例数值。
由于主题分布概率包括对应每个主题的比例数值,因此主题分布概率可以表示为向量,每个比例数值为目标训练文本对应其主题的所占比例,因此主题分布概率可以直接作为语义级别特征,并与词级别特征进行融合以获得文本特征。
可选地,该主题模型可以采用LDA(Latent Dirichlet Allocation,隐含狄利克雷分布)模型实现。
此外,为了进一步提高模型识别准确度,可选地,在某些实施例中,所述方法还可以包括:
基于所述目标训练文本的字符,确定所述目标训练文本的字符级别特征;
如果目标训练文本为中文时,该字符即可以是指目标训练文本中的单个字。如果目标训练文本为英文等由字母组成的语言时,该字符可以是指单个字母或者将单词切分出的字母组合等。
所述将所述目标训练文本的语义级别特征与词级别特征融合获得所述目标训练文本的文本特征可以包括:
将所述目标训练文本的语义级别特征、字符级别特征、以及词级别特征融合获得所述目标训练文本的文本特征。
在某些实施例中,所述方法还可以包括:
基于所述目标训练文本的N元分词,确定所述目标训练文本的N元模型(N-gram)级别特征;
其中,N-gram是一种语言模型,其假设一个文本中的第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,N可以为大于等于2的整数,常用的是二元的Bi-Gram和三元的Tri-Gram。
采用N-gram,可以对目标训练文本进行分词,获得N元分词。
比如以二元的Bi-Gram为例,对于一个文本“你今天休假了吗”,它的二元分词依次为:“你今,今天,天休,休假,假了,了吗”。
所述将所述目标训练文本的语义级别特征与词级别特征融合获得所述目标训练文本的文本特征可以包括:
将所述目标训练文本的语义级别特征、N-gram级别特征以及词级别特征融合获得所述目标训练文本的文本特征。在某些实施例中,所述方法还可以包括:
基于所述目标训练文本的字符,确定所述目标训练文本的字符级别特征;
基于所述目标训练文本的N元分词,确定所述目标训练文本的N-gram级别特征;
所述将所述目标训练文本的语义级别特征与词级别特征融合获得所述目标训练文本的文本特征包括:
将所述目标训练文本的语义级别特征、字符级别特征、N-gram级别特征以及词级别特征融合获得所述目标训练文本的文本特征。
通过加入字符级别特征以及N-gram级别特征,可以进一步保证文本特征的准确度,使之能更准确表示文本。
此外,基于字符级别特征,本申请实施例还提供一种模型训练方法,该方法可以包括:
基于目标训练文本的字符,确定所述目标训练文本的字符级别特征;
基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
将所述目标训练文本的语义级别特征与字符级别特征融合,获得所述目标训练文本的文本特征;
利用所述目标训练文本的文本特征,训练文本识别模型。
也即针对目标训练文本,可以提取其字符级别特征以及语义级别特征,并将二者融合得到文本特征。特别是对于目标训练文本为中文时,字符也即是指单字,由于中文分词有多种方式,分词结果不可控,因此可以采用基于单个字编码获得的字符级别特征。
此外,基于N-gram级别特征,本申请实施例还提供一种模型训练方法,该方法可以包括:
基于目标训练文本的N元分词,确定所述目标训练文本的N-gram级别特征;
基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
将所述目标训练文本的语义级别特征与字符级别特征融合,获得所述目标训练文本的文本特征;
利用所述目标训练文本的文本特征,训练文本识别模型。
也即针对目标训练文本,可以提取其N-gram级别特征以及语义级别特征,并将二者融合得到文本特征。
当然,作为又一个实施例,可以将目标训练文本的语义级别特征、字符级别特征以及N-gram级别特征融合获得目标训练文本的文本特征,再利用该目标训练文本的文本特征,训练文本识别模型。
也即,本申请实施例中,可以将目标训练文本的语义级别特征,与目标训练文本的词级别特征、字符级别特征以及N-gram级别特征的一个或多个进行融合,以获得目标训练文本的文本特征,进而利用目标训练文本的文本特征,训练文本识别模型。语义级别特征的确定方式相同,具体可以参见上文中所述。
可选地,所述确定所述目标训练文本的词级别特征可以是指:
将所述目标训练文本的词作为离散特征,编码获得词级别特征;
所述基于所述目标训练文本的字符,确定所述目标训练文本的字符级别特征可以是指:
将所述目标训练文本的字符作为离散特征,编码获得字符级别特征;
所述基于所述目标训练文本的N元分词,确定所述目标训练文本的N-gram级别特征可以是指:
将所述目标训练文本的N元分词作为离散特征,编码获得N-gram级别特征。
其中,编码方式具体可以采用one-hot编码方式等。
在一个实际应用中,本申请实施例的技术方案可以应用于文本匹配场景中,比如在人机对话场景中查找与用户输入语句匹配的知识点等。
在文本匹配场景中,文本识别模型用于从文本库中查找与待处理文本匹配的目标文本。
该文本库中存储有大量标准文本,该文本识别模型例如可以采用DSSM模型实现等,在进行模型训练时,为了提高模型训练准确度,可以将标准文本的文本特征也作为训练样本训练文本识别模型。
因此,在某些实施例中,所述方法还可以包括:
确定文本库中预定数量的标准文本;
确定每个标准文本的词级别特征;
基于所述每个标准文本的语义信息,确定每个标准文本的语义级别特征;
将每个标准文本的语义级别特征与词级别特征融合获得每个标准文本的文本特征;
所述利用所述目标训练文本的文本特征,训练文本识别模型包括:
将所述目标训练文本的文本特征以及所述预定数量的标准文本各自的文本特征作为输入样本,以及将所述目标训练文本分别与所述预定数量的标准文本的匹配概率作为训练结果,训练获得文本识别模型;
所述文本识别模型也即用于从所述文本库中识别与待处理文本匹配的目标文本。
该文本库中可以包括大量标准文本,在人机对话场景中,该文本库即可以是指知识库,标准文本也即知识库中的知识点,每个知识点对应有一个应答内容。
其中,目标训练文本为该预定数量的标准文本中的一个标准文本语义匹配的训练文本,在进行模型训练时,该目标训练文本与其语义匹配的标准文本的匹配概率即可以为设为1,与其它标准文本的匹配概率即可以设为0。
也即,假设预定数量的标准文本包括n个,分别为表示为D1、D2、……Dn;
每个标准文本分别对应多个训练文本。假设针对标准文本D2,其匹配的目标训练文本M,与其匹配概率即为1,而与其它标准文本的匹配概率即为0,可以表示为M→[0,1,0,0,0,0,0,0,0]。
其中,文本库中预定数量的标准文本可以是指文本库中的全部标准文本。
当然,为了提高模型训练性能,在某些实施例中,所述确定文本库中的预定数量的标准文本可以包括:
从文本库中筛选与所述目标训练文本的相似度满足相似条件的预定数量的标准文本。
该相似条件例如可以是指相似度大于相似阈值。
可选地,可以具体是按照与所述目标训练文本的相似度从大到小的顺序,筛选预定数量的标准文本。
其中,目标训练文本与标准文本的相似度可以根据词之间的编辑距离计算获得,例如余弦距离、欧式距离等,与现有技术相同,在此不再赘述。
此外,在某些实现情况下,该预定数量可以为1,预定数量的标准文本也即是指目标训练文本匹配的一个标准文本,因此确定文本库中预定数量的标准文本可以包括:
确定文本库中目标训练文本匹配的一个标准文本。
此外,作为一种可选方式,基于每个标准文本的语义信息,确定每个标准文本的语义级别特征可以包括:
从每个标准文本对应的至少一个频繁项集中,确定每个标准文本命中的至少一个目标频繁项集;
将每个标准文本命中的每个目标频繁项集中的项组合得到一个语义单元,以获得表示每个标准文本的语义信息的至少一个语义单元;
基于每个标准文本对应的至少一个语义单元,确定每个标准文本的语义级别特征。
其中,每个标准文本对应的至少一个频繁项集也即是指每个标准文本所属类别对应的至少一个频繁项集。
每个标准文本所属类别对应的至少一个频繁项集也即是通过对每个标准文本所属类别对应的多个训练文本进行频繁项集挖掘获得,也即将多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘。
作为另一种可选方式,基于每个标准文本的语义信息,确定每个标准文本的语义级别特征可以包括:
利用主题模型识别每个标准文本对应的主题分布概率;
将每个标准文本对应的主题分布概率作为每个标准文本的语义级别特征。
此外,可选地,还可以确定每个标准文本的字符级别特征和/或N-gram级别特征等。
因此,可以是将每个标准文本的语义级别特征、字符级别特征、N-gram级别特征以及词级别特征融合获得每个标准文本的文本特征。
为了方便理解,下面以人机对话场景为例,以文本识别模型为DSSM模型为例对模型训练过程进行介绍。
图2为DSSM模型的一种网络结构示意图,DSSM模型有输入层、一个或多个隐藏层以及输出层构成,在一个可选方式,可以构建两个隐藏层,如图2中所示的输入层x、隐藏层L1以及L2,以及输出层y。
知识库中存储(Q,A)数据,Q为知识点,在智能问答场景中,Q即是指用户标准问题。
在进行模型训练时,需要首先准备每个知识点对应的多个训练文本,每个知识点对应的多个训练文本也即为语义相同但是描述方式不同的多个表达语句。因此,每个训练文本也即归属于一个标准文本,归属于为同一个标准文本的多个训练文本即属于同一个类别。
由于进行模型训练时,是逐个利用每个训练文本进行模型训练,为了方便描述上的区分,将当前输入的训练文本命名为“目标训练文本”。
参与DSSM模型训练的样本包括该目标训练文本以及该目标训练文本对应的预定数量的标准文本。
该预定数量的标准文本至少包括该目标训练文本所匹配的一个标准文本,该预定数量的标准文本可以按照与目标训练文本的相似度由大到小的顺序,从知识库中进行筛选。
在该实际应用中,如图2中所示,该预定数量的标准文本假设包括4个,分别表示为D1、D2、D3以及D4,目标训练文本M所匹配的一个标准文本为D4,在进行模型训练时,目标训练文本M与标准文本D4的匹配概率即设置为1,与标准文本D1、D2以及D3的匹配概率均可以设置0。
首先确定目标训练文本的语义信息对应的语义级别特征A1,由上文描述可知,可以采用频繁项集挖掘方式,确定所述目标训练文本所属目标类别对应的多个训练文本,将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集。该目标类别也即为目标训练文本所匹配的标准文本对应的类别,该目标类别对应的多个训练文本包括所述目标训练文本。
之后,从所述至少一个频繁项集中,可以确定目标训练文本命中的至少一个目标频繁项集;将每个目标频繁项集中的项组合得到一个语义单元,以获得表示所述目标训练文本语义信息的至少一个语义单元;
将所述目标训练文本的语义单元作为离散特征,即可以编码获得语义级别特征,具体可以采用one-hot方式进行编码。
之后,可以确定目标训练文本的词级别特征A2、字符级别特征A3以及N-gram级别特征A4,并与语义级别特征进行融合获得文本特征Q[mul-gran],该文本特征即作为输入样本输入至输入层x。
其中,可以采用向量拼接方式进行各级别特征进行融合,由于通过向量拼接得到的文本特征的向量维数较大,因此可以再通过word hashing算法进行向量压缩,将压缩之后的文本特征再输入至输入层x。
而对于每个标准文本,也采用同样方式确定其对应的语义级别特征、词级别特征、字符级别特征以及N-gram级别特征,并融合得到每个标准文本的文本特征,如图2中的D1[mul-gran]、D2[mul-gran]、D3[mul-gran]以及D4[mul-gran],将每个标准文本的文本特征也作为输入样本输入至输入层x。
进行模型训练时,将目标训练文本分别与各个标准文本的匹配概率P(Di|M)作为训练结果,训练该DSSM模型,以获得DSSM模型中的模型系数,其中,i=1、2、3、4。
该模型系数例如包括图2中(Wj,bj),其中Wj表示第j网络层至第j+1网络层的权重系数,bj表示第j网络层至第j+1网络层的偏置系数,其中,j=1、2、3、4。第1网络层也即是输入层,第2网络层以及第3网络层也即为隐藏层,第4网络层也即为输出层。
基于上述模型训练方案训练获得的文本识别模型部署在服务端,即可以进行文本识别。如图3所示,本申请实施例还提供一种文本识别方法,该方法可以包括以下几个步骤:
301:确定待处理文本的词级别特征。
302:基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征。
303:将所述待处理文本的词级别特征及语义级别特征融合获得所述待处理文本的文本特征。
304:基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本。
其中,所述文本识别模型基于训练文本的文本特征训练获得;所述训练文本的文本特征由所述训练文本的词级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得。
该文本识别模型的具体训练方式可以参见上文实施例中的所述,在此不再赘述。
本实施例中,由于文本识别模型基于训练文本的文本特征训练获得,而训练文本的文本特征融合了训练文本的语义信息对应的语义级别特征,因此可以使得模型可以从语义级别对待处理文本进行文本识别,而不仅仅考虑词级别特征,提高了模型识别准确度。
此外,作为又一个实施例,文本识别模型基于训练文本的文本特征训练获得;而所述训练文本的文本特征由所述训练文本的字符级别特征以及语义级别特征融合获得时,本申请实施例还提供了一种文本识别方法,包括:
基于待处理文本的字符,确定所述待处理文本的字符级别特征;
基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
将所述待处理文本的字符级别特征及语义级别特征融合获得所述待处理文本的文本特征;
基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本。
该文本识别模型与利用基于词级别特征融合获得的文本特征训练获得的文本识别模型不同之处,仅在于文本特征是基于字符级别特征以及语义级别特征融合获得,其它相同或相应步骤将不再重复赘述。
此外,作为又一个实施例,文本识别模型基于训练文本的文本特征训练获得;而所述训练文本的文本特征由所述训练文本的N元模型级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得时,本申请实施例还提供了一种文本识别方法,包括:
基于待处理文本的N元分词,确定所述待处理文本的N元模型级别特征;
基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
将所述待处理文本的N元模型级别特征及语义级别特征融合获得所述待处理文本的文本特征;
基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本。
该文本识别模型与利用基于词级别特征融合获得的文本特征训练获得的文本识别模型不同之处,仅在于文本特征是基于N-gram级别特征以及语义级别特征融合获得,其它相同或相应步骤将不再重复赘述。
此外,若训练文本的文本特征由语义级别特征,与词级别特征、字符级别特征以及N-gram级别特征中的一个或多个融合获得时,则可以相应确定待处理文本的与词级别特征、字符级别特征以及N-gram级别特征的一个或多个,并与待处理文本的语义级别特征融合,获得待处理文本的文本特征。进而基于所述待处理文本的文本特征,利用文本识别模型即可以识别所述待处理文本。
作为一种可选方式,所述基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征可以包括:
从不同类别各自对应的至少一个频繁项集中,确定所述待处理文本命中的至少一个候选频繁项集;
将待处理文本命中的每个候选频繁项集中的项组合得到一个语义单元,以获得表示所述待处理文本语义信息的至少一个语义单元;
基于所述待处理文本的至少一个语义单元,确定所述待处理文本的语义级别特征。
其中,在文本匹配场景中,每个类别对应一个标准文本。
可选地,将待处理文本命中的每个候选频繁项集中的项组合得到一个语义单元可以具体是:
将待处理文本命中的每个候选频繁项集中的项,按照在所述待处理文本中的出现顺序组合得到一个语义单元,以获得表示所述待处理文本的语义信息的至少一个语义单元。
可选地,从不同类别各自对应的至少一个频繁项集中,确定所述待处理文本命中的至少一个候选频繁项集可以包:
从不同类别各自对应的至少一个频繁项集中,选择每个项均包含于所述待处理文本中的频繁项集作为目标训练文本命中的候选频繁项集,以获得至少一个候选频繁项集。
作为另一种可选方式,所述基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征可以包括:
利用主题模型识别所述待处理文本对应的主题分布概率;
将所述待处理文本对应的主题分布概率作为所述待处理文本的语义级别特征。
其中,该文本识别模型可以用于识别待处理文本的类别、标签或者其它特性等。
当然,在文本匹配场景中,该文本识别模型用于识别与待处理文本匹配的目标文本。
该文本识别模型具体即是基于训练文本的文本特征以及与训练文本匹配的标准文本的文本特征训练获得。
因此,在某些实施例中,所述基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本可以包括:
确定文本库中预定数量的标准文本;
确定每个标准文本的词级别特征;
基于每个标准文本的语义信息,确定每个标准文本的语义级别特征;
将每个标准文本的语义级别特征与词级别特征融合获得每个标准文本的文本特征;
将所述待处理文本的文本特征,以及所述预定数量的标准文本各自的文本特征输入所述文本识别模型,以确定与所述待处理文本相匹配的目标文本。
作为一种可选方式,该文本库中预定数量的标准文本可以是指所有标准文本。
当然,为了优化性能,作为另一种可选方式,所述确定文本库中的预定数量的标准文本包括:
确定文本库中与所述待处理文本的相似度满足相似条件的预定数量的标准文本。
该相似条件例如可以是指相似度大于相似阈值。
可选地,可以具体是按照与所述待处理文本的相似度从大到小的顺序,筛选预定数量的标准文本。
其中,标准文本与待处理文本的相似度可以根据词之间的编辑距离计算获得,例如余弦距离、欧式距离等,与现有技术相同,在此不再赘述。
作为一种可选方式,基于每个标准文本的语义信息,确定每个标准文本的语义级别特征可以包括:
从每个标准文本对应的至少一个频繁项集中,确定每个标准文本命中的至少一个目标频繁项集;
将每个标准文本命中的每个目标频繁项集中的项组合得到一个语义单元,以获得表示每个标准文本语义信息的至少一个语义单元;
基于每个标准文本对应的至少一个语义单元,确定每个标准文本的语义级别特征。
其中,每个标准文本对应的至少一个频繁项集也即是指每个标准文本所属类别对应的至少一个频繁项集。
每个标准文本所属类别对应的至少一个频繁项集也即是通过对每个标准文本所属类别对应的多个训练文本进行频繁项集挖掘获得,也即将多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘。
作为另一种可选方式,基于每个标准文本的语义信息,确定每个标准文本的语义级别特征可以包括:
利用主题模型识别每个标准文本对应的主题分布概率;
将每个标准文本对应的主题分布概率作为每个标准文本的语义级别特征。
此外,可选地,还可以确定每个标准文本的字符级别特征和/或N-gram级别特征等。
因此,可以是将每个标准文本的语义级别特征、字符级别特征、N-gram级别特征以及词级别特征融合获得每个标准文本的文本特征。
在某些实施例中,从不同类别各自对应的至少一个频繁项集中,确定所述待处理文本命中的至少一个候选频繁项集可以包括:
从所述预定数量的标准文本分别对应的至少一个频繁项集中,确定所述待处理文本命中的至少一个候选频繁项集。
每个标准文本及其对应的多个训练文本属于同一类别,每个类别也即对应一个标准文本,对同一类别对应的多个训练文本进行频繁项集挖掘,也即对同一个标准文本对应的多个训练文本进行频繁项集挖掘,从而获得的每个类别对应的至少一个频繁项集,也即为每个标准文本对应的至少一个频繁项集。
此外,为了进一步提高识别准确度,在某些实施例中,所述方法还可以包括:
基于所述待处理文本的字符,确定所述待处理文本的字符级别特征;
基于所述待处理文本的N元分词,确定所述待处理文本的N-gram级别特征;
所述将所述待处理文本的语义级别特征与词级别特征融合获得所述待处理文本的文本特征可以包括:
将所述待处理文本的语义级别特征、字符级别特征、N-gram级别特征以及词级别特征融合获得所述待处理文本的文本特征。
其中,基于所述待处理文本的字符,确定所述待处理文本的字符级别特征可以包括:
将待处理文本的字符作为离散特征,编码获得字符级别特征;
基于所述待处理文本的N元分词,确定所述待处理文本的N-gram级别特征可以包括:
将待处理文本的N元分词作为离散特征,编码获得N-gram级别特征;
所述确定待处理文本的词级别特征可以包括:
将待处理文本的词级别特征作为离散特征,编码获得词级别特征。
在实际应用中,文本识别模块可以具体为图2中所示的DSSM模型,基于图2所示的DSSM模型,在人机对话场景中,待处理文本即为用户输入语句,如图4中所示,该文本识别方法可以包括以下几个步骤:
401:接收用户输入语句。
402:确定用户输入语句的词级别特征、字符级别特征以及N-gram级别特征。
可选地,可以将用户输入语句的词作为离散特征,编码获得词级别特征。
可选地,可以将用户输入语句的字符作为离散特征,编码获得字符级别特征。
可选地,可以将用户输入语句的N元分词作为离散特征,编码获得N-gram级别特征。
403:基于用户输入语句的语义信息,确定用户输入语句的语义级别特征。
可选地,可以确定用户输入语句对应的至少一个语义单元;将所述用户输入语句的语义单元作为离散特征,编码获得语义级别特征。
404:将用户输入语句的词级别特征、字符级别特征、N-gram级别特征以及语义级别特征融合获得用户输入语句的文本特征。
405:从知识库中筛选与用户输入语句满足相似条件的预定数量的知识点。
可选地,可以按照与用户输入语句相似度从大到小的顺序,选择预定数量的知识点。
406:针对每个知识点,确定每个知识点的词级别特征、字符级别特征、以及N-gram级别特征。
其中,每个知识点的词级别特征、字符级别特征、以及N-gram级别特征的确定方式与用户输入语句的词级别特征、字符级别特征、以及N-gram级别特征的确定方式相同,不同之处仅在于文本内容不同,在此不再赘述。
407:基于每个知识点的语义信息,确定每个知识点的语义级别特征。
每个知识点的语义级别特征与用户输入语句的语义级别特征的确定方式相同,不同之处仅在于文本内容不同,在此不再赘述。
408:将每个知识点的语义级别特征、词级别特征、字符级别特征、以及N-gram级别特征融合获得文本特征。
409:将用户输入语句的文本特征,以及所述预定数量的知识点各自的文本特征输入所述文本识别模型,以确定与用户输入语句相匹配的目标知识点。
可选地,文本识别模型为DSSM模型时,通过文本识别模型可以计算获得待处理文本分别与预定数量的知识点的匹配概率,从而与待处理文本的匹配概率最大的一个知识点即为目标知识点。
410:将所述目标知识点对应应答内容反馈至用户。
在人机对话场景中,由于可以提高模型识别准确度,从而就可以提高人机对话准确度,可以保证人机对话效果,提高用户体验。
图5为本申请实施例提供的一种模型训练装置一个实施例的结构示意图,该装置可以包括:
第一训练特征确定模块501,用于确定目标训练文本对应的词级别特征;
第二训练特征确定模块502,用于基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
训练特征融合模块503,用于将所述目标训练文本的语义级别特征与词级别特征融合,获得所述目标训练文本的文本特征;
可选地,该训练特征融合模块可以具体是将所述目标训练文本的语义级别特征与词级别特征拼接获得所述目标训练文本的文本特征。
模型训练模块504,用于利用所述目标训练文本的文本特征,训练文本识别模型。
作为一种可能的实现方式,所述第二训练特征确定模块可以具体用于:
确定所述目标训练文本所属目标类别对应的多个训练文本;
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集;
从所述至少一个频繁项集中,确定所述目标训练文本命中的至少一个目标频繁项集;
将每个目标频繁项集中的项组合得到一个语义单元,以获得表示所述目标训练文本语义信息的至少一个语义单元;
基于所述至少一个语义单元,确定所述目标训练文本的语义级别特征。
作为另一种可能的实现方式,所述第二训练特征确定模块可以具体用于:
利用主题模型识别所述目标训练文本对应的主题分布概率;
将所述目标训练文本对应的主题分布概率作为所述目标训练文本的语义级别特征。
在某些实施例中,所述第二训练特征确定模块将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集可以具体是:
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个备选频繁项集;
确定每个备选频繁项集相对于所述至少一个备选频繁项集的信息增益;
基于每个备选频繁项集的信息增益,从所述至少一个备选频繁项集中筛选获得至少一个频繁项集。
在某些实施例中,所述第二训练特征确定模块将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集可以具体是:
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个备选频繁项集;
从所述至少一个备选频繁项集中,筛选项数目大于特定阈值的至少一个频繁项集。
在某些实施例中,所述第二训练特征确定模块将每个目标频繁项集中的项组合得到一个语义单元,以获得表示所述目标训练文本的语义信息的至少一个语义单元可以具体是:
将每个目标频繁项集中的项,按照在所述目标训练文本中的出现顺序组合得到一个语义单元,以获得表示所述目标训练文本的语义信息的至少一个语义单元。
在某些实施例中,所述第二训练特征确定模块从所述至少一个频繁项集中,确定所述目标训练文本命中的至少一个目标频繁项集可以具体是:
从所述至少一个频繁项集中,选择每个项均包含于所述目标训练文本中的频繁项集作为目标训练文本命中的目标频繁项集,以获得至少一个目标频繁项集。
在某些实施例中,该装置还可以包括:
第三训练特征确定模块,用于基于所述目标训练文本的字符,确定所述目标训练文本的字符级别特征;
第四训练特征确定模块基于所述目标训练文本的N元分词,确定所述目标训练文本的N-gram级别特征;
在某些实施例中,所述训练特融合模块可以具体用于将所述目标训练文本的语义级别特征、字符级别特征、N-gram级别特征以及词级别特征融合获得所述目标训练文本的文本特征。
可选地,该第三训练特征确定模块可以具体是将所述目标训练文本的字符作为离散特征,编码获得字符级别特征;
该第四训练特征确定模块可以具体是将所述目标训练文本的N元分词作为离散特征,编码获得N-gram级别特征。
该第一训练特征确定模块可以具体是将所述目标训练文本的词作为离散特征,编码获得词级别特征。
在某些实施例中,该装置还可以包括:
第一标准特征提取模块,用于确定文本库中预定数量的标准文本;确定每个标准文本的词级别特征;基于每个标准文本的语义信息,确定每个标准文本的语义级别特征;将每个标准文本的语义级别特征与词级别特征融合获得每个标准文本的文本特征;
所述模型训练模块具体用于将所述目标训练文本的文本特征以及所述预定数量的标准文本各自的文本特征作为输入样本,以及将所述目标训练文本分别与所述预定数量的标准文本的匹配概率作为训练结果,训练获得文本识别模型;
所述文本识别模型也即用于从所述文本库中识别与待处理文本匹配的目标文本。
可选地,第一标准特征提取模块确定文本库中预定数量的标准文本可以具体从文本库中筛选与所述目标训练文本的相似度满足相似条件的预定数量的标准文本。
图5所述的模型训练装置可以执行图1所示实施例所述的模型训练方法,其实现原理和技术效果不再赘述。对于上述实施例中的模型训练装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
此外,本申请实施例还提供的一种模型训练装置,包括:
第三训练特征确定模块,用于基于目标训练文本的字符,确定所述目标训练文本的字符级别特征;
第二训练特征确定模块,用于基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
训练特征融合模块,用于将所述目标训练文本的语义级别特征与字符级别特征融合,获得所述目标训练文本的文本特征;
模型训练模型,用于利用所述目标训练文本的文本特征,训练文本识别模型。
此外,本申请实施例还提供的一种模型训练装置,包括:
第四训练特征确定模块,用于基于目标训练文本的N元分词,确定所述目标训练文本的N元模型级别特征;
第二训练特征确定模块,用于基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
训练特征融合模块,用于将所述目标训练文本的语义级别特征与字符级别特征融合,获得所述目标训练文本的文本特征;
模型训练模型,用于利用所述目标训练文本的文本特征,训练文本识别模型。
在一个可能的设计中,图5所示实施例的模型训练装置可以实现为一计算设备,如图6所示,该计算设备可以包括存储组件601以及处理组件602;
所述存储组件601存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件602调用执行;
所述处理组件602用于:
确定目标训练文本对应的词级别特征;
基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
将所述目标训练文本的语义级别特征与词级别特征融合,获得所述目标训练文本的文本特征;
利用所述目标训练文本的文本特征,训练文本识别模型。
其中,处理组件602可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件601被配置为存储各种类型的数据以支持在计算设备中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图1所示实施例的模型训练方法。
图7为本申请实施例提供的一种文本识别装置一个实施例的结构示意图,该装置可以包括:
第一文本特征确定模块701,用于确定待处理文本的词级别特征;
第二文本特征确定模块702,用于基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
文本特征融合模块703,用于将所述待处理文本的词级别特征及语义级别特征融合获得所述待处理文本的文本特征;
文本识别模块704,用于基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于训练文本的文本特征训练获得;所述训练文本的文本特征由所述训练文本的词级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得。
在某些实施例中,所述第二文本特征确定模块可以具体用于:
从不同类别各自对应的至少一个频繁项集中,确定所述待处理文本命中的至少一个候选频繁项集;
将所述待处理文本命中的每个候选频繁项集中的项组合得到一个语义单元,以获得表示所述待处理文本语义信息的至少一个语义单元;
基于所述待处理文本的至少一个语义单元,确定所述待处理文本的语义级别特征。
其中,每个类别对应的至少一个频繁项集中也即具体是对每个类别对应的多个训练文本进行频繁项集挖掘获得。
在某些实施例中,所述第二文本特征确定模块可以具体用于:
利用主题模型识别所述待处理文本对应的主题分布概率;
将所述待处理文本对应的主题分布概率作为所述待处理文本的语义级别特征。
在某些实施例中,所述文本识别模型可以具体用于:
确定文本库中预定数量的标准文本;
确定每个标准文本的词级别特征;
基于每个标准文本的语义信息,确定每个标准文本的语义级别特征;
将每个标准文本的语义级别特征与词级别特征融合获得每个标准文本的文本特征;
将所述待处理文本的文本特征,以及所述预定数量的标准文本各自的文本特征输入所述文本识别模型,以从所述预定数量的标准文本中,确定与所述待处理文本相匹配的目标文本。
在某些实施例中,所述文本识别模块确定文本库中预定数量的标准文本可以为:
确定文本库中与所述待处理文本的相似度满足相似条件的预定数量的标准文本。
此外,为了进一步提高识别准确度,所述装置还可以包括:
第三文本特征确定模块,用于基于所述待处理文本的字符,确定所述待处理文本的字符级别特征;
可选地,可以是将处理文本的字符作为离散特征,编码获得字符级别特征。
第四文本特征确定模块,用于基于所述待处理文本的N元分词,确定所述待处理文本的N-gram级别特征;
可选地,可以是将处理文本的N元分词作为离散特征,编码获得N-gram级别特征。
文本特征融合模块可以具体用于将所述待处理文本的语义级别特征、字符级别特征、N-gram级别特征以及词级别特征融合获得所述待处理文本的文本特征。
图7所述的文本识别装置可以执行图3所示实施例所述的文本识别方法,其实现原理和技术效果不再赘述。对于上述实施例中的文本识别装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
此外,本申请实施例还提供了一种文本识别装置,包括:
第三文本特征确定模块,用于基于待处理文本的字符,确定所述待处理文本的字符级别特征;
第二文本特征确定模块,用于基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
文本特征融合模块,用于将所述待处理文本的字符级别特征及语义级别特征融合获得所述待处理文本的文本特征;
文本识别模块,用于基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于训练文本的文本特征训练获得;所述训练文本的文本特征由所述训练文本的字符级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得。
此外,本申请实施例还提供了一种文本识别装置,包括:
第四文本特征确定模块,用于基于待处理文本的N元分词,确定所述待处理文本的N元模型级别特征;
第二文本特征确定模块,用于基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
文本特征融合模块,用于将所述待处理文本的N元模型级别特征及语义级别特征融合获得所述待处理文本的文本特征;
文本识别模块,用于基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于训练文本的文本特征训练获得;所述训练文本的文本特征由所述训练文本的N元模型级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得。
在一个可能的设计中,图7所示实施例的文本识别装置可以实现为一计算设备,如图8所示,该计算设备可以包括存储组件801以及处理组件802;
所述存储组件801存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件802调用执行;
所述处理组件802用于:
确定待处理文本的词级别特征;
基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
将所述待处理文本的词级别特征及语义级别特征融合获得所述待处理文本的文本特征;
基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于训练文本的文本特征训练获得;所述训练文本的文本特征由所述训练文本的词级别特征以及语义级别特征融合获得;所述训练文本的语义级别特征基于所述训练文本的语义信息获得。
其中,处理组件802可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
存储组件801被配置为存储各种类型的数据以支持在计算设备中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图3所示实施例的文本识别方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (20)

1.一种模型训练方法,其特征在于,包括:
确定目标训练文本对应的词级别特征;
基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
将所述目标训练文本的语义级别特征与词级别特征融合,获得所述目标训练文本的文本特征;
利用所述目标训练文本的文本特征,训练文本识别模型;
所述基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征包括:
确定所述目标训练文本所属目标类别对应的多个训练文本;
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集;
从所述至少一个频繁项集中,确定所述目标训练文本命中的至少一个目标频繁项集;
将每个目标频繁项集中的项组合得到一个语义单元,以获得表示所述目标训练文本语义信息的至少一个语义单元;
基于所述至少一个语义单元,确定所述目标训练文本的语义级别特征;
所述方法还包括:
基于所述目标训练文本的字符,确定所述目标训练文本的字符级别特征;
基于所述目标训练文本的N元分词,确定所述目标训练文本的N元模型级别特征;
所述将所述目标训练文本的语义级别特征与词级别特征融合获得所述目标训练文本的文本特征包括:
将所述目标训练文本的语义级别特征、字符级别特征、N元模型级别特征以及词级别特征融合获得所述目标训练文本的文本特征。
2.根据权利要求1所述的方法,其特征在于,所述将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集包括:
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个备选频繁项集;
确定每个备选频繁项集相对于所述至少一个备选频繁项集的信息增益;
基于每个备选频繁项集的信息增益,从所述至少一个备选频繁项集中筛选获得至少一个频繁项集。
3.根据权利要求1所述的方法,其特征在于,所述将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集包括:
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个备选频繁项集;
从所述至少一个备选频繁项集中,筛选项数目大于特定阈值的至少一个频繁项集。
4.根据权利要求1所述的方法,其特征在于,所述将每个目标频繁项集中的项组合得到一个语义单元,以获得表示所述目标训练文本的语义信息的至少一个语义单元包括:
将每个目标频繁项集中的项,按照在所述目标训练文本中的出现顺序组合得到一个语义单元,以获得表示所述目标训练文本的语义信息的至少一个语义单元。
5.根据权利要求1所述的方法,其特征在于,所述从所述至少一个频繁项集中,确定所述目标训练文本命中的至少一个目标频繁项集包括:
从所述至少一个频繁项集中,选择每个项均包含于所述目标训练文本中的频繁项集作为目标训练文本命中的目标频繁项集,以获得至少一个目标频繁项集。
6.根据权利要求1所述的方法,其特征在于,所述确定所述目标训练文本的语义信息对应的语义级别特征包括:
利用主题模型识别所述目标训练文本对应的主题分布概率;
将所述目标训练文本对应的主题分布概率作为所述目标训练文本的语义级别特征。
7.根据权利要求1所述的方法,其特征在于,所述确定所述目标训练文本的词级别特征包括:
将所述目标训练文本的词作为离散特征,编码获得词级别特征;
所述基于所述目标训练文本的字符,确定所述目标训练文本的字符级别特征包括:
将所述目标训练文本的字符作为离散特征,编码获得字符级别特征;
所述基于所述目标训练文本的N元分词,确定所述目标训练文本的N元模型级别特征包括:
将所述目标训练文本的N元分词作为离散特征,编码获得N元模型级别特征。
8.根据权利要求1所述的方法,其特征在于,还包括:
确定文本库中预定数量的标准文本;
确定每个标准文本的词级别特征;
基于每个标准文本的语义信息,确定每个标准文本的语义级别特征;
将每个标准文本的语义级别特征与词级别特征融合获得每个标准文本的文本特征;
所述利用所述目标训练文本的文本特征,训练文本识别模型包括:
将所述目标训练文本的文本特征以及所述预定数量的标准文本各自的文本特征作为输入样本,以及将所述目标训练文本分别与所述预定数量的标准文本的匹配概率作为训练结果,训练获得文本识别模型;
所述文本识别模型用于从所述文本库中识别与待处理文本匹配的目标文本。
9.根据权利要求8所述的方法,其特征在于,所述确定文本库中的预定数量的标准文本包括:
从文本库中筛选与所述目标训练文本的相似度满足相似条件的预定数量的标准文本。
10.根据权利要求1所述的方法,其特征在于,所述将所述目标训练文本的语义级别特征与词级别特征融合获得所述目标训练文本的文本特征包括:
将所述目标训练文本的语义级别特征与词级别特征拼接获得所述目标训练文本的文本特征。
11.一种文本识别方法,其特征在于,包括:
确定待处理文本的词级别特征;
基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
将所述待处理文本的词级别特征及语义级别特征融合获得所述待处理文本的文本特征;
基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于目标训练文本的文本特征训练获得;所述目标训练文本的文本特征由所述目标训练文本的语义级别特征、字符级别特征、N元模型级别特征以及词级别特征融合获得;所述目标训练文本的语义级别特征基于表示所述目标训练文本语义信息的至少一个语义单元确定,其中,一个语义单元基于所述目标训练文本命中的至少一个目标频繁项集中,每个目标频繁项集中的项组合得到,所述至少一个目标频繁项集从所述目标训练文本所属目标类别对应的至少一个频繁项集中确定,所述至少一个频繁项集由所述目标训练文本所属目标类别对应的多个训练文本中,将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘获得;所述目标训练文本的字符级别特征基于所述目标训练文本的字符确定;所述目标训练文本的N元模型级别特征基于所述目标训练文本的N元分词。
12.根据权利要求11所述的方法,其特征在于,所述基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征包括:
从不同类别各自对应的至少一个频繁项集中,确定所述待处理文本命中的至少一个候选频繁项集;
将所述待处理文本命中的每个候选频繁项集中的项组合得到一个语义单元,以获得表示所述待处理文本语义信息的至少一个语义单元;
基于所述待处理文本的至少一个语义单元,确定所述待处理文本的语义级别特征。
13.根据权利要求11所述的方法,其特征在于,所述基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征包括:
利用主题模型识别所述待处理文本对应的主题分布概率;
将所述待处理文本对应的主题分布概率作为所述待处理文本的语义级别特征。
14.根据权利要求11所述的方法,其特征在于,所述基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本包括:
确定文本库中预定数量的标准文本;
确定每个标准文本的词级别特征;
基于每个标准文本的语义信息,确定每个标准文本的语义级别特征;
将每个标准文本的语义级别特征与词级别特征融合获得每个标准文本的文本特征;
将所述待处理文本的文本特征,以及所述预定数量的标准文本各自的文本特征输入所述文本识别模型,以从所述预定数量的标准文本中确定与所述待处理文本相匹配的目标文本。
15.根据权利要求11所述的方法,其特征在于,所述确定文本库中的预定数量的标准文本包括:
确定文本库中与所述待处理文本的相似度满足相似条件的预定数量的标准文本。
16.根据权利要求11所述的方法,其特征在于,还包括:
基于所述待处理文本的字符,确定所述待处理文本的字符级别特征;
基于所述待处理文本的N元分词,确定所述待处理文本的N-gram级别特征;
所述将所述待处理文本的语义级别特征与词级别特征融合获得所述待处理文本的文本特征包括:
将所述待处理文本的语义级别特征、字符级别特征、N-gram级别特征以及词级别特征融合获得所述待处理文本的文本特征。
17.一种模型训练装置,其特征在于,包括:
第一训练特征确定模块,用于确定目标训练文本对应的词级别特征;
第二训练特征确定模块,用于基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
训练特征融合模块,用于将所述目标训练文本的语义级别特征与词级别特征融合,获得所述目标训练文本的文本特征;
模型训练模块,用于利用所述目标训练文本的文本特征,训练文本识别模型;
所述第二训练特征确定模块,具体用于确定所述目标训练文本所属目标类别对应的多个训练文本;将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集;从所述至少一个频繁项集中,确定所述目标训练文本命中的至少一个目标频繁项集;将每个目标频繁项集中的项组合得到一个语义单元,以获得表示所述目标训练文本语义信息的至少一个语义单元;基于所述至少一个语义单元,确定所述目标训练文本的语义级别特征;
所述装置还包括:
第三训练特征确定模块,用于基于所述目标训练文本的字符,确定所述目标训练文本的字符级别特征;
第四训练特征确定模块,用于基于所述目标训练文本的N元分词,确定所述目标训练文本的N元模型级别特征;
所述训练特征融合模块,具体用于将所述目标训练文本的语义级别特征、字符级别特征、N元模型级别特征以及词级别特征融合获得所述目标训练文本的文本特征。
18.一种文本识别装置,其特征在于,包括:
第一文本特征确定模块,用于确定待处理文本的词级别特征;
第二文本特征确定模块,用于基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
文本特征融合模块,用于将所述待处理文本的词级别特征及语义级别特征融合获得所述待处理文本的文本特征;
文本识别模块,用于基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于目标训练文本的文本特征训练获得;所述目标训练文本的文本特征由所述目标训练文本的语义级别特征、字符级别特征、N元模型级别特征以及词级别特征融合获得;所述目标训练文本的语义级别特征基于表示所述目标训练文本语义信息的至少一个语义单元确定,其中,一个语义单元基于所述目标训练文本命中的至少一个目标频繁项集中,每个目标频繁项集中的项组合得到,所述至少一个目标频繁项集从所述目标训练文本所属目标类别对应的至少一个频繁项集中确定,所述至少一个频繁项集由所述目标训练文本所属目标类别对应的多个训练文本中,将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘获得;所述目标训练文本的字符级别特征基于所述目标训练文本的字符确定;所述目标训练文本的N元模型级别特征基于所述目标训练文本的N元分词。
19.一种计算设备,其特征在于,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
确定目标训练文本对应的词级别特征;
基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征;
将所述目标训练文本的语义级别特征与词级别特征融合,获得所述目标训练文本的文本特征;
利用所述目标训练文本的文本特征,训练文本识别模型;
所述基于所述目标训练文本的语义信息,确定所述目标训练文本的语义级别特征包括:
确定所述目标训练文本所属目标类别对应的多个训练文本;
将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘,以获得所述目标类别对应的至少一个频繁项集;
从所述至少一个频繁项集中,确定所述目标训练文本命中的至少一个目标频繁项集;
将每个目标频繁项集中的项组合得到一个语义单元,以获得表示所述目标训练文本语义信息的至少一个语义单元;
基于所述至少一个语义单元,确定所述目标训练文本的语义级别特征;
方法还包括:
基于所述目标训练文本的字符,确定所述目标训练文本的字符级别特征;
基于所述目标训练文本的N元分词,确定所述目标训练文本的N元模型级别特征;
所述将所述目标训练文本的语义级别特征与词级别特征融合获得所述目标训练文本的文本特征包括:
将所述目标训练文本的语义级别特征、字符级别特征、N元模型级别特征以及词级别特征融合获得所述目标训练文本的文本特征。
20.一种计算设备,其特征在于,包括处理组件以及存储组件;
所述存储组件存储一个或多个计算机指令;所述一个或多个计算机指令用以被所述处理组件调用执行;
所述处理组件用于:
确定待处理文本的词级别特征;
基于所述待处理文本的语义信息,确定所述待处理文本的语义级别特征;
将所述待处理文本的词级别特征及语义级别特征融合获得所述待处理文本的文本特征;
基于所述待处理文本的文本特征,利用文本识别模型识别所述待处理文本;其中,所述文本识别模型基于目标训练文本的文本特征训练获得;所述目标训练文本的文本特征由所述目标训练文本的语义级别特征、字符级别特征、N元模型级别特征以及词级别特征融合获得;所述目标训练文本的语义级别特征基于表示所述目标训练文本语义信息的至少一个语义单元确定,其中,一个语义单元基于所述目标训练文本命中的至少一个目标频繁项集中,每个目标频繁项集中的项组合得到,所述至少一个目标频繁项集从所述目标训练文本所属目标类别对应的至少一个频繁项集中确定,所述至少一个频繁项集由所述目标训练文本所属目标类别对应的多个训练文本中,将所述多个训练文本中的词作为项,对所述多个训练文本进行频繁项集挖掘获得;所述目标训练文本的字符级别特征基于所述目标训练文本的字符确定;所述目标训练文本的N元模型级别特征基于所述目标训练文本的N元分词。
CN201810996981.8A 2018-08-29 2018-08-29 模型训练方法、文本识别方法、装置及计算设备 Active CN110874408B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810996981.8A CN110874408B (zh) 2018-08-29 2018-08-29 模型训练方法、文本识别方法、装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810996981.8A CN110874408B (zh) 2018-08-29 2018-08-29 模型训练方法、文本识别方法、装置及计算设备

Publications (2)

Publication Number Publication Date
CN110874408A CN110874408A (zh) 2020-03-10
CN110874408B true CN110874408B (zh) 2023-05-26

Family

ID=69714640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810996981.8A Active CN110874408B (zh) 2018-08-29 2018-08-29 模型训练方法、文本识别方法、装置及计算设备

Country Status (1)

Country Link
CN (1) CN110874408B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111191011B (zh) * 2020-04-17 2024-02-23 郑州工程技术学院 一种文本标签的搜索匹配方法、装置、设备及存储介质
CN112417147A (zh) * 2020-11-05 2021-02-26 腾讯科技(深圳)有限公司 训练样本的选取方法与装置
CN113051286A (zh) * 2021-04-20 2021-06-29 中国工商银行股份有限公司 Sql语句转换模型的生成方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN106502989A (zh) * 2016-10-31 2017-03-15 东软集团股份有限公司 情感分析方法及装置
WO2017157198A1 (zh) * 2016-03-17 2017-09-21 阿里巴巴集团控股有限公司 属性获取方法和装置
CN107247702A (zh) * 2017-05-05 2017-10-13 桂林电子科技大学 一种文本情感分析处理方法和系统
CN108319584A (zh) * 2018-01-22 2018-07-24 北京工业大学 一种基于改进FP-Growth算法的微博类短文本的新词发现方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10073834B2 (en) * 2016-02-09 2018-09-11 International Business Machines Corporation Systems and methods for language feature generation over multi-layered word representation
US11023680B2 (en) * 2016-02-17 2021-06-01 The King Abdulaziz City For Science And Technology (Kacst) Method and system for detecting semantic errors in a text using artificial neural networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
WO2017157198A1 (zh) * 2016-03-17 2017-09-21 阿里巴巴集团控股有限公司 属性获取方法和装置
CN106502989A (zh) * 2016-10-31 2017-03-15 东软集团股份有限公司 情感分析方法及装置
CN107247702A (zh) * 2017-05-05 2017-10-13 桂林电子科技大学 一种文本情感分析处理方法和系统
CN108319584A (zh) * 2018-01-22 2018-07-24 北京工业大学 一种基于改进FP-Growth算法的微博类短文本的新词发现方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋振超 ; 李丽双 ; 黄德根 ; .基于词语关系的词向量模型.中文信息学报.2017,(第03期),30-36. *

Also Published As

Publication number Publication date
CN110874408A (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN109145153B (zh) 意图类别的识别方法和装置
CN108304468B (zh) 一种文本分类方法以及文本分类装置
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN110263325B (zh) 中文分词系统
CN108304372A (zh) 实体提取方法和装置、计算机设备和存储介质
US20130060769A1 (en) System and method for identifying social media interactions
CN111950287B (zh) 一种基于文本的实体识别方法及相关装置
CN108304375A (zh) 一种信息识别方法及其设备、存储介质、终端
CN108628828A (zh) 一种基于自注意力的观点及其持有者的联合抽取方法
US20190392035A1 (en) Information object extraction using combination of classifiers analyzing local and non-local features
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111444330A (zh) 提取短文本关键词的方法、装置、设备及存储介质
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN112395421B (zh) 课程标签的生成方法、装置、计算机设备及介质
CN109446333A (zh) 一种实现中文文本分类的方法及相关设备
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
CN117291192B (zh) 一种政务文本语义理解分析方法及系统
CN114722832A (zh) 一种摘要提取方法、装置、设备以及存储介质
CN115526176A (zh) 文本识别方法及装置、电子设备、存储介质
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN116151258A (zh) 文本消岐方法、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant