CN111539207B - 文本识别方法、文本识别装置、存储介质和电子设备 - Google Patents
文本识别方法、文本识别装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN111539207B CN111539207B CN202010359032.6A CN202010359032A CN111539207B CN 111539207 B CN111539207 B CN 111539207B CN 202010359032 A CN202010359032 A CN 202010359032A CN 111539207 B CN111539207 B CN 111539207B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- category
- recognized
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Abstract
本发明实施例提供了一种文本识别方法、文本识别装置、存储介质和电子设备。本发明实施例获取待识别文本中各词语的词语特征,并基于预先训练的分类模型,进而根据各词语的词语特征确定用于表征各词语的语种的词语类别,从而根据各词语的词语类别确定待识别文本的文本类别。在本发明实施例中,待识别文本由用户终端上传,因此基于本发明实施例的方法可以对待识别文本进行较为准确的识别,以较为准确地确定用户所输入的语言,从而为后续提升教学过程的针对性提供较为准确的数据支撑。
Description
技术领域
本发明公开涉及数据处理技术领域,具体涉及一种文本识别方法、文本识别装置、存储介质和电子设备。
背景技术
随着计算机技术领域的不断发展,各行各业的信息化程度越来越高。以教育行业为例,越来越多的学校、教育平台等会选择通过线上的方式对学习者进行知识分享、对学习者的学业水平进行检验等。但是学习者可能来自不同的国家,可能会选择不同的语言对题目进行作答,因此对于学校、教育平台等,如何分辨学习者所输入的语言是十分有必要的。
发明内容
有鉴于此,本发明实施例的目的在于提供一种文本识别方法、文本识别装置、存储介质和电子设备,用于根据用户上传的文本较为准确地确定用户所输入的语言,从而为后续提升教学过程的针对性提供较为准确的数据支撑。
根据本发明实施例的第一方面,提供一种文本识别方法,所述方法包括:
获取待识别文本,所述待识别文本包括至少一个词语;
分别确定所述待识别文本中各词语对应的第一词语特征;
基于预先训练的分类模型,根据各所述第一词语特征获取各词语的词语类别,所述词语类别用于表征所述词语对应的语种;
根据各词语的所述词语类别确定所述待识别文本的文本类别,所述文本类别用于表征所述待识别文本对应的语种。
优选地,所述分类模型通过如下方式训练:
获取多个目标词语,所述目标词语为用于作为所述分类模型的训练样本的词语;
根据各所述目标词语的第二词语特征以及对应的类别标识确定样本集合;
根据所述样本集合对所述分类模型进行训练,直至所述分类模型的损失函数达到预期。
优选地,所述根据所述样本集合对所述分类模型进行训练,直至所述分类模型的损失函数达到预期包括:
将所述样本集合随机划分为训练样本集合和测试样本集合,所述训练样本集合以及所述测试样本集合均包括至少一个所述第二词语特征以及对应的所述类别标识;
以所述训练样本集合中的各所述第二词语特征为输入,以对应的所述类别标识为输出,对所述分类模型进行训练;
以所述测试样本集合中的至少一个所述第二词语特征为输入,基于所述分类模型获取对应的输出值,并根据所述输出值以及对应的所述类别标识确定误差值,以判定所述损失函数是否达到预期。
优选地,所述分别根据各词语的所述词语类别确定所述待识别文本的文本类别包括:
响应于所述待识别文本由一个词语组成,将所述词语类别确定为所述文本类别;
响应于所述待识别文本由多个词语组成,确定所述待识别文本中的目标类别作为所述文本类别,所述目标类别根据目标词语集合的类别确定,所述目标词语集合包括词语类别相同且数量满足第二条件的词语。
优选地,所述待识别文本中至少一个词语为名称;
所述第一词语特征包括词语的词语长度、各字符对对应的距离总和、相同字符组成的字符对的数量、字符、字符对以及各字符在字符表中的位置中的至少一项,所述字符为组成所述词语的基本单位,所述字符对包括词语中相邻的两个字符,所述距离总和根据字符在字符表中的位置确定。
根据本发明实施例的第二方面,提供一种文本识别装置,所述装置包括:
第一获取单元,用于获取待识别文本,所述待识别文本包括至少一个词语;
第一确定单元,用于分别确定所述待识别文本中各词语对应的第一词语特征;
第二获取单元,用于基于预先训练的分类模型,根据各所述第一词语特征获取各词语的词语类别,所述词语类别用于表征所述词语对应的语种;
第二确定单元,用于根据各词语的所述词语类别确定所述待识别文本的文本类别,所述文本类别用于表征所述待识别文本对应的语种。
优选地,所述第二确定单元包括:
第一确定子单元,用于响应于所述待识别文本由一个词语组成,将所述词语类别确定为所述文本类别;
第二确定子单元,用于响应于所述待识别文本由多个词语组成,确定所述待识别文本中的目标类别作为所述文本类别,所述目标类别根据目标词语集合的类别确定,所述目标词语集合包括词语类别相同且数量满足第二条件的词语。
优选地,所述待识别文本中至少一个词语为名称;
所述第一词语特征包括词语的词语长度、各字符对对应的距离总和、相同字符组成的字符对的数量、字符、字符对以及各字符在字符表中的位置中的至少一项,所述字符为组成所述词语的基本单位,所述字符对包括词语中相邻的两个字符,所述距离总和根据字符在字符表中的位置确定。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如第一方面中任一项所述的方法。
根据本发明实施例的第四方面,提供一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面中任一项所述的方法。
本发明实施例获取待识别文本中各词语的词语特征,并基于预先训练的分类模型,进而根据各词语的词语特征确定用于表征各词语的语种的词语类别,从而根据各词语的词语类别确定待识别文本的文本类别。在本发明实施例中,待识别文本由用户终端上传,因此基于本发明实施例的方法可以对待识别文本进行较为准确的识别,以较为准确地确定用户所输入的语言,从而为后续提升教学过程的针对性提供较为准确的数据支撑。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明第一实施例的文本识别方法的流程图;
图2是本发明第一实施例的一种可选的实现方式中训练分类模型的流程图;
图3是本发明第一实施例的文本识别方法的数据流程图;
图4是本发明第二实施例的文本识别装置的示意图;
图5是本发明第三实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明实施例中,以对学习者在教学检测过程中上传的待识别文本进行文本识别处理为例进行说明。但是本领域技术人员容易理解,任一待识别文本均可以适用于本发明实施例的方法。
越来越多的学校、教育平台等会选择通过线上的方式对学习者进行知识分享、对学习者的学业水平进行检验等。学习者在教学过程中可以选择文字或语音的方式对教学者提出的问题,或者在教学检测过程中对学业水平检测中的题目进行回答,但是学习者可能来自不同的国家,可能会选择不同的语言对题目进行作答。因此对于学校、教育平台等,如何准确分辨学习者所输入的语言是十分有必要的。
图1是本发明第一实施例的文本识别方法的流程图。如图1所示,本实施例的方法包括如下步骤:
步骤S101,获取待识别文本。
以线上教学活动为例,教学过程中,教学者和学习者可以通过线上的方式进行知识分享。教学者在提出问题后,学习者可以通过文字或语音的方式进行回答。由此,客户端可以将用户的回答作为消息内容上传至服务器,使得服务器可以根据消息内容确定待识别文本。在用户上传的消息内容为文本时,服务器可以直接将消息内容确定为待识别文本;在消息内容为语音时,服务器可以通过现有的语音识别方法,例如通过《崔天宇.基于HMM的语音识别系统的研究与实现.吉林大学.2016年硕士学位论文》中记载的语音识别系统进行语音识别,从而将得到的语音识别结果确定为待识别文本。
可选地,在本实施例中,待识别文本还可以为任一无法直接确定语种的文本,例如由汉语拼音注音的文本、由罗马拼音注音的文本等,本实施例不做具体限定。
待识别文本可以包括至少一个词语。在本实施例中,待识别文本中包括至少一个为名称的词语,具体可以为人名、地名等。以人名为例,对于不同的国家和地区,人名的命名方式通常呈现一定的规律性,例如,在一些国家和地区,使用罗马音进行注音;在另一些国家和地区,使用汉语拼音进行注音,因此可以较为准确地反映上传该待识别文本的用户所输入的语言。
容易理解,在待识别文本中包括多个词语时,服务器可以通过现有的方式,例如结巴分词对待识别文本进行分割,从而得到待识别文本对应的多个词语。
步骤S102,分别确定待识别文本中各词语对应的第一词语特征。
第一词语特征用于反映对应的词语的特性,具有较强的区分度。具体地,第一词语特征可以包括词语的词语长度、各字符对对应的距离总和、相同字符组成的字符对的数量、字符、字符对以及各字符在字符表中的位置中的至少一项。在本实施例中,字符为组成词语的基本单位,在词语为英文词语时,字符可以为英文字母。字符对中包括词语中相邻的两个字符,例如,词语1为Smith,则词语1对应的字符对可以包括“sm”“mi”“it”和“th”。
其中,词语长度可以根据词语中字符的数量确定。例如,词语1为Smith,包括5个字符,则词语1的词语长度为5。
各字符对对应的距离总和可以根据字符对中各字符在字符表中的位置确定。具体地,服务器可以首先确定各字符对中各字符在字母表中的位置,然后确定各字符之间的差值的绝对值作为距离,然后根据各字符对对应的距离确定距离总和。例如,词语1为Smith,对应的字符对包括“sm”“mi”“it”和“th”。服务器可以确定各字符在字母表(也即,字符表)中的位置分别为s:19,m:13,i:9,t:20,h:8,并确定各字符对中各字符之间的距离,分别为“sm”:6,“mi”:4,“it”:11,“th”12。从而,服务器可以确定词语1对应的距离总和为33。
相同字符组成的字符对也即字符对中的两个字符是相同的,例如“ee”“ss”等。例如,词语1为Smith,则相同字符组成的字符对的数量为0。
可选地,各词语的第一词语特征还可以包括其他特征,例如距离大于预定阈值的字符对的数量等,本实施例不做具体限定。
步骤S103,基于预先训练的分类模型,根据各第一词语特征获取各词语的词语类别。
在本实施例中,词语类别用于表征词语对应的语种。服务器在将各词语的第一词语特征输入分类模型后,可以确定各词语对应的语种。其中,语种具体可以包括中文、英文、法文、德文等,本实施例不做具体限定。
在本实施例中,分类模型可以为XGBoost(eXtreme Gradient Boosting,极端梯度提升树),也即GBDT(Gradient Boosting Decision Tree,梯度提升迭代决策树)。XGBoost运用集成学习思想来进行结果/标签的预测。集成学习是指将多个学习模型进行组合,以获得更好的预测效果,从而使组合后的模型具有具有更强的普适性。XGBoost通常可以用于解决两种问题,包括分类问题和回归问题。在本实施例中,确定歌词与对应的词语标识实际为一种标签预测问题,因此属于分类问题的一种。可选地,分类模型还可以为其他模型,例如卷积神经网络、循环神经网络等,本实施例不做限定。
图2是本发明第一实施例的一种可选的实现方式中训练分类模型的流程图。如图2所示,在本实施例的一种可选的实现方式中,分类模型可以通过如下方式训练:
步骤S201,获取多个目标词语。
在本实施例中,目标词语为用于作为分类模型的训练样本的词语。也就是说,服务器已知多个目标词语对应的类别标识。具体地,在对分类模型进行训练前,服务器可以预先确定类别标识与语种的对应关系,从而确定各目标词语的类别标识。
例如,中文对应的类别标识为1,英文对应的类别标识为2,法文对应的类别标识为3,德文对应的类别标识为4等等。词语“zhu”对应的语种为中文,则服务器可以确定词语“zhu”对应的类别标识为1。
步骤S202,根据各目标词语的第二词语特征以及对应的类别标识确定样本集合。
与待识别文本中各词语的第一词语特征相似,目标词语的第二词语特征同样可以包括目标词语的词语长度、各字符对对应的距离总和、相同字符组成的字符对的数量、字符、字符对以及各字符在字符表中的位置中的至少一项。服务器将一个目标词语的第二词语特征以及对应的类别标识确定为一个训练样本,从而可以根据各训练样本确定样本集合。
步骤S203,根据样本集合对分类模型进行训练,直至分类模型的损失函数达到预期。
具体地,服务器可以将样本集合随机划分为训练样本集合和测试样本集合,例如,训练样本集合中训练样本的数量与测试样本集合训练样本的数量的比例可以为7:3。容易理解,训练样本集合和测试样本集合均包括至少一个训练样本。然后,服务器以训练样本集合中各目标词语的第二词语特征为输入,以对应的类别标识为输出对分类模型进行训练。在基于训练样本集合对分类模型训练完毕后,服务器还可以以测试样本集合中的至少一个目标词语的第二词语特征为输入,基于分类模型获取至少目标词语的输出值(也即,预测值),从而根据至少一个目标词语的输出值以及对应的类别标识确定分类模型的损失函数,以判定损失函数是否达到预期。可选地,服务器可以通过最小化损失函数的方式使得损失函数达到预期。具体地,XGBoost的目标函数可以根据如下公式计算:
Obj=L(yi,y'i)+Ω(fk)
其中,Obj(Θ)为目标函数,L(yi,yi’)为损失函数,Ω(fk)为正则化项。其中,损失函数可以根据如下公式计算:
其中,yi为第i个样本的分类结果的准确值,yi’为第i个样本的分类结果的预测值。yi’可以根据如下公式计算:
其中,F为所有可能的提升树,fk为一个具体的提升树。
正则化项可以为L1正则化项也可以为L2正则化项。具体地,正则化项可以根据如下公式计算:
其中,γ和λ为预先确定的值,γ和λ的取值越大,提升树的结构越简单,T是提升树的叶子结点的数量,ωj为叶子结点的权值。
对目标函数进行泰勒展开并将目标函数简化后,可以获取优化的目标函数为:
其中,m为泰勒展开的阶数,可以根据需求预先进行设定,Ij为每个叶子结点上的样本集合。
步骤S104,根据各词语的词语类别确定待识别文本的文本类别。
在确定待识别文本中各词语的词语类别后,服务器可以确定待识别文本的文本类别,以较为准确地确定用户实际所使用的语音。在本实施例中,文本类别用于表征待识别文本对应的语种。对于任一待识别文本,其中的一些词语可能不具备非常明显的区分性,例如词语“football”,因此通过分类模型得到的词语类别可能不准确,因此服务器需要根据各词语的词语类别确定待识别文本的文本类别。
在一种可能的情况中,若待识别文本中仅包括一个词语,则服务器可以将词语对应的词语类别确定为待识别文本的文本类别。例如,词语“zhu”对应的词语类别为中文,则待识别文本的文本类别为中文。
在另一种可能的情况中,若待识别文本中包括多个词语,则服务器可以确定待识别文本中的目标类别作为文本类别。具体地,服务器可以根据目标词语集合的类别确定目标类别。在本实施例中,目标词语集合包括词语类别相同且数量满足第二条件的词语,其中,第二条件可以被设置为数量排序在最大的第一位的词语。
例如,待识别文本t1包括词语w1,词语w2,词语w3,词语w4,词语w5,词语w6,词语w7和词语w8。服务器可以首先确定多个词语集合,具体包括词语集合c1:词语w1、词语w2、词语w4、词语w6和词语w7,词语集合c1中各词语的词语类别为中文,词语集合c2包括词语集合词语w3和词语w5,词语集合c2中各词语的词语类别为英文,词语集合c3包括词语C8,词语集合c3中词语的词语类别为德语,则服务器可以确定目标词语集合为词语集合c1,并根据目标词语集合中各词语的词语类别(也即,中文)确定待识别文本t1的文本类别为中文。
图3是本发明第一实施例的文本识别方法的数据流程图。如图3所示,以待识别文本为“Jerry Zhu:I like playing.”为例进行说明。待识别文本“Jerry Zhu:I likeplaying.”包括词语w1:Jerry,词语w2:Zhu,词语w3:I,词语w4:like以及词语w5:playing。服务器可以分别获取词语w1-词语w5对应的第一词语特征,具体可以包括词语长度、距离总和(也即,各字符对对应的距离总和)、相同字符对数量(也即,相同字符组成的字符对的数量)和字符,图3以列表形式进行展示。并分别以词语w1-词语w5对应的第一词语特征f11-f15为输入,基于根据多个目标词语的第二词语特征f21-f2n(其中,n为大于1的预定整数)和对应的类别标识l1-lm(其中,m为大于1的预定整数)训练获得的分类模型31获取词语w1-词语w5对应的词语类别,具体可以为词语w1:类别l1,词语w2:类别l2,词语w3:类别l1,词语w4:类别l1以及词语w5:类别l1,图3仍旧以列表形式进行展示。从而,服务器可以确定待识别文本的目标类别为文本类别,目标类别具体可以为类别l1。容易理解,m的值通常小于n。
本实施例获取待识别文本中各词语的词语特征,并基于预先训练的分类模型,进而根据各词语的词语特征确定用于表征各词语的语种的词语类别,从而根据各词语的词语类别确定待识别文本的文本类别。在本实施例中,待识别文本由用户终端上传,因此基于本实施例的方法可以对待识别文本进行较为准确的识别,以较为准确地确定用户所输入的语言,从而为后续提升教学过程的针对性提供较为准确的数据支撑。
图4是本发明第二实施例的文本识别装置的示意图。如图4所示,本实施例的装置包括第一获取单元41、第一确定单元42、第二获取单元43和第二确定单元44。
其中,第一获取单元41用于获取待识别文本,所述待识别文本包括至少一个词语。第一确定单元42用于分别确定所述待识别文本中各词语对应的第一词语特征。第二获取单元43用于基于预先训练的分类模型,根据各所述第一词语特征获取各词语的词语类别,所述词语类别用于表征所述词语对应的语种。第二确定单元44用于根据各词语的所述词语类别确定所述待识别文本的文本类别,所述文本类别用于表征所述待识别文本对应的语种。
进一步地,所述第二确定单元44包括第一确定子单元和第二确定子单元。
其中,第一确定子单元用于响应于所述待识别文本由一个词语组成,将所述词语类别确定为所述文本类别。第二确定子单元用于响应于所述待识别文本由多个词语组成,确定所述待识别文本中的目标类别作为所述文本类别,所述目标类别根据目标词语集合的类别确定,所述目标词语集合包括词语类别相同且数量满足第二条件的词语。
进一步地,所述待识别文本中至少一个词语为名称;
所述第一词语特征包括词语的词语长度、各字符对对应的距离总和、相同字符组成的字符对的数量、字符、字符对以及各字符在字符表中的位置中的至少一项,所述字符为组成所述词语的基本单位,所述字符对包括词语中相邻的两个字符,所述距离总和根据字符在字符表中的位置确定。
本实施例获取待识别文本中各词语的词语特征,并基于预先训练的分类模型,进而根据各词语的词语特征确定用于表征各词语的语种的词语类别,从而根据各词语的词语类别确定待识别文本的文本类别。在本实施例中,待识别文本由用户终端上传,因此基于本实施例的装置可以对待识别文本进行较为准确的识别,以较为准确地确定用户所输入的语言,从而为后续提升教学过程的针对性提供较为准确的数据支撑。
图5是本发明第三实施例的电子设备的示意图。图5所示的电子设备为通用数据处理装置,具体可以为本发明实施例的第一终端、第二终端或服务器,其包括通用的计算机硬件结构,其至少包括处理器51和存储器52。处理器51和存储器52通过总线53连接。存储器52适于存储处理器51可执行的指令或程序。处理器51可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器51通过执行存储器52所存储的命令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线53将上述多个组件连接在一起,同时将上述组件连接到显示控制器54和显示装置以及输入/输出(I/O)装置55。输入/输出(I/O)装置55可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出(I/O)装置55通过输入/输出(I/O)控制器56与系统相连。
其中,存储器52可以存储软件组件,例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解,流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
同时,如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明的方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文本识别方法,其特征在于,所述方法包括:
获取待识别文本,所述待识别文本包括至少一个词语;
分别确定所述待识别文本中各词语对应的第一词语特征,所述第一词语特征包括词语的词语长度、各字符对对应的距离总和、相同字符组成的字符对的数量、字符、字符对、距离大于预定阈值的字符对的数量以及各字符在字符表中的位置中的至少一项;
基于预先训练的分类模型,根据各所述第一词语特征获取各词语的词语类别,所述词语类别用于表征所述词语对应的语种,所述分类模型基于多个目标词语的词语特征训练获得,所述目标词语具有对应的类别标识;
根据各词语的所述词语类别确定所述待识别文本的文本类别,所述文本类别用于表征所述待识别文本对应的语种。
2.根据权利要求1所述的方法,其特征在于,所述分类模型通过如下方式训练:
获取多个目标词语,所述目标词语为用于作为所述分类模型的训练样本的词语;
根据各所述目标词语的第二词语特征以及对应的类别标识确定样本集合;
根据所述样本集合对所述分类模型进行训练,直至所述分类模型的损失函数达到预期。
3.根据权利要求2所述的方法,其特征在于,所述根据所述样本集合对所述分类模型进行训练,直至所述分类模型的损失函数达到预期包括:
将所述样本集合随机划分为训练样本集合和测试样本集合,所述训练样本集合以及所述测试样本集合均包括至少一个所述第二词语特征以及对应的所述类别标识;
以所述训练样本集合中的各所述第二词语特征为输入,以对应的所述类别标识为输出,对所述分类模型进行训练;
以所述测试样本集合中的至少一个所述第二词语特征为输入,基于所述分类模型获取对应的输出值,并根据所述输出值以及对应的所述类别标识确定误差值,以判定所述损失函数是否达到预期。
4.根据权利要求1所述的方法,其特征在于,所述分别根据各词语的所述词语类别确定所述待识别文本的文本类别包括:
响应于所述待识别文本由一个词语组成,将所述词语类别确定为所述文本类别;
响应于所述待识别文本由多个词语组成,确定所述待识别文本中的目标类别作为所述文本类别,所述目标类别根据目标词语集合的类别确定,所述目标词语集合包括词语类别相同且数量满足第二条件的词语。
5.根据权利要求1所述的方法,其特征在于,所述待识别文本中至少一个词语为名称;
所述字符为组成所述词语的基本单位,所述字符对包括词语中相邻的两个字符,所述距离总和根据字符在字符表中的位置确定。
6.一种文本识别装置,其特征在于,所述装置包括:
第一获取单元,用于获取待识别文本,所述待识别文本包括至少一个词语;
第一确定单元,用于分别确定所述待识别文本中各词语对应的第一词语特征,所述第一词语特征包括词语的词语长度、各字符对对应的距离总和、相同字符组成的字符对的数量、字符、字符对、距离大于预定阈值的字符对的数量以及各字符在字符表中的位置中的至少一项;
第二获取单元,用于基于预先训练的分类模型,根据各所述第一词语特征获取各词语的词语类别,所述词语类别用于表征所述词语对应的语种,所述分类模型基于多个目标词语的词语特征训练获得,所述目标词语具有对应的类别标识;
第二确定单元,用于根据各词语的所述词语类别确定所述待识别文本的文本类别,所述文本类别用于表征所述待识别文本对应的语种。
7.根据权利要求6所述的装置,其特征在于,所述第二确定单元包括:
第一确定子单元,用于响应于所述待识别文本由一个词语组成,将所述词语类别确定为所述文本类别;
第二确定子单元,用于响应于所述待识别文本由多个词语组成,确定所述待识别文本中的目标类别作为所述文本类别,所述目标类别根据目标词语集合的类别确定,所述目标词语集合包括词语类别相同且数量满足第二条件的词语。
8.根据权利要求6所述的装置,其特征在于,所述待识别文本中至少一个词语为名称;
所述字符为组成所述词语的基本单位,所述字符对包括词语中相邻的两个字符,所述距离总和根据字符在字符表中的位置确定。
9.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-5中任一项所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010359032.6A CN111539207B (zh) | 2020-04-29 | 2020-04-29 | 文本识别方法、文本识别装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010359032.6A CN111539207B (zh) | 2020-04-29 | 2020-04-29 | 文本识别方法、文本识别装置、存储介质和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111539207A CN111539207A (zh) | 2020-08-14 |
CN111539207B true CN111539207B (zh) | 2023-06-13 |
Family
ID=71975357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010359032.6A Active CN111539207B (zh) | 2020-04-29 | 2020-04-29 | 文本识别方法、文本识别装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111539207B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329454A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 语种识别方法、装置、电子设备及可读存储介质 |
CN112528682A (zh) * | 2020-12-23 | 2021-03-19 | 北京百度网讯科技有限公司 | 语种检测方法、装置、电子设备和存储介质 |
CN112667779B (zh) * | 2020-12-30 | 2023-09-05 | 北京奇艺世纪科技有限公司 | 一种信息查询方法、装置、电子设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6466901B1 (en) * | 1998-11-30 | 2002-10-15 | Apple Computer, Inc. | Multi-language document search and retrieval system |
RU2251737C2 (ru) * | 2002-10-18 | 2005-05-10 | Аби Софтвер Лтд. | Способ автоматического определения языка распознаваемого текста при многоязычном распознавании |
AU2003295682A1 (en) * | 2002-11-15 | 2004-06-15 | Voice Signal Technologies, Inc. | Multilingual speech recognition |
US8825648B2 (en) * | 2010-04-15 | 2014-09-02 | Microsoft Corporation | Mining multilingual topics |
CN106598937B (zh) * | 2015-10-16 | 2019-10-18 | 阿里巴巴集团控股有限公司 | 用于文本的语种识别方法、装置和电子设备 |
CN107680579B (zh) * | 2017-09-29 | 2020-08-14 | 百度在线网络技术(北京)有限公司 | 文本正则化模型训练方法和装置、文本正则化方法和装置 |
CN108595443A (zh) * | 2018-03-30 | 2018-09-28 | 浙江吉利控股集团有限公司 | 同声翻译方法、装置、智能车载终端及存储介质 |
CN111027528B (zh) * | 2019-11-22 | 2023-10-03 | 华为技术有限公司 | 语种识别方法、装置、终端设备及计算机可读存储介质 |
CN111079408B (zh) * | 2019-12-26 | 2023-05-30 | 北京锐安科技有限公司 | 一种语种识别方法、装置、设备及存储介质 |
-
2020
- 2020-04-29 CN CN202010359032.6A patent/CN111539207B/zh active Active
Non-Patent Citations (2)
Title |
---|
UTD-CRSS system for the NIST 2015 language recognition i-vector machine learning challenge;Chengzhu Yu;《 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;全文 * |
基于深度神经网络的语种识别;崔瑞莲;《模式识别与人工智能》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111539207A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110795543B (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
CN111539207B (zh) | 文本识别方法、文本识别装置、存储介质和电子设备 | |
CN106940788B (zh) | 智能评分方法及装置、计算机设备及计算机可读介质 | |
CN109523194B (zh) | 汉语阅读能力测评方法、装置及可读存储介质 | |
US10884893B2 (en) | Detecting software build errors using machine learning | |
US20200193095A1 (en) | Method, apparatus, device and storage medium for evaluating quality of answer | |
CN112487139B (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN109359290B (zh) | 试题文本的知识点确定方法、电子设备及存储介质 | |
WO2021218028A1 (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
WO2020199600A1 (zh) | 情感极性分析方法及相关装置 | |
CN110543633B (zh) | 语句意图识别方法、装置 | |
CN110929524A (zh) | 数据筛选方法、装置、设备及计算机可读存储介质 | |
CN110569364A (zh) | 在线教学方法、装置、服务器及存储介质 | |
CN110991195B (zh) | 机器翻译模型训练方法、装置及存储介质 | |
CN110222328B (zh) | 基于神经网络的分词和词类标注方法、装置、设备及存储介质 | |
CN111666409A (zh) | 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法 | |
CN108280065B (zh) | 一种外文文本评价方法及装置 | |
CN111339292A (zh) | 文本分类网络的训练方法、系统、设备及存储介质 | |
CN111832281A (zh) | 作文评分方法、装置、计算机设备及计算机可读存储介质 | |
CN112183055A (zh) | 结合rpa和ai的信息获取方法、装置、计算机设备及介质 | |
CN110852071A (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN111444729A (zh) | 信息处理的方法、装置、设备及可读存储介质 | |
CN111079433A (zh) | 一种事件抽取方法、装置及电子设备 | |
KR102344724B1 (ko) | 인공지능 모델을 통해 학생의 학습을 관리하는 전자 장치, 및 학습 관리 방법 | |
CN113392218A (zh) | 文本质量评估模型的训练方法和确定文本质量的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |