CN111488737A - 文本识别方法、装置及设备 - Google Patents

文本识别方法、装置及设备 Download PDF

Info

Publication number
CN111488737A
CN111488737A CN201910019661.1A CN201910019661A CN111488737A CN 111488737 A CN111488737 A CN 111488737A CN 201910019661 A CN201910019661 A CN 201910019661A CN 111488737 A CN111488737 A CN 111488737A
Authority
CN
China
Prior art keywords
information
text
model
result
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910019661.1A
Other languages
English (en)
Other versions
CN111488737B (zh
Inventor
马春平
谢朋峻
王潇斌
李林琳
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910019661.1A priority Critical patent/CN111488737B/zh
Publication of CN111488737A publication Critical patent/CN111488737A/zh
Application granted granted Critical
Publication of CN111488737B publication Critical patent/CN111488737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供一种文本识别方法、装置及设备,方法包括:获取待识别文本;利用第一模型和第二模型对待识别文本进行识别,获得第一识别结果和第二识别结果,其中,第一模型和第二模型是由不同领域的语料训练得到的;至少根据第一识别结果和第二识别结果确定待识别文本的标签信息。通过获取待识别文本,并利用第一模型和第二模型对待识别文本进行识别,获得第一识别结果和第二识别结果,由于第一模型和第二模型是由不同领域的语料训练得到的,进而实现了对待识别文本的跨领域识别,而后根据第一识别结果和第二识别结果确定待识别文本的标签信息,有效地保证了对待识别文本进行识别的准确可靠性,降低识别的成本和难度,提高了该方法的实用性。

Description

文本识别方法、装置及设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本识别方法、装置及设备。
背景技术
实体识别是指识别文本中具有特定意义的实体,一般包括人名、地名、机构名、专有名词等,其作为自然语言处理的基本任务之一,通常包括实体边界识别和确定实体类别两个部分。
在进行实体识别时,不同领域中能够的实体的定义和涉及类别大相径庭,例如:在学术领域,实体识别主要关注对人名、地名、机构名的识别。在影视剧领域,实体识别则关注对影视作品、明星、歌曲等实体的识别。在生物医疗领域,实体识别则关注疾病、药物、治疗方法等实体的识别。在电商领域,实体识别则专注于识别产品、品牌、型号等实体。然而,现有技术中的实体识别的系统只能识别单个领域内的实体,在对不同的领域对数据进行实体识别时,只能通过人工的方式来实现,这样增加了识别的成本,并且降低了识别的效率。
发明内容
本发明实施例提供了一种文本识别方法、装置及设备,可以实现跨领域对实体进行识别,从而降低识别的成本和难度。
第一方面,本发明实施例提供一种文本识别方法,包括:
获取待识别文本;
利用第一模型和第二模型对所述待识别文本进行识别,获得第一识别结果和第二识别结果,其中,所述第一模型和所述第二模型是由不同领域的语料训练得到的;
至少根据所述第一识别结果和所述第二识别结果确定所述待识别文本的标签信息。
第二方面,本发明实施例提供一种标签的识别装置,包括:
获取模块,用于获取待识别文本;
识别模块,用于利用第一模型和第二模型对所述待识别文本进行识别,获得第一识别结果和第二识别结果,其中,所述第一模型和所述第二模型是由不同领域的语料训练得到的;
确定模块,用于至少根据所述第一识别结果和所述第二识别结果确定所述待识别文本的标签信息。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面所述的文本识别方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面中的文本识别方法。
通过获取待识别文本,并利用第一模型和第二模型对待识别文本进行识别,获得第一识别结果和第二识别结果,由于第一模型和所述第二模型是由不同领域的语料训练得到的,进而实现了对待识别文本的跨领域识别,而后根据第一识别结果和第二识别结果确定待识别文本的标签信息,有效地保证了对待识别文本进行识别的准确可靠性,并且也降低识别的成本和难度,从而提高了该方法的实用性,有利于市场的推广与应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例提供的一种文本识别方法的流程图一;
图1b为本发明实施例提供的一种文本识别方法的流程图二;
图2为本发明实施例提供的确定所述待识别文本的标签信息的流程图;
图3为本发明实施例提供的确定所述标签信息的流程图一;
图4为本发明实施例提供的确定所述标签信息的流程图二;
图5为本发明实施例提供的确定所述标签信息的流程图三;
图6为本发明实施例提供的确定所述标签信息的流程图四;
图7为本发明实施例提供的确定所述标签信息的流程图五;
图8为本发明实施例提供的获取利用所述第一模型对所述待识别文本进行识别的第一预测实体概率的流程图;
图9为本发明实施例提供的获取与所述第一语料信息相对应的第一词性序列概率的流程图;
图10为本发明实施例提供的获取利用所述第二模型对所述待识别文本进行识别的第二预测实体概率的流程图;
图11为本发明实施例提供的获取与所述第二语料信息相对应的第二词性序列概率的流程图;
图12为本发明实施例提供的一种标签的识别装置的结构示意图;
图13为与图12所示实施例提供的标签的识别装置对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
参考附图1a-图1b所示,本实施例提供了一种文本识别方法,该方法的执行主体可以为识别装置,该识别装置可以实现跨领域对数据实体进行识别,从而降低识别的成本和难度。具体的,该方法可以包括:
S1:获取待识别文本。
其中,待识别文本即为需要进行实体识别的数据信息,在对数据信息进行实体识别之后,可以获得与该数据相对应的标签信息。本实施例对于待识别文本的获取方式不做限定,本领域技术人员可以根据具体的设计需求进行设置,例如:可以通过访问数据库或者服务器来获取待识别文本。或者,待识别文本也可以是外部设备发送的数据,通过与外部设备的通信连接可以直接接收到待识别文本。当然的,本领域技术人员还可以采用其他的方式来获取待识别文本,只要能够保证待识别文本获取的准确可靠性即可,在此不再赘述。
S2:利用第一模型和第二模型对待识别文本进行识别,获得第一识别结果和第二识别结果,其中,第一模型和第二模型是由不同领域的语料训练得到的。
其中,第一模型和第二模型是由不同领域的语料训练得到的可以是指第一模型是由第一语料进行训练得到的,第二模型是由第二语料训练得到的,而第一语料和第二语料属于不同的领域,因此,第一模型和第二模型可以适用于不同的场景。由于第一模型和第二模型是由不同领域的语料训练得到的,因此,在利用第一模型和第二模型对待识别文本进行识别时,可以获取到第一识别结果和第二识别结果,此处的第一识别结果与第二识别结果可以相同或不同。并且,在对第一识别结果和第二识别结果进行表达时,第一识别结果和第二识别结果可以均采用“BIO”标注方式进行表达,其中,“B”为开头标签,“I”为中间标签,“O”为排除标签信息,所述开头标签和所述中间标签均属于保留标签信息。具体的,“B”方式为“begin”的英文简写,代表开头标签;“I”方式为“intermediate”的英文简写,代表中间标签,“O”方式方式即为“other”的英文简写,代表排除标签,用于标记无关字符。
可以理解的是,一个待识别文本中可以利用至少一套“BIO”方式进行表达。举例来说,第一待识别文本的识别结果可以为:B_PERSON,I_PERSON,O,O,此时,识别结果利用一套有关实体为“PERSON”的BIO方式进行表达。第二待识别文本的识别结果可以为:B_PERSON,I_PERSON,B_BRAND,I_BRAND,O,O,此时,识别结果利用两套有关实体为“PERSON”和“BRAND”的BIO方式进行表达。同理的,在对待识别文本进行识别时,本领域技术人员还可以根据具体的设计需求和应用场景利用多套BIO标注方式对识别结果进行表达,在此不再赘述。
S3:至少根据第一识别结果和第二识别结果确定待识别文本的标签信息。
在获取到第一识别结果和第二识别结果之后,可以至少根据第一识别结果和第二识别结果来确定待识别文本的标签信息;具体的,一种可实现的方式为:可以对第一识别结果和第二识别结果进行分析处理,从而来确定待识别文本的标签信息;另一种可实现的方式为:可以先获取预设参数或者对待识别文本进行识别构成影响的其他参数信息,结合第一识别结果和第二识别结果以及预设参数或者其他参数信息来获取到待识别文本的标签信息。为了便于理解,本实施例以对第一识别结果和第二识别结果进行分析处理,从而来确定待识别文本的标签信息为例进行说明,具体的,参考附图1b以及附图2所示,本实施例中的确定待识别文本的标签信息可以包括:
S31:将所述第一识别结果中的标注信息与所述第二识别结果中的标注信息进行一一对比,判断是否冲突。
S32:若冲突,则将第一识别结果或第二识别结果确定为标签信息。
S33:若冲突,则根据第一识别结果和第二识别结果确定标签信息。
在获取到第一识别结果和第二识别结果之后,可以将第一识别结果中的标注信息和第二识别结果中的标注信息进行一一对比,此时实现了对第一识别结果和第二识别结果的融合处理过程。经过融合处理后,可以判断第一识别结果与第二识别结果中是否存在冲突,具体的,将第一识别结果中针对待识别文本中的至少一个字符或字符串所对应的识别结果与第二识别结果中针对相同字符或字符串所对应的识别结果进行分析比对,判断是否冲突,若不冲突,则可以将第一识别结果或者第二识别结果中的任意一个作为待识别文本的标签信息;若冲突,则可以对第一识别结果和第二识别结果的冲突进行解决,从而可以获得待识别文本的标签信息,从而有效地保证了待识别文本的标签信息获取的准确可靠性。
本实施例提供的文本识别方法,通过获取待识别文本,并利用第一模型和第二模型对待识别文本进行识别,获得第一识别结果和第二识别结果,由于第一模型和所述第二模型是由不同领域的语料训练得到的,进而实现了对待识别文本的跨领域识别,而后根据第一识别结果和第二识别结果确定待识别文本的标签信息,有效地保证了对待识别文本进行识别的准确可靠性,并且也降低识别的成本和难度,从而提高了该方法的实用性,有利于市场的推广与应用。
图3为本发明实施例提供的确定标签信息的流程图一;在上述实施例的基础上,继续参考附图3可知,本实施例对于在第一识别结果与第二识别结果冲突时,根据第一识别结果和第二识别结果确定标签信息的具体实现过程不做限定,本领域技术人员可以根据具体的设计需求进行设置,较为优选的,本实施例中的确定标签信息可以包括:
S331:获取第一识别结果中针对待识别文本中的至少一个字符或字符串的第一标注信息。
S332:获取第二识别结果中针对待识别文本中相同字符或字符串的第二标注信息。
S333:根据第一标注信息和第二标注信息确定标签信息。
其中,由于第一识别结果与第二识别结果之间存在冲突,因此,可以针对第一识别结果与第二识别结果中冲突的识别部分进行分析处理,具体的,可以获取到第一识别结果中针对待识别文本中至少一个字符或字符串的第一标注信息以及第二识别结果中针对待识别文本中相同字符或字符串的第二标注信息,可以理解的是,上述的第一标注信息与第二标注信息不同,也即,上述所选取的字符为待识别文本中第一识别结果与第二识别结果冲突的结果所对应的部分数据。
进而,在获取到第一标注信息和第二标注信息之后,可以对第一标注信息和第二标注信息进行分析处理,并根据分析处理结果来确定标签信息,具体的,参考附图4所示,一种可实现的方式为,本实施例中的确定标签信息可以包括:
S3331:若第一标注信息为排除标签信息,且第二标注信息为保留标签信息,则利用第二标注信息替换第一标注信息;
S3332:将替换后的第一识别结果确定为标签信息。
举例来说:待识别文本的第一识别结果为:B_PERSON,I_PERSON,O,O;
待识别文本的第二识别结果为:O,O,B_BRAND,I_BRAND。
此时,对于上述待识别文本的第三个字符和第四个字符而言,第一标注信息均为排除标签信息;而第二标注信息为保留标签信息,进而,则可以将第二标注信息替换第一标注信息,并将替换后的第一识别结果确定为标签信息,此时,可以获得待识别文本的标签信息为:B_PERSON,I_PERSON,B_BRAND,I_BRAND。
另外,参考附图5所示,另一种可实现的方式为,本实施例中的确定标签信息可以包括:
S3333:若第一标注信息为保留标签信息,且第二标注信息为排除标签信息,则利用第一标注信息替换第二标注信息;
S3334:将替换后的第二识别结果确定为标签信息。
举例来说:现有待识别文本的第一识别结果为:B_PERSON,I_PERSON,O,O;
待识别文本的第二识别结果为:O,O,B_BRAND,I_BRAND。
此时,对于上述待识别文本的第一个字符和第二个字符而言,第二标注信息均为排除标签信息;而第一标注信息为保留标签信息,进而,则可以将第一标注信息替换第二标注信息,并将替换后的第二识别结果确定为标签信息,此时,同样可以获得待识别文本的标签信息为:B_PERSON,I_PERSON,B_BRAND,I_BRAND。
通过上述两种方式,实现了对第一识别结果和第二识别结果的融合处理,从而可以准确地获取到待识别文本的标签信息,进而保证了对待识别文本进行识别的准确可靠性。
需要注意的是,在根据第一标注信息和第二标注信息确定标签信息时,参考附图6所示,又一种可实现的方式为,本实施例中的确定标签信息还可以包括:
S3335:若第一标注信息和第二标注信息为不同的保留标签信息,则获取与第一语料信息相对应的第一词性序列概率和与第二语料信息相对应的第二词性序列概率,其中,所述第一语料信息与所述第二语料信息属于不同的领域,所述第一语料信息用于训练得到所述第一模型,所述第二语料信息用于训练得到所述第二模型;
在第一标注信息和第二标注信息为不同的保留标签信息时,可以包括如下几种情况:例如,第一标注信息为“B”标注方式,第二标注信息为“I”标注方式;或者,第一标注信息为“B_实体一”,第二标注信息为“B_实体二”;或者,第一标注信息为“I_实体一”,第二标注信息为“I_实体二”等等。为了解决冲突情况,可以分别获取与第一语料信息相对应的第一词性序列概率和与第二语料信息相对应的第二词性序列概率,其中,词性即每个字符是名词、动词、形容词或者其他词性的特征表述;而词性序列概率是指每句话或者每段文本中,前一个字符与后一个字符之间以及字符本身可以构成的词性组合的概率,例如:动词-名词-名词的词性序列概率为P1、形容词-名词-名词的词性序列概率为P2等等。
S3336:获取利用第一模型对待识别文本进行识别的第一预测实体概率以及利用第二模型对待识别文本进行识别的第二预测实体概率;
其中,参考附图8所示,获取利用第一模型对待识别文本进行识别的第一预测实体概率可以包括:
S33361:获取第一语料信息。
其中,在获取第一语料信息时,可以根据不同的使用场景,选择适用的语料信息,并且,第一语料信息可以包括语料信息以及与语料信息相对应的标签信息。
S33362:利用第三模型对第一语料信息进行训练,获得第一模型以及第一预测实体概率。
其中,在获取到第一语料信息之后,可以对第一语料信息的标签信息进行预处理,具体的,可以采用BIO方式进行对第一语料信息进行格式化,去除不需要的标签。举例来说,在第一语料信息为电商领域的标注语料时,电商语料的标签为“品牌”和“产品”,而电商领域的业务场景只需要识别“人名”、“品牌”;此时,对于第一语料信息“XX牌篮球鞋”而言,第一语料信息中的XX牌是“品牌”,“篮球鞋”是“产品”,而针对电商领域的业务场景需求而言,不需要识别产品,只需要识别“品牌”,因此,可以保留“品牌”标签,去除“产品”标签,最终的电商领域的第一语料信息的格式为:X B_BRAND、X I_BRAND、牌I_BRAND、篮O球O鞋O。
进而,在获取到第一语料信息之后,可以利用第三模型对第一语料信息进行训练,具体的,第三模型可以为BILSTM—CRF模型,在利用BILSTM—CRF模型对第一语料信息进行训练之后,可以获取到第一模型以及第一预测实体概率。
相类似的,参考附图10所示,获取利用第二模型对待识别文本进行识别的第二预测实体概率可以包括:
S33363:获取第二语料信息。
其中,第一语料信息和第二语料信息可以属于不同的领域,例如:第一语料信息属于电商邻域,第二语料信息属于新闻领域;或者,第一语料信息属于电商领域,第二语料信息属于医疗领域等等。本领域技术人员可以根据具体的设计需求来选择第一语料信息和第二语料信息,只要能够保证第一语料信息与第二语料信息属于不同的领域即可,以便获得属于不同领域的第一模型和第二模型,在此不再赘述。
S33364:利用第三模型对第二语料信息进行训练,获得第二模型以及第二预测实体概率。
另外,本实施例中的具体实现过程和实现效果与上述实施例中的步骤S33361-S33362的具体实现过程和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
S3337:根据第一词性序列概率、第二词性序列概率、第一预测实体概率和第二预测实体概率确定标签信息。
具体的,在获取到第一词性序列概率、第二词性序列概率、第一预测实体概率和第二预测实体概率之后,可以对第一词性序列概率、第二词性序列概率、第一预测实体概率和第二预测实体概率进行分析处理,并根据分析处理结果来确定标签信息,具体的,参考附图7所示,本实施例中的确定标签信息可以包括:
S33371:将第一词性序列概率与第一预测实体概率做乘法运算,获得第一乘积结果。
S33372:将第二词性序列概率与第二预测实体概率做乘法运算,获得第二乘积结果。
S33373:根据第一乘积结果和第二乘积结果确定标签信息。
具体的,根据第一乘积结果和第二乘积结果确定标签信息可以包括:
S333731:若第一乘积结果大于第二乘积结果,则将第一乘积结果所对应的第一识别结果确定为标签信息。
S333732:若第一乘积结果小于第二乘积结果,则将第二乘积结果所对应的第二识别结果确定为标签信息。
S333733:若第一乘积结果等于第二乘积结果,则将第一识别结果或第二识别结果确定为标签信息。
举例来说,第一词性序列概率为P1a,第一预测实体概率P2a;第二词性序列概率为P1b,第二预测实体概率P2b,获取到第一乘积结果为P1a*P2a;第二乘积结果为P1b*P2b,在P1a*P2a>P1b*P2b时,则说明对于待识别文本而言,第一乘积结果所对应的第一识别结果相对于第二乘积结果所对应的第二识别结果而言比较准确,因此,将第一识别结果确定为标签信息;在P1a*P2a<P1b*P2b,则说明对于待识别文本而言,第二识别结果相对于第一识别结果而言比较准确,因此,将第二识别结果确定为标签信息;在P1a*P2a=P1b*P2b时,则可以将第一识别结果或者第二识别结果确定为标签信息。
通过上述方式来确定标签信息,有效地保证了标签信息确定的准确可靠性,进一步提高了该识别方法使用的精确度。
图9为本发明实施例提供的获取与第一语料信息相对应的第一词性序列概率的流程图;在上述实施例的基础上,继续参考附图9所示,本实施例对于获取与第一语料信息相对应的第一词性序列概率的具体实现方式不做限定,本领域技术人员可以根据具体的设计需求进行设置,较为优选的,本实施例中的获取与第一语料信息相对应的第一词性序列概率可以包括:
S33351:对第一语料信息进行分词处理。
S33352:将分词处理的实体词进行合并。
S33353:对合并后的分词文本进行词性标注,获得词性序列。
S33354:按照第一频率对词性序列进行归一化处理,获得第一词性序列概率。
具体的,可以采用现有技术中的开源工具对第一语料信息进行分词处理,而后对分词处理后的实体词进行合并,对合并后的分词文本进行词性标注,即:统计前一个词、后一个词以及实体词本身的词性序列,并以第一频率对词性序列进行归一化处理,从而可以得到第一词性序列概率。可以理解的是,对于词性序列概率而言,其可以通过对词性序列的概率分布进行统计后得到。举例来说,对于待识别文本而言,动词后出现名词的概率为P1,形容词后出现名词的概率为P2,名词后出现名词的概率为P3,通过对P1、P2和P3的概率分布的统计分析,即可以得到与该待识别文本相对应的词性序列概率。
通过上述方式来获得第一词性序列概率,有效地保证了第一词性序列概率获取的准确可靠性,进而提高了该识别方法的识别精度。
图11为本发明实施例提供的获取与第二语料信息相对应的第二词性序列概率的流程图;参考附图11所示,本实施例中的获取与第二语料信息相对应的第二词性序列概率可以包括:
S33355:对第二语料信息进行分词处理。
S33356:将分词处理的实体词进行合并。
S33357:对合并后的分词文本进行词性标注,获得词性序列。
S33358:按照第二频率对词性序列进行归一化处理,获得第二词性序列概率。
本实施例中的具体实现过程和实现效果与上述实施例中的步骤S33351-S33354的具体实现过程和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
本实施例所提供的识别方法,可以针对实体数据实现跨领域的识别,在进行识别时,有效利用现有的标注语料来获得第一模型和第二模型,避免耗费大量的人工重新标注语料,并且,在面对跨领域的场景时,可以充分利用现有的标注语料分别训练模型,当所获取的识别结果产生冲突时,利用上述的多种方式来确定标签信息,从而提高实体识别的准确率和召回率,有利于市场的推广与应用。
图12为本发明实施例提供的一种标签的识别装置的结构示意图;参考附图12所示,本实施例提供了一种标签的识别装置,该识别装置可以执行上述的文本识别方法,具体的,该识别装置可以包括:
获取模块11,用于获取待识别文本;
识别模块12,用于利用第一模型和第二模型对待识别文本进行识别,获得第一识别结果和第二识别结果,其中,第一模型和第二模型属于两个不同的领域;
确定模块13,用于根据第一识别结果和第二识别结果确定待识别文本的标签信息。
其中,第一识别结果和第二识别结果采用“BIO”方式进行表达,其中,“B”方式和“I”方式为保留标签信息,“O”方式为排除标签信息。
可选地,在确定模块13根据第一识别结果和第二识别结果确定待识别文本的标签信息时,该确定模块13用于执行:判断第一识别结果与第二识别结果是否相同;若相同,则将第一识别结果或第二识别结果确定为标签信息;或者,若冲突,则根据第一识别结果和第二识别结果确定标签信息。
可选地,在确定模块13根据第一识别结果和第二识别结果确定标签信息时,该确定模块13用于执行:获取第一识别结果中针对待识别文本中单个字符的第一标注信息;获取第二识别结果中针对待识别文本中相同字符的第二标注信息;根据第一标注信息和第二标注信息确定标签信息。
其中,在确定模块13根据第一标注信息和第二标注信息确定标签信息时,一种可实现的方式为,该确定模块13用于执行:若第一标注信息为排除标签信息,且第二标注信息为保留标签信息,则利用第二标注信息替换第一标注信息;将替换后的第一识别结果确定为标签信息。
在确定模块13根据第一标注信息和第二标注信息确定标签信息时,另一种可实现的方式为,该确定模块13用于执行:若第一标注信息为保留标签信息,且第二标注信息为排除标签信息,则利用第一标注信息替换第二标注信息;将替换后的第二识别结果确定为标签信息。
在确定模块13根据第一标注信息和第二标注信息确定标签信息时,又一种可实现的方式为,该确定模块13用于执行:若第一标注信息和第二标注信息均为保留标签信息,且第二标注信息与第一标注信息不同,则获取与第一语料信息相对应的第一词性序列概率和与第二语料信息相对应的第二词性序列概率;获取利用第一模型对待识别文本进行识别的第一预测实体概率以及利用第二模型对待识别文本进行识别的第二预测实体概率;根据第一词性序列概率、第二词性序列概率、第一预测实体概率和第二预测实体概率确定标签信息。
其中,在确定模块13根据第一词性序列概率、第二词性序列概率、第一预测实体概率和第二预测实体概率确定标签信息时,该确定模块13可以用于执行:将第一词性序列概率与第一预测实体概率做乘法运算,获得第一乘积结果;将第二词性序列概率与第二预测实体概率做乘法运算,获得第二乘积结果;根据第一乘积结果和第二乘积结果确定标签信息。
具体的,在确定模块13根据第一乘积结果和第二乘积结果确定标签信息时,该确定模块13可以用于执行:若第一乘积结果大于第二乘积结果,则将第一乘积结果所对应的第一识别结果确定为标签信息;或者,若第一乘积结果小于第二乘积结果,则将第二乘积结果所对应的第二识别结果确定为标签信息;或者,若第一乘积结果等于第二乘积结果,则将第一识别结果或第二识别结果确定为标签信息。
另外,在确定模块13获取利用第一模型对待识别文本进行识别的第一预测实体概率时,该确定模块13可以用于执行:获取第一语料信息;利用第三模型对第一语料信息进行训练,获得第一模型以及第一预测实体概率。
此外,在确定模块13获取与第一语料信息相对应的第一词性序列概率时,该确定模块13可以用于执行:对第一语料信息进行分词处理;将分词处理的实体词进行合并;对合并后的分词文本进行词性标注,获得词性序列;按照第一频率对词性序列进行归一化处理,获得第一词性序列概率。
可选地,在确定模块13获取利用所述第二模型对所述待识别文本进行识别的第二预测实体概率时,该确定模块13可以用于执行:获取第二语料信息;利用第三模型对第二语料信息进行训练,获得第二模型以及第二预测实体概率。
可选地,在确定模块13获取与第二语料信息相对应的第二词性序列概率时,该确定模块13可以用于执行:对第二语料信息进行分词处理;将分词处理的实体词进行合并;对合并后的分词文本进行词性标注,获得词性序列;按照第二频率对词性序列进行归一化处理,获得第二词性序列概率。
图12所示装置可以执行图1a、图1b-图11所示实施例的方法,本实施例未详细描述的部分,可参考对图1a、图1b-图11所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1a、图1b-图11所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图12所示标签的识别装置的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器等各种设备。如图13所示,该电子设备可以包括:处理器21和存储器22。其中,存储器22用于存储支持电子设备执行上述图1a、图1b-图11所示实施例中提供的文本识别方法的程序,处理器21被配置为用于执行存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被处理器21执行时能够实现如下步骤:
获取待识别文本;
利用第一模型和第二模型对待识别文本进行识别,获得第一识别结果和第二识别结果,其中,所述第一模型和所述第二模型是由不同领域的语料训练得到的;
至少根据第一识别结果和第二识别结果确定待识别文本的标签信息。
可选地,处理器21还用于执行前述图1a、图1b-图11所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1a、图1b-图11所示方法实施例中文本识别方法所涉及的程序。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (14)

1.一种文本识别方法,包括:
获取待识别文本;
利用第一模型和第二模型对所述待识别文本进行识别,获得第一识别结果和第二识别结果,其中,所述第一模型和所述第二模型是由不同领域的语料训练得到的;
至少根据所述第一识别结果和所述第二识别结果确定所述待识别文本的标签信息。
2.根据权利要求1所述的方法,确定所述待识别文本的标签信息,包括:
将所述第一识别结果中的标注信息与所述第二识别结果中的标注信息进行一一对比,判断是否冲突;
若冲突,则根据所述第一识别结果和所述第二识别结果确定所述标签信息。
3.根据权利要求2所述的方法,确定所述标签信息,包括:
获取所述第一识别结果中针对所述待识别文本中的至少一个字符或字符串的第一标注信息;
获取所述第二识别结果中针对所述待识别文本中相同字符或字符串的第二标注信息;
根据所述第一标注信息和所述第二标注信息确定所述标签信息。
4.根据权利要求3所述的方法,确定所述标签信息,包括:
若所述第一标注信息为排除标签信息,且所述第二标注信息为保留标签信息,则利用所述第二标注信息替换所述第一标注信息;
将替换后的所述第一识别结果确定为所述标签信息。
5.根据权利要求3所述的方法,确定所述标签信息,包括:
若所述第一标注信息为保留标签信息,且所述第二标注信息为排除标签信息,则利用所述第一标注信息替换所述第二标注信息;
将替换后的所述第二识别结果确定为所述标签信息。
6.根据权利要求3所述的方法,确定所述标签信息,还包括:
若所述第一标注信息和所述第二标注信息为不同的保留标签信息,则获取与第一语料信息相对应的第一词性序列概率和与第二语料信息相对应的第二词性序列概率,其中,所述第一语料信息与所述第二语料信息属于不同的领域,所述第一语料信息用于训练得到所述第一模型,所述第二语料信息用于训练得到所述第二模型;
获取利用所述第一模型对所述待识别文本进行识别的第一预测实体概率以及利用所述第二模型对所述待识别文本进行识别的第二预测实体概率;
根据所述第一词性序列概率、第二词性序列概率、第一预测实体概率和第二预测实体概率确定所述标签信息。
7.根据权利要求6所述的方法,确定所述标签信息,包括:
将所述第一词性序列概率与所述第一预测实体概率做乘法运算,获得第一乘积结果;
将所述第二词性序列概率与所述第二预测实体概率做乘法运算,获得第二乘积结果;
根据所述第一乘积结果和所述第二乘积结果确定所述标签信息。
8.根据权利要求7所述的方法,确定所述标签信息,包括:
若所述第一乘积结果大于所述第二乘积结果,则将所述第一乘积结果所对应的第一识别结果确定为所述标签信息;或者,
若所述第一乘积结果小于所述第二乘积结果,则将所述第二乘积结果所对应的第二识别结果确定为所述标签信息;或者,
若所述第一乘积结果等于所述第二乘积结果,则将所述第一识别结果或所述第二识别结果确定为所述标签信息。
9.根据权利要求6所述的方法,获取利用所述第一模型对所述待识别文本进行识别的第一预测实体概率,包括:
获取第一语料信息;
利用第三模型对所述第一语料信息进行训练,获得所述第一模型以及所述第一预测实体概率。
10.根据权利要求9所述的方法,获取与第一语料信息相对应的第一词性序列概率,包括:
对所述第一语料信息进行分词处理;
将分词处理的实体词进行合并;
对合并后的分词文本进行词性标注,获得词性序列;
按照第一频率对所述词性序列进行归一化处理,获得所述第一词性序列概率。
11.根据权利要求6所述的方法,获取利用所述第二模型对所述待识别文本进行识别的第二预测实体概率,包括:
获取第二语料信息;
利用第三模型对所述第二语料信息进行训练,获得所述第二模型以及所述第二预测实体概率。
12.根据权利要求11所述的方法,获取与所述第二语料信息相对应的第二词性序列概率,包括:
对所述第二语料信息进行分词处理;
将分词处理的实体词进行合并;
对合并后的分词文本进行词性标注,获得词性序列;
按照第二频率对所述词性序列进行归一化处理,获得所述第二词性序列概率。
13.根据权利要求1-10中任意一项所述的方法,所述第一识别结果和所述第二识别结果采用“BIO”标注方式,其中,“B”为开头标签,“I”为中间标签,“O”为排除标签信息,所述开头标签和所述中间标签均属于保留标签信息。
14.一种标签的识别装置,包括:
获取模块,用于获取待识别文本;
识别模块,用于利用第一模型和第二模型对所述待识别文本进行识别,获得第一识别结果和第二识别结果,其中,所述第一模型和所述第二模型是由不同领域的语料训练得到的;
确定模块,用于至少根据所述第一识别结果和所述第二识别结果确定所述待识别文本的标签信息。
CN201910019661.1A 2019-01-09 2019-01-09 文本识别方法、装置及设备 Active CN111488737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910019661.1A CN111488737B (zh) 2019-01-09 2019-01-09 文本识别方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910019661.1A CN111488737B (zh) 2019-01-09 2019-01-09 文本识别方法、装置及设备

Publications (2)

Publication Number Publication Date
CN111488737A true CN111488737A (zh) 2020-08-04
CN111488737B CN111488737B (zh) 2023-04-14

Family

ID=71793942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910019661.1A Active CN111488737B (zh) 2019-01-09 2019-01-09 文本识别方法、装置及设备

Country Status (1)

Country Link
CN (1) CN111488737B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580495A (zh) * 2020-12-16 2021-03-30 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19961476A1 (de) * 1999-12-20 2001-07-05 Andreas Kosmala Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis
CN102681981A (zh) * 2011-03-11 2012-09-19 富士通株式会社 自然语言词法分析方法、装置及分析器训练方法
US20150186738A1 (en) * 2013-12-30 2015-07-02 Google Inc. Text Recognition Based on Recognition Units
CN106503192A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN107038178A (zh) * 2016-08-03 2017-08-11 平安科技(深圳)有限公司 舆情分析方法和装置
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN108959262A (zh) * 2018-07-09 2018-12-07 北京神州泰岳软件股份有限公司 一种命名实体识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19961476A1 (de) * 1999-12-20 2001-07-05 Andreas Kosmala Datenverarbeitungsverfahren und Datenverarbeitungsvorrichtung zum Erkennen einer zu erkennenden Zeichenfolge, sowie computerlesbares Speichermedium und Computerprogramm-Erzeugnis
CN102681981A (zh) * 2011-03-11 2012-09-19 富士通株式会社 自然语言词法分析方法、装置及分析器训练方法
US20150186738A1 (en) * 2013-12-30 2015-07-02 Google Inc. Text Recognition Based on Recognition Units
CN107038178A (zh) * 2016-08-03 2017-08-11 平安科技(深圳)有限公司 舆情分析方法和装置
CN106503192A (zh) * 2016-10-31 2017-03-15 北京百度网讯科技有限公司 基于人工智能的命名实体识别方法及装置
CN107330011A (zh) * 2017-06-14 2017-11-07 北京神州泰岳软件股份有限公司 多策略融合的命名实体的识别方法及装置
CN108959262A (zh) * 2018-07-09 2018-12-07 北京神州泰岳软件股份有限公司 一种命名实体识别方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
XIANG BAI ETAL.: "Strokelets: A Learned Multi-Scale Mid-Level Representation for Scene Text Recognition" *
张晓艳;王挺;陈火旺;: "基于混合统计模型的汉语命名实体识别方法" *
胡俊锋;陈浩;陈蓉;谭斌;于中华;: "基于感知器的生物医学命名实体边界识别算法" *
赵红改等: "搜索引擎日志中" N+V "和" N 1 +N 2 +V "型短语自动识别" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580495A (zh) * 2020-12-16 2021-03-30 上海眼控科技股份有限公司 文本识别方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111488737B (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
CN107908635B (zh) 建立文本分类模型以及文本分类的方法、装置
CN112199506B (zh) 一种应用程序的信息检测方法、装置及设备
CN109460455B (zh) 一种文本检测方法及装置
CN110020009B (zh) 在线问答方法、装置及系统
US20170228365A1 (en) Systems and methods for language feature generation over multi-layered word representation
CN111737499B (zh) 基于自然语言处理的数据搜索方法及相关设备
CN109271489B (zh) 一种文本检测方法及装置
CN111291566B (zh) 一种事件主体识别方法、装置、存储介质
CN107729549B (zh) 一种包含要素提取的机器人客服方法及系统
CN112364664B (zh) 意图识别模型的训练及意图识别方法、装置、存储介质
CN111242710A (zh) 业务的分类处理方法、装置、服务平台及存储介质
CN111369294A (zh) 软件造价估算方法及装置
CN111159354A (zh) 一种敏感资讯检测方法、装置、设备及系统
CN111488737B (zh) 文本识别方法、装置及设备
CN113535817A (zh) 特征宽表生成及业务处理模型的训练方法和装置
CN109992651B (zh) 一种问题目标特征自动识别和抽取方法
CN109558580B (zh) 一种文本分析方法及装置
CN112818687B (zh) 一种用于构建标题识别模型的方法、装置、电子设备以及存储介质
CN111475641B (zh) 一种数据抽取方法、装置、存储介质及设备
CN114298048A (zh) 命名实体识别方法及装置
CN112364640A (zh) 实体名词链接方法、装置、计算机设备和存储介质
CN114118072A (zh) 文档结构化方法、装置、电子设备和计算机可读存储介质
CN111753548A (zh) 信息获取方法及装置、计算机存储介质、电子设备
CN116308635B (zh) 塑化产业报价结构化方法、装置、设备及存储介质
CN111353308A (zh) 命名实体识别方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant