CN113111644A - 文本识别方法、装置及计算机存储介质 - Google Patents

文本识别方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN113111644A
CN113111644A CN202110437696.4A CN202110437696A CN113111644A CN 113111644 A CN113111644 A CN 113111644A CN 202110437696 A CN202110437696 A CN 202110437696A CN 113111644 A CN113111644 A CN 113111644A
Authority
CN
China
Prior art keywords
feature
target text
feature vector
text
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110437696.4A
Other languages
English (en)
Inventor
赵亮
杨杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yuncong Enterprise Development Co ltd
Original Assignee
Shanghai Yuncong Enterprise Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yuncong Enterprise Development Co ltd filed Critical Shanghai Yuncong Enterprise Development Co ltd
Priority to CN202110437696.4A priority Critical patent/CN113111644A/zh
Publication of CN113111644A publication Critical patent/CN113111644A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提供一种文本识别方法、装置及计算机存储介质,主要包括根据目标文本和关系特征,获得关系特征的第一特征向量;根据目标文本,获得目标文本的第二特征向量;根据第一特征向量、第二特征向量,从目标文本中获取对应于关系特征的主实体和客实体;以及根据关系特征、对应于关系特征的主实体和客实体,获得目标文本的识别结果,借此,本申请可以有效提高文本识别结果的准确率。

Description

文本识别方法、装置及计算机存储介质
技术领域
本申请实施例涉及文本识别技术领域,特别涉及一种文本识别方法、装置及计算机存储介质。
背景技术
关系三元组的抽取处理过程主要包括,输入一段文本,通过规则或者模型的方法抽取句子中包含的实体以及关系,以此来构成一个关系三元组(s,p,o),其中s(subject)表示主实体,o(object)表示客实体,p(predicate)表示两实体间的关系特征。
比如,针对“姚明,1980年9月12日出生于上海市徐汇区”的文本,其中可包含有关系三元组(姚明,出生地,上海市徐汇区)。提取文本中的三元组是建立知识图谱重要的一个步骤,在大数据时代的今天,从大量非结构化的数据当中自动提取关系三元组建立结构化数据的知识图谱是非常有价值的,可以应用于信息抽取、搜索、问答系统和推荐系统等多个领域。
目前主流的关系三元组提取处理方法大都是通过模型的方式进行抽取,比较有代表性的两个方向是管道方式(pipeline)和联合方式(end-to-end)。
其中,管道方式主要是先进行文本的实体抽取,是一个序列化标注问题,然后将抽取的实体进行两两组合以构建关系矩阵或者进行关系识别,然而,这种方式在第二阶段会产生大量无意义的实体对,由于误差的累计,导致了关系三元组整体抽取的准确率有限。
再者,联合方式则是通常将实体抽取和关系识别放在同一个任务当中,其中共享embedding主干网络,然而,这种方式由于将两个任务结合在一起,导致模型的训练难度较大,同时对于一个包含多个相同关系的文本,三元组抽取准确率往往不及管道方式。
发明内容
鉴于上述问题,本申请提供一种本文识别方法、装置及计算机存储介质,可提高文本识别结果的准确率,并提高文本识别的处理效率。
本申请第一方面提供一种文本识别方法,其包括:根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量;根据所述目标文本,获得所述目标文本的第二特征向量;根据所述第一特征向量、所述第二特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体;以及根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,获得所述目标文本的识别结果。
本申请第二方面提供一种计算机存储介质,所述计算机存储介质中储存有用于执行上述第一方面所述的文本识别方法的各所述步骤的指令。
本申请第三方面提供一种文本识别装置,其包括:特征获取模块,用于根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量,并根据所述目标文本,获得所述目标文本的第二特征向量;以及文本识别模块,用于根据所述第一特征向量、所述第二特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体,并根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,获得所述目标文本的识别结果。
综上所述,本申请实施例提出了一种从关系识别到实体抽取的关系三元组管道抽取方法,不仅可识别出目标文本中所包含的多种关系,且通过将关系特征对应的编码特征向量与目标文本对应的编码特征进行融合,可以提高关系对应实体的抽取准确率。
再者,本申请实施例提供的文本识别技术不仅可减少现有管道抽取方式中需处理大量无意义实体对的问题,以适用于当目标文本中包含有多个关系特征的情况下的关系三元组的抽取处理,可以提高文本识别处理效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本申请第一实施例的文本识别方法的流程示意图。
图2为图1所示的文本识别方法的处理流程实施例图。
图3为本申请第二实施例的文本识别方法的流程示意图。
图4为本申请第三实施例的文本识别方法的流程示意图。
图5为本申请第四实施例的文本识别方法的流程示意图。
图6为本申请第六实施例的文本识别装置的架构示意图。
元件标号
600:文本识别装置;602:特征获取模块;604:文本识别模块。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
呈上所述,目前的关系三元组抽取方式主要存在识别准确性不高且处理效率低下的问题,有鉴于此,本申请提供一种文本识别方法、装置及计算机存储介质,可以改善上述现有技术存在的种种技术问题,以下将结合各附图详细描述本申请的各实施例。
第一实施例
图1示出了本申请第一实施例的文本识别方法的流程示意图。如图所示,本实施例的文本识别方法主要包括以下步骤:
步骤S102,根据目标文本和至少一个关系特征,获得关系特征的第一特征向量。
可选地,本实施例的方法还可包括根据预设文本长度将目标语料切分为满足预设文本长度的至少一个目标文本。
例如,可根据语言识别模型所支持的预设文本长度,将一个长文本在保证句子完整的条件下进行拆分,获得满足预设文本长度的一个或多个目标文本。
可选地,本实施例的方法还可包括基于预设文本处理规则,针对目标语料执行预处理。
于本实施例中,预设文本处理规则至少包括针对目标文本执行数据去噪处理,例如,去除或替换目标文本中的未知编码字符。
请配合参考图2,于本实施例中,可通过语言识别模型(例如BERT模型)针对拆分后的各目标文本进行文本的嵌入,以获得目标文本的编码特征向量(嵌入特征)。
具体地,若将目标文本表示为s0={a0,a1,...,an},其中a表示目标文本中的各字符,借由语言识别模型(例如BERT模型),可以得到目标文本中每个字符对应的tokeni,并根据各字符对应的各编码特征(嵌入特征),获得目标文本的编码特征向量:{token1,token2,...,tokenn},其中tokeni表示维度为d的特征向量,如此,目标文本s0就可以用n*d的特征矩阵予以表示。
而后,再将目标文本的编码特征向量输入到Dense+Sigmoid模块中,得到语义信息更强的特征表示,借以识别目标文本中可能包含的多种关系特征,进而获得关系特征的第一特征向量。
于本实施例中,针对一个目标文本,可以指定至少一个关系特征。
例如,针对“姚明,1980年9月12日出生于上海市徐汇区”的目标文本,其关系特征可包括“出生日期”、“出生地”等。
步骤S104,根据目标文本,获得目标文本的第二特征向量。
可选地,可针对目标文本执行编码,获得目标文本中各字符对应的各编码特征,再根据各字符对应的各编码特征,获得目标文本的第二特征向量。
请参考图2,于本实施例中,可利用BERT模型获得目标文本的第二特征向量
于本实施例中,目标文本的第二特征向量的获取原理与上述目标文本的编码特征向量的获取原理的基本相同,故不再不予赘述。
于本实施例中,步骤S102和步骤S104的执行顺序不分先后,可根据实际需求进行任意调整(例如同时执行或先后执行),本申请对此不作限制。
步骤S106,根据第一特征向量、第二特征向量,从目标文本中获取对应于关系特征的主实体和客实体。
于本实施例中,可通过融合第一特征向量、第二特征向量,并根据融合结果从目标文本中获取对应于各关系特征的各主实体和各客实体。
例如,针对“姚明,1980年9月12日出生于上海市徐汇区”的目标文本,关于“出生日期”的关系特征,其对应的主实体可为“姚明”,客实体可为“1980年9月12日”,关于“出生地”的关系特征,其对应的主实体可为“姚明”,客实体可为“上海市徐汇区”。
步骤S108,根据关系特征、对应于关系特征的主实体和客实体,获得目标文本的识别结果。
可选地,可根据关系特征、对应于关系特征的主实体和客实体,生成包含关系特征、主实体、客实体的关系三元组。
于本实施例中,关系三元组可表示为(P,S,O),其中,s(subject)表示主实体,o(object)表示客实体,p(predicate)表示关系特征(参考图2)。
例如,针对“姚明,1980年9月12日出生于上海市徐汇区”的目标文本,关于“出生日期”的关系特征,可获取(“姚明”“出生日期”“1980年9月12日”)的关系三元组。
综上所述,本申请实施例根据目标文本和至少一个关系特征,获得关系特征的第一特征向量以及目标文本的第二特征向量,再通过融合第一特征向量和第二特征向量,以从目标文本中获取对应于关系特征的主实体和客实体,并基于关系特征及其对应的主实体、客实体,获得目标文本的各关系特征的识别结果。借此,本申请可识别出目标文本中包含的多种关系特征,并可提高目标文本的识别结果的准确性。
第二实施例
图3示出了本申请第二实施例的文本识别方法的流程示意图。如图所示,本实施例的文本识别方法为上述步骤S102的具体实施方案,其主要包括以下处理步骤:
步骤S302,根据目标文本,获得目标文本的编码特征向量。
可选地,可针对目标文本执行编码,获得目标文本中各字符对应的各编码特征,再根据各字符对应的各编码特征,获得目标文本的编码特征向量。
可选地,可利用BERT模型针对目标文本执行编码,获得目标文本中各字符对应的各编码特征。
于本实施例中,各字符对应的各编码特征为具有预设维度的各特征子向量。
于本实施例中,编码特征的预设维度可为128的任意指数的幂值,即128的一次方、二次方、三次方等等。
较佳地,所述预设维度可介于128至1024之间
可选地,可根据各编码特征的预设维度和目标文本包含的字符数,获得目标文本的特征矩阵。
例如,假设编码特征的预设维度为d,目标文本包含的字符数为n,则可使用n*d的特征矩阵来表示目标文本。
步骤S304,根据编码特征向量、关系特征,获得目标文本包含或不包含关系特征的关系识别结果。
可选地,可根据关系特征、目标文本的特征矩阵(即n*d),获得目标文本的第一参数矩阵,再根据第一概率换算规则、第一参数矩阵、编码特征向量,获得目标文本包含或不包含关系特征的关系识别结果(P)。
可选地,可利用Sigmoid函数得到上述关系识别结果,亦即,目标文本可能包含的各种关系特征的概率。
于本实施例中,第一概率换算规则可表示为:
P=sigmoid(Wt×Token+bt)
其中,P表示目标文本包含或不包含关系特征的关系识别结果,Wt表示第一参数矩阵,Token表示目标文本的编码特征向量,bt为偏置项,下标t为识别标识符。
于本实施例中,各参数的下标t用于标识token。
可选地,可根据关系识别结果(P)与第一预设概率阈值,若关系识别结果(P)大于第一预设概率阈值,表示目标文本包含关系特征,反之,若关系识别结果(P)不大于第一预设概率阈值,则表示目标文本不包含关系特征。
于本实施例中,第一预设概率阈值可介于0.5至0.8之间。
优选地,可将第一预设概率阈值设置为0.6。
请参考图2,于本实施例中,针对输入的目标文本设置有n个关系特征,其中,关系特征1和关系特征i的关系识别结果(P)分别为0.98和0.91,均超过了第一预设概率阈值,则可得出当前识别的目标文本中包含有关系特征1和关系特征i。
步骤S306,根据关系识别结果,针对目标文本包含的关系特征执行编码,获得关系特征的第一特征向量。
于本实施例中,可根据关系识别结果,提取目标文本包含的关系特征,例如,图3中的关系特征1和关系特征i,再针对提取的各关系特征进行重新编码,以获得各关系特征对应的各第一特征向量(cj)。
可选地,可整合各关系特征对应的各第一特征向量(cj),以建立如图2所示的关系嵌入表。
第三实施例
图4示出了本申请第三实施例的文本识别方法的流程示意图,本实施例的文本识别方法主要示出了上述步骤S306的具体实施方案,其主要包括以下处理步骤:
步骤S402,根据关系识别结果,提取目标文本包含的关系特征。
例如,于图2所示实施例中,可以看出当前待识别的目标文本包含有关系特征1和关系特征i,则提取这两个关系特征。
步骤S404,针对提取的关系特征执行编码,获得关系特征中各关系字符对应的各字符向量。
可选地,可使用任意一种word2vec文本嵌入方式获得各关系特征对应的嵌入(embedding),并将其表示为Tj=[t1,t2,...,tn],其中,Tj表示第j个关系特征,t1表示关系特征中第一个关系字符对应的字符向量,并以此类推。
步骤S406,根据预设均值换算规则针对各字符向量执行均值计算,获得关系特征的第一特征向量。
于本实施例中,预设均值换算规则可表示为:
Figure BDA0003033715630000081
其中,cj表示第j个关系特征的第一特征向量,n表示关系特征中包含的关系字符的数量,ti表示关系特征中第i个关系字符的字符向量。
第四实施例
图5示出了本申请第四实施例的文本识别方法的流程示意图。本实施例的文本识别方法主要示出了上述步骤S106的具体实施方案,如图所示,本实施例的文本识别方法主要包括以下步骤:
步骤S502,根据第一特征向量,获得关系特征的待融合特征向量。
可选地,可根据目标文本、关系特征,获得目标文本的第二参数矩阵,再根据预设向量转换规则、第一特征向量、第二参数矩阵,获得关系特征的待融合特征向量。
于本实施例中,预设向量转换规则表示为:
ej=wc×cj+bc
其中,ej表示第j个关系特征的待融合特征向量,wc表示第二参数矩阵,cj表示第j个关系特征的第一特征向量,bc为偏置项,下标c为识别标识符(即第一特征向量)。
于本实施例中,第二参数矩阵(wc)的形成原理与上述第一参数矩阵(Wt)的形成原理基本相同(参考步骤S302和步骤S304),不同之处在于两个参数矩阵中的具体特征值可能存在差异,故不再予以赘述。
可选地,可利用前馈神经网络FF模块,以根据关系特征的第一特征向量(cj),获得关系特征的待融合特征向量(ej)。
步骤S504,融合待融合特征向量和第二特征向量,获得融合特征向量。
可选地,可针对待融合特征向量和第二特征向量执行concate融合处理,以获得融合特征向量。
具体地,可将步骤S502所获得的关系特征的待融合特征向量(ej)与目标文本的第二特征向量中的每一个编码特征(token)进行concate操作,获得融合特征向量(Token′)。
步骤S506,根据融合特征向量,获得目标文本中的各字符为实体字符或非实体字符的各字符识别结果。
请配合参考图2,于本实施例中,可将步骤S504所获得的融合特征向量(Token′)输入Dense+Softmax模块中,以针对每个编码特征(token编码)进行判断并实现实体抽取。
于本实施例中,可利用Softmax函数得到目标文本中的每个字符是否是实体部分的字符识别结果(P′)。
可选地,可首先根据目标文本、关系特征,获得目标文本的第三参数矩阵,再根据第二概率换算规则、融合特征向量、第三参数矩阵,获得目标文本中的各字符对应的各字符识别结果(P′)。
于本实施例中,第二概率换算规则表示为:
P′=softmax(Wt′×Token′+b′t)
其中,P′表示目标文本中的各字符对应的各字符识别结果,Wt′表示第三参数矩阵,Token′表示融合特征向量,b′t为偏置项,下标t为识别标识符。
于本实施例中,第三参数矩阵(Wt′)的形成原理与上述第一参数矩阵(Wt)的形成原理基本相同(参考步骤S302和步骤S304),不同之处在于两个参数矩阵中的具体特征值可存在差异,故不再予以赘述。
于本实施例中,可根据字符识别结果(P′)与第二预设概率阈值,若字符识别结果(P′)大于第二预设概率阈值,表示字符为实体字符,反之,若字符识别结果(P′)不大于第二预设概率阈值,表示字符为非实体字符。
于本实施例中,第二预设概率阈值可介于0.5至0.8之间。
步骤S508,根据各字符的各字符识别结果,第一特征向量,从目标文本中获取对应于关系特征的主实体和客实体。
可选地,可根据各字符的各字符识别结果(P′),从目标文本中提取各实体字符,并根据第一特征向量对应的关系特征,从各实体字符中获取对应于关系特征的至少一个主实体(S)和至少一个客实体(O)。
具体地,可根据字符识别结果(P′),从目标文本中提取属于实体的各个字符(参考图2中的S-B,S-I,O-B,O-I),并去除属于非实体的各个字符,亦即,无效字符(参考图2中以空心圈方式所标识的字符识别结果)。
于本实施例中,可根据第一特征向量(即图2中的cj)对应的关系特征,从各实体字符中获取对应于关系特征的至少一个主实体和至少一个客实体。
再者,于图2所示的实施例中,S-B代表主实体的起始字符,S-I代表主实体的中间字符,O-B代表客实体的起始字符,O-I代表客实体的中间字符,其中,主实体/客实体的起始字符为一个,而主实体/客实体的中间字符可为零个、一个或多个,视依主实体/客实体所包含的字符数量而定,例如,假设主实体为“姚明”,则其对应的主实体起始字符(S-B)为“姚”以及其对应的主实体中间字符为“明”。再如,假设客实体为“上海市徐汇区”,则其对应的客实体起始字符(O-B)为“上”,而“海”、“市”、“徐”、“汇”、“区”则均为客实体中间字符(O-I)。
以下将以列举方式详细说明本申请“关系三元组”的抽取原理:
例如,假设目标文本为“姚明,1980年9月12日出生于上海市徐汇区”,其所包含的关系特征包括有“出生日期”和“出生地”。
其中,针对关系特征(P)“出生日期”,所提取的主实体(S)为“姚明”,客实体(O)为“1980年9月12日”,据此,可以获得(“姚明”“出生日期”“1980年9月12日”)的关系三元组。
再者,针对关系特征(P)“出生地”,所提取的主实体(S)为“姚明”,客实体(O)为“上海市徐汇区”,据此,可以获得(“姚明”“出生地”“上海市徐汇区”)的关系三元组。
又如,假设目标文本为“战狼的主演包括吴京、卢靖姗、吴刚等”,其所包含的关系特征包括有“主演”,则针对关系特征(P)“主演”,所提取的主实体(S)可包括“战狼”,而客实体(O)则包括有三个,即“吴京”、“卢靖姗”、“吴刚”,则针对关系特征“主演”,可以获得三个关系三元组,亦即(“战狼”“主演”“吴京”)、(“战狼”“主演”“卢靖姗”)、(“战狼”“主演”“吴刚”)。
综上所述,本申请第二实施例至第四实施例所提供文本识别方法,通过引入Sigmoid函数,可以识别目标文本中包含的多种关系特征。此外,通过将目标文本中所包含的关系特征进行编码,并与目标文本中各字符编码进行融合,可将关系类型嵌入到实体抽取模型,从而提高关系特征对应实体(主实体和客实体)的抽取准确率,从而提高文本识别结果的准确性。
再者,本申请所提供基于管道抽取方式所实现的文本识别技术,可以有效减少现有管道抽取方式中需处理大量无意义的实体对的问题,且针对目标文本中存在有多个相同关系的情况,亦可生成与之数量相对应的多组三元关系组,从而进一步提高文本识别结果的准确性。
第五实施例
本申请第五实施例提供一种计算机存储介质,所述计算机存储介质中存储有用于执行上述第一实施例至第四实施例中任意实施例所述的文本识别方法的各所述步骤的指令。
第六实施例
图6示出了本申请第六实施例的本文识别装置的架构示意图。如图所示,本实施例的文本识别装置600主要包括:特征获取模块602和文本识别模块604。
特征获取模块602用于根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量,并根据所述目标文本,获得所述目标文本的第二特征向量。
可选地,特征获取模块602还用于根据预设文本长度将目标语料切分为满足所述预设文本长度的至少一个所述目标文本。
可选地,特征获取模块602还用于基于预设文本处理规则,针对所述目标语料执行预处理;其中,所述预设文本处理规则至少包括数据去噪处理。
可选地,特征获取模块602还用于根据所述目标文本,获得所述目标文本的编码特征向量;根据所述编码特征向量、所述关系特征,获得所述目标文本包含或不包含所述关系特征的关系识别结果;根据所述关系识别结果,针对所述目标文本包含的所述关系特征执行编码,获得所述关系特征的第一特征向量。
可选地,特征获取模块602还用于针对所述目标文本执行编码,获得所述目标文本中各字符对应的各编码特征;以及根据各所述字符对应的各所述编码特征,获得所述目标文本的所述编码特征向量。
可选地,特征获取模块602还用于利用BERT模型针对所述目标文本执行编码,获得所述目标文本中各字符对应的各编码特征。
可选地,特征获取模块602还用于根据各所述编码特征的所述预设维度和所述目标文本包含的字符数,获得所述目标文本的特征矩阵;其中,所述预设维度为128的任意指数的幂值,较佳地,所述预设维度介于128至1024之间。
可选地,特征获取模块602还用于根据所述关系特征、所述目标文本的所述特征矩阵,获得所述目标文本的第一参数矩阵;根据第一概率换算规则、所述第一参数矩阵、所述编码特征向量,获得所述目标文本包含或不包含所述关系特征的所述关系识别结果;所述第一概率换算规则表示为:
P=sigmoid(Wt×Token+bt)
其中,所述P表示所述关系识别结果,所述Wt表示所述第一参数矩阵,所述Token表示所述编码特征向量,所述bt为偏置项,所述下标t为识别标识符。
可选地,特征获取模块602还用于根据所述关系识别结果与第一预设概率阈值,若所述关系识别结果大于所述第一预设概率阈值,表示所述目标文本包含所述关系特征;其中,所述第一预设概率阈值可介于0.5至0.8之间,优选地,所述第一预设概率阈值为0.6。
可选地,特征获取模块602还用于根据所述关系识别结果,提取所述目标文本包含的所述关系特征;针对提取的所述关系特征执行编码,获得所述关系特征中各关系字符对应的各字符向量;根据预设均值换算规则针对各所述字符向量执行均值计算,获得所述关系特征的所述第一特征向量;所述预设均值换算规则表示为:
Figure BDA0003033715630000141
其中,所述cj表示第j个所述关系特征的所述第一特征向量,所述n表示所述关系特征中包含的所述关系字符的数量,所述ti表示所述关系特征中第i个所述关系字符的所述字符向量。
可选地,特征获取模块602还用于针对所述目标文本执行编码,获得所述目标文本中各字符对应的各编码特征;以及根据各所述字符对应的各所述编码特征,获得所述目标文本的所述第二特征向量。
可选地,特征获取模块602还用于利用BERT模型针对所述目标文本执行编码,获得所述目标文本中各字符对应的各编码特征。
文本识别模块604用于根据所述第一特征向量、所述第二特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体,并根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,获得所述目标文本的识别结果。
可选地,文本识别模块604还用于根据所述第一特征向量,获得所述关系特征的待融合特征向量;融合所述待融合特征向量和所述第二特征向量,获得融合特征向量;根据所述融合特征向量,获得所述目标文本中的各字符为实体字符或非实体字符的各字符识别结果;以及根据各所述字符的各所述字符识别结果,所述第一特征向量,从所述目标文本中获取对应于所述关系特征的所述主实体和所述客实体。
可选地,文本识别模块604还用于根据所述目标文本、所述关系特征,获得所述目标文本的第二参数矩阵;根据预设向量转换规则、所述第一特征向量、所述第二参数矩阵,获得所述关系特征的所述待融合特征向量;所述预设向量转换规则表示为:
ej=wc×cj+bc
其中,所述ej表示第j个所述关系特征的所述待融合特征向量,所述wc表示所述第二参数矩阵,所述cj表示第j个所述关系特征的所述第一特征向量,所述bc为偏置项,所述下标c为识别标识符。
可选地,文本识别模块604还用于针对所述待融合特征向量和所述第二特征向量执行concate融合处理,获得所述融合特征向量。
可选地,文本识别模块604还用于根据所述目标文本、所述关系特征,获得所述目标文本的第三参数矩阵;根据第二概率换算规则、所述融合特征向量、所述第三参数矩阵,获得所述目标文本中的各所述字符对应的各所述字符识别结果;所述第二概率换算规则表示为:
P′=softmax(Wt′×Token′+b′t)
其中,所述P表示所述字符识别结果,所述W′t表示所述第三参数矩阵,所述Token′表示所述融合特征向量,所述b′t为偏置项,所述下标t为识别标识符。
可选地,文本识别模块604还用于根据所述字符识别结果与第二预设概率阈值,若所述字符识别结果大于所述第二预设概率阈值,表示所述字符为实体字符;其中,所述第二预设概率阈值可介于0.5至0.8之间。
可选地,文本识别模块604还用于根据各所述字符的各所述字符识别结果,从所述目标文本中提取各所述实体字符;以及根据所述第一特征向量对应的所述关系特征,从各所述实体字符中获取对应于所述关系特征的至少一个所述主实体和至少一个所述客实体。
可选地,文本识别模块604还用于根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,生成包含所述关系特征、所述主实体、所述客实体的关系三元组。
综上所述,本申请实施例提供的文本识别方法、装置及计算机存储介质,通过引入Sigmoid函数,可以识别目标文本中包含的多种关系特征。
再者,通过针对关系特征进行编码,并与目标文本中对应的每个字符的编码进行融合,以将关系特征嵌入到实体抽取模型中,可以提高关系特征对应实体的抽取准确性,从而提高文本识别结果的准确性。
此外,本申请可有效减少现有管道抽取方式中需处理大量无意义实体对的问题,以提高文本识别处理效率,亦可适用于在目标文本中存在多个相同关系的情况下的关系三元组的抽取处理。
最后应说明的是:以上实施例仅用以说明本申请实施例的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (21)

1.一种文本识别方法,其特征在于,包括:
根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量;
根据所述目标文本,获得所述目标文本的第二特征向量;
根据所述第一特征向量、所述第二特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体;以及
根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,获得所述目标文本的识别结果。
2.根据权利要求1所述的文本识别方法,其特征在于,所述方法还包括:
根据预设文本长度将目标语料切分为满足所述预设文本长度的至少一个所述目标文本。
3.根据权利要求2所述的文本识别方法,其特征在于,所述方法还包括:
基于预设文本处理规则,针对所述目标语料执行预处理;
其中,所述预设文本处理规则至少包括数据去噪处理。
4.根据权利要求1所述的文本识别方法,其特征在于,所述根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量包括:
根据所述目标文本,获得所述目标文本的编码特征向量;
根据所述编码特征向量、所述关系特征,获得所述目标文本包含或不包含所述关系特征的关系识别结果;
根据所述关系识别结果,针对所述目标文本包含的所述关系特征执行编码,获得所述关系特征的第一特征向量。
5.根据权利要求4所述的文本识别方法,其特征在于,所述根据所述目标文本,获得所述目标文本的编码特征向量包括:
针对所述目标文本执行编码,获得所述目标文本中各字符对应的各编码特征;以及
根据各所述字符对应的各所述编码特征,获得所述目标文本的所述编码特征向量。
6.根据权利要求5所述的文本识别方法,其特征在于,所述方法还包括:
利用BERT模型针对所述目标文本执行编码,获得所述目标文本中各字符对应的各编码特征。
7.根据权利要求5所述的文本识别方法,其特征在于,各所述编码特征为具有预设维度的各特征子向量,且所述方法还包括:
根据各所述编码特征的所述预设维度和所述目标文本包含的字符数,获得所述目标文本的特征矩阵;
其中,所述预设维度为128的任意指数的幂值,较佳地,所述预设维度介于128至1024之间。
8.根据权利要求7所述的文本识别方法,其特征在于,所述根据所述目标文本的所述编码特征向量、所述关系特征,获得所述目标文本包含或不包含所述关系特征的关系识别结果包括:
根据所述关系特征、所述目标文本的所述特征矩阵,获得所述目标文本的第一参数矩阵;
根据第一概率换算规则、所述第一参数矩阵、所述编码特征向量,获得所述目标文本包含或不包含所述关系特征的所述关系识别结果;
所述第一概率换算规则表示为:
P=sigmoid(Wt×Token+bt)
其中,所述P表示所述关系识别结果,所述Wt表示所述第一参数矩阵,所述Token表示所述编码特征向量,所述bt为偏置项,所述下标t为识别标识符。
9.根据权利要求8所述的文本识别方法,其特征在于,所述方法还包括:
根据所述关系识别结果与第一预设概率阈值,若所述关系识别结果大于所述第一预设概率阈值,表示所述目标文本包含所述关系特征;
其中,所述第一预设概率阈值可介于0.5至0.8之间,优选地,所述第一预设概率阈值为0.6。
10.根据权利要求8所述的文本识别方法,其特征在于,所述根据所述关系识别结果,针对所述目标文本包含的所述关系特征执行编码,获得所述目标文本对应于所述关系特征的第一特征向量包括:
根据所述关系识别结果,提取所述目标文本包含的所述关系特征;
针对提取的所述关系特征执行编码,获得所述关系特征中各关系字符对应的各字符向量;
根据预设均值换算规则针对各所述字符向量执行均值计算,获得所述关系特征的所述第一特征向量;
所述预设均值换算规则表示为:
Figure FDA0003033715620000031
其中,所述cj表示第j个所述关系特征的所述第一特征向量,所述n表示所述关系特征中包含的所述关系字符的数量,所述ti表示所述关系特征中第i个所述关系字符的所述字符向量。
11.根据权利要求1所述的文本识别方法,其特征在于,所述根据所述目标文本,获得所述目标文本的第二特征向量包括:
针对所述目标文本执行编码,获得所述目标文本中各字符对应的各编码特征;以及
根据各所述字符对应的各所述编码特征,获得所述目标文本的所述第二特征向量。
12.根据权利要求11所述的文本识别方法,其特征在于,所述方法还包括:
利用BERT模型针对所述目标文本执行编码,获得所述目标文本中各字符对应的各编码特征。
13.根据权利要求1所述的文本识别方法,其特征在于,所述根据所述目标文本的所述第一特征向量、所述第二特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体包括:
根据所述第一特征向量,获得所述关系特征的待融合特征向量;
融合所述待融合特征向量和所述第二特征向量,获得融合特征向量;
根据所述融合特征向量,获得所述目标文本中的各字符为实体字符或非实体字符的各字符识别结果;以及
根据各所述字符的各所述字符识别结果,所述第一特征向量,从所述目标文本中获取对应于所述关系特征的所述主实体和所述客实体。
14.根据权利要求13所述的文本识别方法,其特征在于,所述根据所述第一特征向量,获得所述关系特征的待融合特征向量包括:
根据所述目标文本、所述关系特征,获得所述目标文本的第二参数矩阵;
根据预设向量转换规则、所述第一特征向量、所述第二参数矩阵,获得所述关系特征的所述待融合特征向量;
所述预设向量转换规则表示为:
ej=wc×cj+bc
其中,所述ej表示第j个所述关系特征的所述待融合特征向量,所述wc表示所述第二参数矩阵,所述cj表示第j个所述关系特征的所述第一特征向量,所述bc为偏置项,所述下标c为识别标识符。
15.根据权利要求13所述的文本识别方法,其特征在于,所述融合所述待融合特征向量和所述第二特征向量,获得融合特征向量包括:
针对所述待融合特征向量和所述第二特征向量执行concate融合处理,获得所述融合特征向量。
16.根据权利要求13所述的文本识别方法,其特征在于,所述根据所述融合特征向量,获得所述目标文本中的各字符为实体或非实体的各字符识别结果包括:
根据所述目标文本、所述关系特征,获得所述目标文本的第三参数矩阵;
根据第二概率换算规则、所述融合特征向量、所述第三参数矩阵,获得所述目标文本中的各所述字符对应的各所述字符识别结果;
所述第二概率换算规则表示为:
P′=softmax(W′t×Token′+b′t)
其中,所述P表示所述字符识别结果,所述W′t表示所述第三参数矩阵,所述Token′表示所述融合特征向量,所述b′t为偏置项,所述下标t为识别标识符。
17.根据权利要求16所述的文本识别方法,其特征在于,所述方法还包括:
根据所述字符识别结果与第二预设概率阈值,若所述字符识别结果大于所述第二预设概率阈值,表示所述字符为实体字符;
其中,所述第二预设概率阈值可介于0.5至0.8之间。
18.根据权利要求13所述的文本识别方法,其特征在于,所述根据各所述字符的各所述字符识别结果,所述第一特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体包括:
根据各所述字符的各所述字符识别结果,从所述目标文本中提取各所述实体字符;以及
根据所述第一特征向量对应的所述关系特征,从各所述实体字符中获取对应于所述关系特征的至少一个所述主实体和至少一个所述客实体。
19.根据权利要求1所述的文本识别方法,其特征在于,所述根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,获得所述目标文本的识别结果包括:
根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,生成包含所述关系特征、所述主实体、所述客实体的关系三元组。
20.一种计算机存储介质,其特征在于,所述计算机存储介质中储存有用于执行根据权利要求1至19中任一项所述的文本识别方法的各所述步骤的指令。
21.一种文本识别装置,其特征在于,包括:
特征获取模块,用于根据目标文本和至少一个关系特征,获得所述关系特征的第一特征向量,并根据所述目标文本,获得所述目标文本的第二特征向量;以及
文本识别模块,用于根据所述第一特征向量、所述第二特征向量,从所述目标文本中获取对应于所述关系特征的主实体和客实体,并根据所述关系特征、对应于所述关系特征的所述主实体和所述客实体,获得所述目标文本的识别结果。
CN202110437696.4A 2021-04-22 2021-04-22 文本识别方法、装置及计算机存储介质 Pending CN113111644A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110437696.4A CN113111644A (zh) 2021-04-22 2021-04-22 文本识别方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110437696.4A CN113111644A (zh) 2021-04-22 2021-04-22 文本识别方法、装置及计算机存储介质

Publications (1)

Publication Number Publication Date
CN113111644A true CN113111644A (zh) 2021-07-13

Family

ID=76719821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110437696.4A Pending CN113111644A (zh) 2021-04-22 2021-04-22 文本识别方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN113111644A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180150753A1 (en) * 2016-11-30 2018-05-31 International Business Machines Corporation Analyzing text documents
US20180197088A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation Discovery, characterization, and analysis of interpersonal relationships extracted from unstructed text data
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN111259106A (zh) * 2019-12-31 2020-06-09 贵州大学 一种结合神经网络和特征演算的关系抽取方法
CN111400478A (zh) * 2020-03-27 2020-07-10 天津大学 一种基于词嵌入匹配技术的知识图谱问答方法及装置
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN112163165A (zh) * 2020-10-21 2021-01-01 腾讯科技(深圳)有限公司 信息推荐方法、装置、设备及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180150753A1 (en) * 2016-11-30 2018-05-31 International Business Machines Corporation Analyzing text documents
US20180197088A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation Discovery, characterization, and analysis of interpersonal relationships extracted from unstructed text data
CN109582949A (zh) * 2018-09-14 2019-04-05 阿里巴巴集团控股有限公司 事件元素抽取方法、装置、计算设备及存储介质
CN111259106A (zh) * 2019-12-31 2020-06-09 贵州大学 一种结合神经网络和特征演算的关系抽取方法
CN111400478A (zh) * 2020-03-27 2020-07-10 天津大学 一种基于词嵌入匹配技术的知识图谱问答方法及装置
CN111581376A (zh) * 2020-04-17 2020-08-25 中国船舶重工集团公司第七一四研究所 一种知识图谱自动构建系统及方法
CN111581396A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种基于多维特征融合与依存句法的事件图谱构建系统及方法
CN112163165A (zh) * 2020-10-21 2021-01-01 腾讯科技(深圳)有限公司 信息推荐方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN109492113B (zh) 一种面向软件缺陷知识的实体、关系联合抽取方法
CN111444340A (zh) 文本分类和推荐方法、装置、设备及存储介质
CN111222305A (zh) 一种信息结构化方法和装置
CN113011189A (zh) 开放式实体关系的抽取方法、装置、设备及存储介质
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
Xue et al. A better way to attend: Attention with trees for video question answering
CN109344242B (zh) 一种对话问答方法、装置、设备及存储介质
CN113628059B (zh) 一种基于多层图注意力网络的关联用户识别方法及装置
CN115982350A (zh) 基于多模态Transformer的虚假新闻检测方法
CN114925157A (zh) 一种基于预训练模型的核电站维修经验文本匹配方法
CN113536795A (zh) 实体关系抽取的方法、系统、电子装置和存储介质
CN110659392B (zh) 检索方法及装置、存储介质
CN111597816A (zh) 一种自注意力命名实体识别方法、装置、设备及存储介质
CN114490954A (zh) 一种基于任务调节的文档级生成式事件抽取方法
Kunlamai et al. Improving visual question answering for bridge inspection by pre‐training with external data of image–text pairs
CN110889276B (zh) 复数融合特征提取指针式抽取三元组信息的方法、系统及计算机介质
Toshevska et al. Exploration into deep learning text generation architectures for dense image captioning
CN116955644A (zh) 基于知识图谱的知识融合方法、系统及存储介质
CN116796288A (zh) 一种面向工业文档的多模态信息提炼方法和系统
CN115409018B (zh) 基于大数据的公司舆情监测系统及其方法
CN116842944A (zh) 一种基于词增强的实体关系抽取方法及装置
CN116341519A (zh) 基于背景知识的事件因果关系抽取方法、装置及存储介质
CN113111644A (zh) 文本识别方法、装置及计算机存储介质
CN115587595A (zh) 一种用于病理文本命名的多粒度实体识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination