具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的信息明确度评估方法的流程示意图,如图1所示,所述方法包括:
步骤101、接收目标语句;
步骤102、根据所述目标语句确定待评估语句;
步骤103、通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
现有的信息抽取方法一般都是直接对待抽取文本进行信息抽取,因此,一般存在一下几个问题:1、识别的信息语句,可能包含不确定的信息。例如:“李白可能出生于四川。”,所述的信息是不确定的;2、识别的信息语句,可能包含不详尽的信息。例如:“李白在幼年曾多次随父迁徙。”,迁徙的时间、地点等信息未说明,因此所述的信息是不详尽的;3、信息语句中的代词指代不明。例如:“该人在当天参加了组织会议。”,其中的“该人”和“当天”等代词的指代信息不确定。因此,抽取到的信息明确度不高,且部分信息为无用信息。为了解决上述技术问题,首先可以接收目标语句,该目标语句即为当前对其信息明确度进行评估的语句。但是,由于目标语句中可能包含指代不明的指代词等,如果只对单一的目标语句进行分析,则可能由于其包含指代不明的指代词而判定该目标语句明确度不高,因此,为了提高目标语句的评估结果的准确度,可以根据该目标语句确定待评估语句,其中,待评估语句可以为目标语句的上下文,通过该上下文中的信息对目标语句进行评估,从而能够提高评估的准确度。进一步地,根据目标语句确定待评估语句之后,可以将待评估语句添加至预设的神经网络模型中,获得评估结果。具体地,可以根据评估结果对目标语句进行抽取。从而能够提高抽取的信息的明确度。
本实施例提供的信息明确度评估方法,通过接收目标语句;根据所述目标语句确定待评估语句;通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。从而能够提高抽取到的信息的明确度。
进一步地,在上述实施例的基础上,所述方法包括:
接收目标语句;
确定所述与目标语句相邻的上文和/或下文中预设个数的语句;
将所述目标语句与所述与目标语句相邻的上文和/或下文中预设个数的语句作为所述待评估语句;
通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,首先可以接收目标语句,该目标语句即为当前对其信息明确度进行评估的语句。但是,由于目标语句中可能包含指代不明的指代词等,如果只对单一的目标语句进行分析,则可能由于其包含指代不明的指代词而判定该目标语句明确度不高,因此,为了提高目标语句的评估结果的准确度,可以根据该目标语句确定待评估语句。具体地,可以根据目标语句确定与目标语句相连的上文和/或下文中的预设个数的语句,具体地,该预设个数可以由用户自行设置。将目标语句以及与目标语句相连的上文和/或下文中的预设个数的语句作为待评估语句,将包括目标语句上下文信息的待评估语句添加至预设的神经网络模型中,能够根据上下文信息对目标语句中的指代词等含义不清的词语进行替换,从而能够对目标语句的明确度进行准确评估。
本实施例提供的信息明确度评估方法,通过将目标语句以及与目标语句相连的上文和/或下文中的预设个数的语句作为待评估语句,从而能够提高目标语句明确度评估的准确性。
进一步地,在上述任一实施例的基础上,所述方法包括:
接收目标语句;
根据所述目标语句确定待评估语句;
通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型;
通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,接收目标语句,并根据目标语句确定待评估语句之后,需要将待评估语句添加至预设的神经网络模型中进行判别。因此,在判别之前需要建立神经网络模型。具体地,可以通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型。由于待训练文本中以对语句的明确度进行标注,从而后续既可以根据通过该待训练文本训练获得的神经网络模型对待评估语句的明确度进行精准地判别。在训练过程中,首先可以将已对语句明确度进行标注后的待训练文本随机分为训练集与测试集,并根据训练结果实时对待训练模型的参数进行调整,直至待训练模型输出的结果与标准的结果的误差低于预设的阈值,则能够实现对待训练模型的训练。
本实施例提供的信息明确度评估方法,通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型,从而为后续的待评估语句的明确度的评估提供了基础。
图2为本发明实施例二提供的信息明确度评估方法的流程示意图,在上述任一实施例的基础上,所述方法包括:
步骤201、接收目标语句;
步骤202、根据所述目标语句确定待评估语句;
步骤203、确定所述待评估语句中每一个词语的词性信息,根据所述词性信息对所述待评估语句进行词性标注,获得标注后的待评估语句;和/或,
步骤204、确定所述待评估语句中的指代词信息,根据所述指代词信息对所述待评估语句进行指代词标注,获得标注后的待评估语句;和/或,
步骤205、确定所述待评估语句中的主语信息,根据所述主语信息对所述待评估语句进行主语标注,获得标注后的待评估语句;和/或,
步骤206、确定所述待评估语句中的不确定语义词语信息,根据所述不确定语义词语信息对所述待评估语句进行不确定语义标注,获得标注后的待评估语句;
步骤207、通过预设的向量转换模型将所述标注后的待评估语句转换为所述待评估语句对应的语句向量与标注向量;
步骤208、将所述待评估语句对应的语句向量与标注向量输入至所述预设的神经网络模型;
步骤209、通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,获取目标语句,并根据目标语句确定待评估语句之后,需要将待评估语句添加至预设的神经网络模型中进行判别。因此,在判别之前需要对待评估语句中的信息进行标注。具体地,可以确定待评估语句中每一个词语的词性信息,根据该词性信息对待评估语句进行词性标注,获得标注后的待评估语句;可选地,还可以确定待评估语句中的指代词信息,并根据该指代词信息对待评估语句进行指代词标注,获得标注后的待评估语句;可选地,可以确定待评估语句中的主语信息,并根据该主语信息对待评估语句进行主语标注,其中主语可以为人名、机构名等,获得待评估语句;可选地,可以确定待评估语句中是否包含不确定语义词语信息,并根据不确定语义信息对待评估语句进行不确定语义标注,获得标注后的语句。将标注后的语句添加至预设的神经网络模型中进行判别。再将标注后的语句添加至预设的神经网络模型中之前,还需要将待评估语句转换为神经网络模型能够识别的模式,具体地,可以通过预设的向量转换模型将标注后的待评估语句转换为语句向量与标注向量,并将语句向量和标注向量一同添加至神经网络模型中进行评估,获得评估结果。需要说明的是,上述多个标注方法可以单独实施,也可以结合实施,本发明在此不做限制。
本实施例提供的信息明确度评估方法,通过对待评估语句进行标注,并将标注后的待评估语句转换为语句向量与标注向量,从而能够实现对待评估语句明确度的评估。
图3为本发明实施例三提供的信息明确度评估方法的流程示意图,在上述任一实施例的基础上,如图3所示,所述方法包括:
步骤301、接收目标语句;
步骤302、根据所述目标语句确定待评估语句;
步骤303、确定所述目标语句中的指代词,根据所述与目标语句相邻的上文和/或下文中预设个数的语句确定所述指代词对应的指代对象,通过所述指代对象对所述目标语句中的指代词进行替换,获得处理后的待评估语句;和/或,
步骤304、根据所述与目标语句相邻的上文和/或下文中预设个数的语句的信息对所述目标语句中的信息进行匹配,获得处理后的待评估语句;
步骤305、对所述处理后的待评估语句进行解码;
步骤306、通过全连接层以及预设的分类器将所述处理后的待评估语句分类为包含明确信息的待评估语句与不包含明确信息的待评估语句,获得所述评估结果。
在本实施例中,获取目标语句,并根据目标语句确定待评估语句之后,需要将待评估语句添加至预设的神经网络模型中进行判别。首先,可以确定目标语句中的指代词,并根据与目标语句相邻的上文和/或下文中预设个数的语句确定所述指代词对应的指代对象,通过所述指代对象对所述目标语句中的指代词进行替换,获得处理后的待评估语句。具体地,基于Attention机制的Gated Recurrent Unit(GRU)用来将上下文信息加入到目标语句当中。假设上文和/或下文中预设个数的语句经过编码之后是C={c1,c2,…,cm},目标语句经过编码之后是S={s1,s2,…,sn}。在经过上文和/或下文中预设个数的语句-目标语句匹配之后的结果如公式1所示:
sct=GRU(sct-1,at) (1)
其中at=ATT(C,sct-1,st)。SC={sc1,sc2,…,scn}是含有上下文信息的语句表示。
进一步地,可以根据目标语句相邻的上文和/或下文中预设个数的语句的信息对所述目标语句中的信息进行匹配,获得处理后的待评估语句。具体地,运用基于注意力机制的GRU,含有上下文信息的语句进行自我匹配,如公式2所示:
S2ct=GRU(s2ct-1,sct,at) (2)
其中at=ATT(SC,sct)。
进一步地,可以对处理后的待评估语句进行解码,通过全连接层与预设的分类器将处理后的待评估语句进行分类,获得评估结果。具体地,分类结果可以为包含明确信息的待评估语句与不包含明确信息的待评估语句。其中,预设的分类器可以为softmax分类器,或者其他能够实现分类的分类器,本发明在此不做限制。
本实施例提供的信息明确度评估方法,通过通过待评估语句中上下文语句对目标语句中的指代词进行替换并对重要信息进行匹配,从而能够提高评估准确度。
图4为本发明实施例四提供的信息明确度评估装置的结构示意图,如图4所示,所述装置包括:
接收模块41,用于接收目标语句;
待评估语句确定模块42,用于根据所述目标语句确定待评估语句;
评估模块43,用于通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
现有的信息抽取方法一般都是直接对待抽取文本进行信息抽取,因此,一般存在一下几个问题:1、识别的信息语句,可能包含不确定的信息。例如:“李白可能出生于四川。”,所述的信息是不确定的;2、识别的信息语句,可能包含不详尽的信息。例如:“李白在幼年曾多次随父迁徙。”,迁徙的时间、地点等信息未说明,因此所述的信息是不详尽的;3、信息语句中的代词指代不明。例如:“该人在当天参加了组织会议。”,其中的“该人”和“当天”等代词的指代信息不确定。因此,抽取到的信息明确度不高,且部分信息为无用信息。为了解决上述技术问题,首先接收模块31可以接收目标语句,该目标语句即为当前对其信息明确度进行评估的语句。但是,由于目标语句中可能包含指代不明的指代词等,如果只对单一的目标语句进行分析,则可能由于其包含指代不明的指代词而判定该目标语句明确度不高,因此,为了提高目标语句的评估结果的准确度,待评估语句确定模块32可以根据该目标语句确定待评估语句,其中,待评估语句可以为目标语句的上下文,通过该上下文中的信息对目标语句进行评估,从而能够提高评估的准确度。进一步地,根据目标语句确定待评估语句之后,评估模块33可以将待评估语句添加至预设的神经网络模型中,获得评估结果。具体地,可以根据评估结果对目标语句进行抽取。从而能够提高抽取的信息的明确度。
本实施例提供的信息明确度评估装置,通过接收目标语句;根据所述目标语句确定待评估语句;通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。从而能够提高抽取到的信息的明确度。
进一步地,在上述实施例的基础上,所述装置包括:
接收模块,用于接收目标语句;
所述待评估语句确定模块包括:
第一确定单元,用于确定所述与目标语句相邻的上文和/或下文中预设个数的语句;
第二确定单元,用于将所述目标语句与所述与目标语句相邻的上文和/或下文中预设个数的语句作为所述待评估语句;
评估模块,用于通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,首先接收模块可以接收目标语句,该目标语句即为当前对其信息明确度进行评估的语句。但是,由于目标语句中可能包含指代不明的指代词等,如果只对单一的目标语句进行分析,则可能由于其包含指代不明的指代词而判定该目标语句明确度不高,因此,为了提高目标语句的评估结果的准确度,待评估语句确定模块可以根据该目标语句确定待评估语句。具体地,第一确定单元可以根据目标语句确定与目标语句相连的上文和/或下文中的预设个数的语句,具体地,该预设个数可以由用户自行设置。第二确定单元将目标语句以及与目标语句相连的上文和/或下文中的预设个数的语句作为待评估语句,将包括目标语句上下文信息的待评估语句添加至预设的神经网络模型中,能够根据上下文信息对目标语句中的指代词等含义不清的词语进行替换,从而能够对目标语句的明确度进行准确评估。
本实施例提供的信息明确度评估装置,通过将目标语句以及与目标语句相连的上文和/或下文中的预设个数的语句作为待评估语句,从而能够提高目标语句明确度评估的准确性。
进一步地,在上述任一实施例的基础上,所述装置包括:
接收模块,用于接收目标语句;
待评估语句确定模块,用于根据所述目标语句确定待评估语句;
训练模块,用于通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型;
评估模块,用于通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,接收模块接收目标语句,待评估语句确定模块根据目标语句确定待评估语句之后,评估模块需要将待评估语句添加至预设的神经网络模型中进行判别。因此,在判别之前需要建立神经网络模型。具体地,训练模块可以通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型。由于待训练文本中以对语句的明确度进行标注,从而后续既可以根据通过该待训练文本训练获得的神经网络模型对待评估语句的明确度进行精准地判别。在训练过程中,首先可以将已对语句明确度进行标注后的待训练文本随机分为训练集与测试集,并根据训练结果实时对待训练模型的参数进行调整,直至待训练模型输出的结果与标准的结果的误差低于预设的阈值,则能够实现对待训练模型的训练。
本实施例提供的信息明确度评估装置,通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型,从而为后续的待评估语句的明确度的评估提供了基础。
图5为本发明实施例五提供的信息明确度评估装置的结构示意图,在上述任一实施例的基础上,如图5所示,所述装置包括:
接收模块51,用于接收目标语句;
待评估语句确定模块52,用于根据所述目标语句确定待评估语句;
第一标注模块53,用于定所述待评估语句中每一个词语的词性信息,根据所述词性信息对所述待评估语句进行词性标注,获得标注后的待评估语句;和/或,
第二标注模块54,用于确定所述待评估语句中的指代词信息,根据所述指代词信息对所述待评估语句进行指代词标注,获得标注后的待评估语句;和/或,
第三标注模块55,用于确定所述待评估语句中的主语信息,根据所述主语信息对所述待评估语句进行主语标注,获得标注后的待评估语句;和/或,
第四标注模块56,用于确定所述待评估语句中的不确定语义词语信息,根据所述不确定语义词语信息对所述待评估语句进行不确定语义标注,获得标注后的待评估语句;
向量转换模块57,用于通过预设的向量转换模型将所述标注后的待评估语句转换为所述待评估语句对应的语句向量与标注向量;
添加模块58,用于将所述待评估语句对应的语句向量与标注向量输入至所述预设的神经网络模型;
评估模块59,用于通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,接收模块51获取目标语句,待评估语句确定模块52根据目标语句确定待评估语句之后,评估模块59需要将待评估语句添加至预设的神经网络模型中进行判别。因此,在判别之前需要对待评估语句中的信息进行标注。具体地,第一标注模块53可以确定待评估语句中每一个词语的词性信息,根据该词性信息对待评估语句进行词性标注,获得标注后的待评估语句;可选地,第二标注模块54还可以确定待评估语句中的指代词信息,并根据该指代词信息对待评估语句进行指代词标注,获得标注后的待评估语句;可选地,第三标注模块55可以确定待评估语句中的主语信息,并根据该主语信息对待评估语句进行主语标注,其中主语可以为人名、机构名等,获得待评估语句;可选地,第四标注模块56可以确定待评估语句中是否包含不确定语义词语信息,并根据不确定语义信息对待评估语句进行不确定语义标注,获得标注后的语句。添加模块58将标注后的语句添加至预设的神经网络模型中进行判别。再将标注后的语句添加至预设的神经网络模型中之前,还需要将待评估语句转换为神经网络模型能够识别的模式,具体地,向量转换模块57可以通过预设的向量转换模型将标注后的待评估语句转换为语句向量与标注向量,评估模块59将语句向量和标注向量一同添加至神经网络模型中进行评估,获得评估结果。需要说明的是,上述多个标注方法可以单独实施,也可以结合实施,本发明在此不做限制。
本实施例提供的信息明确度评估装置,通过对待评估语句进行标注,并将标注后的待评估语句转换为语句向量与标注向量,从而能够实现对待评估语句明确度的评估。
图6为本发明实施例六提供的信息明确度评估装置的结构示意图,在上述任一实施例的基础上,所述装置包括:
接收模块61,用于接收目标语句;
待评估语句确定模块62,用于根据所述目标语句确定待评估语句;
评估模块63具体包括:
第一处理单元601,用于确定所述目标语句中的指代词,根据所述与目标语句相邻的上文和/或下文中预设个数的语句确定所述指代词对应的指代对象,通过所述指代对象对所述目标语句中的指代词进行替换,获得处理后的待评估语句;和/或,
第二处理单元602,用于根据所述与目标语句相邻的上文和/或下文中预设个数的语句的信息对所述目标语句中的信息进行匹配,获得处理后的待评估语句;
解码单元603,用于对所述处理后的待评估语句进行解码;
分类单元604,用于通过全连接层以及预设的分类器将所述处理后的待评估语句分类为包含明确信息的待评估语句与不包含明确信息的待评估语句,获得所述评估结果。
在本实施例中,接收模块61获取目标语句,待评估语句确定模块62根据目标语句确定待评估语句之后,评估模块63需要将待评估语句添加至预设的神经网络模型中进行判别。首先,第一处理单元601可以确定目标语句中的指代词,并根据与目标语句相邻的上文和/或下文中预设个数的语句确定所述指代词对应的指代对象,通过所述指代对象对所述目标语句中的指代词进行替换,获得处理后的待评估语句。具体地,基于Attention机制的Gated Recurrent Unit(GRU)用来将上下文信息加入到目标语句当中。假设上文和/或下文中预设个数的语句经过编码之后是C={c1,c2,…,cm},目标语句经过编码之后是S={s1,s2,…,sn}。在经过上文和/或下文中预设个数的语句-目标语句匹配之后的结果如公式1所示:
sct=GRU(sct-1,at) (1)
其中at=ATT(C,sct-1,st)。SC={sc1,sc2,…,scn}是含有上下文信息的语句表示。
进一步地,第二处理单元602可以根据目标语句相邻的上文和/或下文中预设个数的语句的信息对所述目标语句中的信息进行匹配,获得处理后的待评估语句。具体地,运用基于注意力机制的GRU,含有上下文信息的语句进行自我匹配,如公式2所示:
S2ct=GRU(s2ct-1,sct,at) (2)
其中at=ATT(SC,sct)。
进一步地,解码单元603可以对处理后的待评估语句进行解码,分类单元604通过全连接层与预设的分类器将处理后的待评估语句进行分类,获得评估结果。具体地,分类结果可以为包含明确信息的待评估语句与不包含明确信息的待评估语句。其中,预设的分类器可以为softmax分类器,或者其他能够实现分类的分类器,本发明在此不做限制。
本实施例提供的信息明确度评估装置,通过通过待评估语句中上下文语句对目标语句中的指代词进行替换并对重要信息进行匹配,从而能够提高评估准确度。
图7为本发明实施例七提供的信息明确度评估设备的结构示意图,如图7所示,所述设备包括:存储器71,处理器72;
存储器71;用于存储所述处理器72可执行指令的存储器71;
其中,所述处理器72被配置为由所述处理器72执行如上述的信息明确度评估方法。
本发明的又一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的信息明确度评估方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。