CN110889289A - 信息明确度评估方法、装置、设备及计算机可读存储介质 - Google Patents

信息明确度评估方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110889289A
CN110889289A CN201810938624.6A CN201810938624A CN110889289A CN 110889289 A CN110889289 A CN 110889289A CN 201810938624 A CN201810938624 A CN 201810938624A CN 110889289 A CN110889289 A CN 110889289A
Authority
CN
China
Prior art keywords
evaluated
sentence
information
statement
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810938624.6A
Other languages
English (en)
Other versions
CN110889289B (zh
Inventor
谢海华
陈雪飞
佟津乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Original Assignee
Peking University Founder Information Industry Group Co Ltd
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Information Industry Group Co Ltd, Peking University Founder Group Co Ltd filed Critical Peking University Founder Information Industry Group Co Ltd
Priority to CN201810938624.6A priority Critical patent/CN110889289B/zh
Publication of CN110889289A publication Critical patent/CN110889289A/zh
Application granted granted Critical
Publication of CN110889289B publication Critical patent/CN110889289B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种信息明确度评估方法、装置、设备及计算机可读存储介质,方法包括:接收目标语句;根据所述目标语句确定待评估语句;通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。从而能够提高抽取到的信息的明确度。

Description

信息明确度评估方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及信息检索和文本信息处理领域,尤其涉及一种信息明确度评估方法、装置、设备及计算机可读存储介质。
背景技术
从非结构化文本中抽取信息,即信息抽取,是文本信息处理领域的基础任务之一,具体地,抽取的信息可以包括实体属性、实体关系以及时间等。此外,信息抽取还是很多自然语言处理高级任务的前提,其中,高级任务包括智能问答,机器写作,文本阅读理解等。从文本中提取出含有所需信息的语句,是信息抽取的前提工作。在很多场景中,从文本中直接抽取信息,存在准确率低、训练成本高、容错率低等缺点。因此,如何提高信息抽取的准确性成为亟待解决的问题。
为了提高信息抽取的准确性,现有技术中提出一种信息抽取方法,具体地,可以从文本中先找出含有所需信息的语句,然后运用规则或者人工方法抽取信息,是信息抽取的一种折衷手段。
但是,上述方法虽然能够实现信息的快速抽取时,但是往往存在以下问题:1、识别的信息语句,可能包含不确定的信息。例如:“李白可能出生于四川。”,所述的信息是不确定的;2、识别的信息语句,可能包含不详尽的信息。例如:“李白在幼年曾多次随父迁徙。”,迁徙的时间、地点等信息未说明,因此所述的信息是不详尽的;3、信息语句中的代词指代不明。例如:“该人在当天参加了组织会议。”,其中的“该人”和“当天”等代词的指代信息不确定。因此,抽取到的信息明确度不高,且部分信息为无用信息。
发明内容
本发明提供一种信息明确度评估方法、装置、设备及计算机可读存储介质,用于解决现有的信息抽取方法抽取的信息明确度不高的技术问题。
本发明的第一个方面是提供一种信息明确度评估方法,包括:
接收目标语句;
根据所述目标语句确定待评估语句;
通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
本发明的另一个方面是提供一种信息明确度评估装置,包括:
接收模块,用于接收目标语句;
待评估语句确定模块,用于根据所述目标语句确定待评估语句;
评估模块,用于通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
本发明的又一个方面是提供一种信息明确度评估设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如上述的信息明确度评估方法。
本发明的又一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的信息明确度评估方法。
本发明提供的信息明确度评估方法、装置、设备及计算机可读存储介质,通过接收目标语句;根据所述目标语句确定待评估语句;通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。从而能够提高抽取到的信息的明确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的信息明确度评估方法的流程示意图;
图2为本发明实施例二提供的信息明确度评估方法的流程示意图;
图3为本发明实施例三提供的信息明确度评估方法的流程示意图;
图4为本发明实施例四提供的信息明确度评估装置的结构示意图;
图5为本发明实施例五提供的信息明确度评估装置的结构示意图;
图6为本发明实施例六提供的信息明确度评估装置的结构示意图;
图7为本发明实施例七提供的信息明确度评估设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的信息明确度评估方法的流程示意图,如图1所示,所述方法包括:
步骤101、接收目标语句;
步骤102、根据所述目标语句确定待评估语句;
步骤103、通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
现有的信息抽取方法一般都是直接对待抽取文本进行信息抽取,因此,一般存在一下几个问题:1、识别的信息语句,可能包含不确定的信息。例如:“李白可能出生于四川。”,所述的信息是不确定的;2、识别的信息语句,可能包含不详尽的信息。例如:“李白在幼年曾多次随父迁徙。”,迁徙的时间、地点等信息未说明,因此所述的信息是不详尽的;3、信息语句中的代词指代不明。例如:“该人在当天参加了组织会议。”,其中的“该人”和“当天”等代词的指代信息不确定。因此,抽取到的信息明确度不高,且部分信息为无用信息。为了解决上述技术问题,首先可以接收目标语句,该目标语句即为当前对其信息明确度进行评估的语句。但是,由于目标语句中可能包含指代不明的指代词等,如果只对单一的目标语句进行分析,则可能由于其包含指代不明的指代词而判定该目标语句明确度不高,因此,为了提高目标语句的评估结果的准确度,可以根据该目标语句确定待评估语句,其中,待评估语句可以为目标语句的上下文,通过该上下文中的信息对目标语句进行评估,从而能够提高评估的准确度。进一步地,根据目标语句确定待评估语句之后,可以将待评估语句添加至预设的神经网络模型中,获得评估结果。具体地,可以根据评估结果对目标语句进行抽取。从而能够提高抽取的信息的明确度。
本实施例提供的信息明确度评估方法,通过接收目标语句;根据所述目标语句确定待评估语句;通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。从而能够提高抽取到的信息的明确度。
进一步地,在上述实施例的基础上,所述方法包括:
接收目标语句;
确定所述与目标语句相邻的上文和/或下文中预设个数的语句;
将所述目标语句与所述与目标语句相邻的上文和/或下文中预设个数的语句作为所述待评估语句;
通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,首先可以接收目标语句,该目标语句即为当前对其信息明确度进行评估的语句。但是,由于目标语句中可能包含指代不明的指代词等,如果只对单一的目标语句进行分析,则可能由于其包含指代不明的指代词而判定该目标语句明确度不高,因此,为了提高目标语句的评估结果的准确度,可以根据该目标语句确定待评估语句。具体地,可以根据目标语句确定与目标语句相连的上文和/或下文中的预设个数的语句,具体地,该预设个数可以由用户自行设置。将目标语句以及与目标语句相连的上文和/或下文中的预设个数的语句作为待评估语句,将包括目标语句上下文信息的待评估语句添加至预设的神经网络模型中,能够根据上下文信息对目标语句中的指代词等含义不清的词语进行替换,从而能够对目标语句的明确度进行准确评估。
本实施例提供的信息明确度评估方法,通过将目标语句以及与目标语句相连的上文和/或下文中的预设个数的语句作为待评估语句,从而能够提高目标语句明确度评估的准确性。
进一步地,在上述任一实施例的基础上,所述方法包括:
接收目标语句;
根据所述目标语句确定待评估语句;
通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型;
通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,接收目标语句,并根据目标语句确定待评估语句之后,需要将待评估语句添加至预设的神经网络模型中进行判别。因此,在判别之前需要建立神经网络模型。具体地,可以通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型。由于待训练文本中以对语句的明确度进行标注,从而后续既可以根据通过该待训练文本训练获得的神经网络模型对待评估语句的明确度进行精准地判别。在训练过程中,首先可以将已对语句明确度进行标注后的待训练文本随机分为训练集与测试集,并根据训练结果实时对待训练模型的参数进行调整,直至待训练模型输出的结果与标准的结果的误差低于预设的阈值,则能够实现对待训练模型的训练。
本实施例提供的信息明确度评估方法,通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型,从而为后续的待评估语句的明确度的评估提供了基础。
图2为本发明实施例二提供的信息明确度评估方法的流程示意图,在上述任一实施例的基础上,所述方法包括:
步骤201、接收目标语句;
步骤202、根据所述目标语句确定待评估语句;
步骤203、确定所述待评估语句中每一个词语的词性信息,根据所述词性信息对所述待评估语句进行词性标注,获得标注后的待评估语句;和/或,
步骤204、确定所述待评估语句中的指代词信息,根据所述指代词信息对所述待评估语句进行指代词标注,获得标注后的待评估语句;和/或,
步骤205、确定所述待评估语句中的主语信息,根据所述主语信息对所述待评估语句进行主语标注,获得标注后的待评估语句;和/或,
步骤206、确定所述待评估语句中的不确定语义词语信息,根据所述不确定语义词语信息对所述待评估语句进行不确定语义标注,获得标注后的待评估语句;
步骤207、通过预设的向量转换模型将所述标注后的待评估语句转换为所述待评估语句对应的语句向量与标注向量;
步骤208、将所述待评估语句对应的语句向量与标注向量输入至所述预设的神经网络模型;
步骤209、通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,获取目标语句,并根据目标语句确定待评估语句之后,需要将待评估语句添加至预设的神经网络模型中进行判别。因此,在判别之前需要对待评估语句中的信息进行标注。具体地,可以确定待评估语句中每一个词语的词性信息,根据该词性信息对待评估语句进行词性标注,获得标注后的待评估语句;可选地,还可以确定待评估语句中的指代词信息,并根据该指代词信息对待评估语句进行指代词标注,获得标注后的待评估语句;可选地,可以确定待评估语句中的主语信息,并根据该主语信息对待评估语句进行主语标注,其中主语可以为人名、机构名等,获得待评估语句;可选地,可以确定待评估语句中是否包含不确定语义词语信息,并根据不确定语义信息对待评估语句进行不确定语义标注,获得标注后的语句。将标注后的语句添加至预设的神经网络模型中进行判别。再将标注后的语句添加至预设的神经网络模型中之前,还需要将待评估语句转换为神经网络模型能够识别的模式,具体地,可以通过预设的向量转换模型将标注后的待评估语句转换为语句向量与标注向量,并将语句向量和标注向量一同添加至神经网络模型中进行评估,获得评估结果。需要说明的是,上述多个标注方法可以单独实施,也可以结合实施,本发明在此不做限制。
本实施例提供的信息明确度评估方法,通过对待评估语句进行标注,并将标注后的待评估语句转换为语句向量与标注向量,从而能够实现对待评估语句明确度的评估。
图3为本发明实施例三提供的信息明确度评估方法的流程示意图,在上述任一实施例的基础上,如图3所示,所述方法包括:
步骤301、接收目标语句;
步骤302、根据所述目标语句确定待评估语句;
步骤303、确定所述目标语句中的指代词,根据所述与目标语句相邻的上文和/或下文中预设个数的语句确定所述指代词对应的指代对象,通过所述指代对象对所述目标语句中的指代词进行替换,获得处理后的待评估语句;和/或,
步骤304、根据所述与目标语句相邻的上文和/或下文中预设个数的语句的信息对所述目标语句中的信息进行匹配,获得处理后的待评估语句;
步骤305、对所述处理后的待评估语句进行解码;
步骤306、通过全连接层以及预设的分类器将所述处理后的待评估语句分类为包含明确信息的待评估语句与不包含明确信息的待评估语句,获得所述评估结果。
在本实施例中,获取目标语句,并根据目标语句确定待评估语句之后,需要将待评估语句添加至预设的神经网络模型中进行判别。首先,可以确定目标语句中的指代词,并根据与目标语句相邻的上文和/或下文中预设个数的语句确定所述指代词对应的指代对象,通过所述指代对象对所述目标语句中的指代词进行替换,获得处理后的待评估语句。具体地,基于Attention机制的Gated Recurrent Unit(GRU)用来将上下文信息加入到目标语句当中。假设上文和/或下文中预设个数的语句经过编码之后是C={c1,c2,…,cm},目标语句经过编码之后是S={s1,s2,…,sn}。在经过上文和/或下文中预设个数的语句-目标语句匹配之后的结果如公式1所示:
sct=GRU(sct-1,at) (1)
其中at=ATT(C,sct-1,st)。SC={sc1,sc2,…,scn}是含有上下文信息的语句表示。
进一步地,可以根据目标语句相邻的上文和/或下文中预设个数的语句的信息对所述目标语句中的信息进行匹配,获得处理后的待评估语句。具体地,运用基于注意力机制的GRU,含有上下文信息的语句进行自我匹配,如公式2所示:
S2ct=GRU(s2ct-1,sct,at) (2)
其中at=ATT(SC,sct)。
进一步地,可以对处理后的待评估语句进行解码,通过全连接层与预设的分类器将处理后的待评估语句进行分类,获得评估结果。具体地,分类结果可以为包含明确信息的待评估语句与不包含明确信息的待评估语句。其中,预设的分类器可以为softmax分类器,或者其他能够实现分类的分类器,本发明在此不做限制。
本实施例提供的信息明确度评估方法,通过通过待评估语句中上下文语句对目标语句中的指代词进行替换并对重要信息进行匹配,从而能够提高评估准确度。
图4为本发明实施例四提供的信息明确度评估装置的结构示意图,如图4所示,所述装置包括:
接收模块41,用于接收目标语句;
待评估语句确定模块42,用于根据所述目标语句确定待评估语句;
评估模块43,用于通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
现有的信息抽取方法一般都是直接对待抽取文本进行信息抽取,因此,一般存在一下几个问题:1、识别的信息语句,可能包含不确定的信息。例如:“李白可能出生于四川。”,所述的信息是不确定的;2、识别的信息语句,可能包含不详尽的信息。例如:“李白在幼年曾多次随父迁徙。”,迁徙的时间、地点等信息未说明,因此所述的信息是不详尽的;3、信息语句中的代词指代不明。例如:“该人在当天参加了组织会议。”,其中的“该人”和“当天”等代词的指代信息不确定。因此,抽取到的信息明确度不高,且部分信息为无用信息。为了解决上述技术问题,首先接收模块31可以接收目标语句,该目标语句即为当前对其信息明确度进行评估的语句。但是,由于目标语句中可能包含指代不明的指代词等,如果只对单一的目标语句进行分析,则可能由于其包含指代不明的指代词而判定该目标语句明确度不高,因此,为了提高目标语句的评估结果的准确度,待评估语句确定模块32可以根据该目标语句确定待评估语句,其中,待评估语句可以为目标语句的上下文,通过该上下文中的信息对目标语句进行评估,从而能够提高评估的准确度。进一步地,根据目标语句确定待评估语句之后,评估模块33可以将待评估语句添加至预设的神经网络模型中,获得评估结果。具体地,可以根据评估结果对目标语句进行抽取。从而能够提高抽取的信息的明确度。
本实施例提供的信息明确度评估装置,通过接收目标语句;根据所述目标语句确定待评估语句;通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。从而能够提高抽取到的信息的明确度。
进一步地,在上述实施例的基础上,所述装置包括:
接收模块,用于接收目标语句;
所述待评估语句确定模块包括:
第一确定单元,用于确定所述与目标语句相邻的上文和/或下文中预设个数的语句;
第二确定单元,用于将所述目标语句与所述与目标语句相邻的上文和/或下文中预设个数的语句作为所述待评估语句;
评估模块,用于通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,首先接收模块可以接收目标语句,该目标语句即为当前对其信息明确度进行评估的语句。但是,由于目标语句中可能包含指代不明的指代词等,如果只对单一的目标语句进行分析,则可能由于其包含指代不明的指代词而判定该目标语句明确度不高,因此,为了提高目标语句的评估结果的准确度,待评估语句确定模块可以根据该目标语句确定待评估语句。具体地,第一确定单元可以根据目标语句确定与目标语句相连的上文和/或下文中的预设个数的语句,具体地,该预设个数可以由用户自行设置。第二确定单元将目标语句以及与目标语句相连的上文和/或下文中的预设个数的语句作为待评估语句,将包括目标语句上下文信息的待评估语句添加至预设的神经网络模型中,能够根据上下文信息对目标语句中的指代词等含义不清的词语进行替换,从而能够对目标语句的明确度进行准确评估。
本实施例提供的信息明确度评估装置,通过将目标语句以及与目标语句相连的上文和/或下文中的预设个数的语句作为待评估语句,从而能够提高目标语句明确度评估的准确性。
进一步地,在上述任一实施例的基础上,所述装置包括:
接收模块,用于接收目标语句;
待评估语句确定模块,用于根据所述目标语句确定待评估语句;
训练模块,用于通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型;
评估模块,用于通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,接收模块接收目标语句,待评估语句确定模块根据目标语句确定待评估语句之后,评估模块需要将待评估语句添加至预设的神经网络模型中进行判别。因此,在判别之前需要建立神经网络模型。具体地,训练模块可以通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型。由于待训练文本中以对语句的明确度进行标注,从而后续既可以根据通过该待训练文本训练获得的神经网络模型对待评估语句的明确度进行精准地判别。在训练过程中,首先可以将已对语句明确度进行标注后的待训练文本随机分为训练集与测试集,并根据训练结果实时对待训练模型的参数进行调整,直至待训练模型输出的结果与标准的结果的误差低于预设的阈值,则能够实现对待训练模型的训练。
本实施例提供的信息明确度评估装置,通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型,从而为后续的待评估语句的明确度的评估提供了基础。
图5为本发明实施例五提供的信息明确度评估装置的结构示意图,在上述任一实施例的基础上,如图5所示,所述装置包括:
接收模块51,用于接收目标语句;
待评估语句确定模块52,用于根据所述目标语句确定待评估语句;
第一标注模块53,用于定所述待评估语句中每一个词语的词性信息,根据所述词性信息对所述待评估语句进行词性标注,获得标注后的待评估语句;和/或,
第二标注模块54,用于确定所述待评估语句中的指代词信息,根据所述指代词信息对所述待评估语句进行指代词标注,获得标注后的待评估语句;和/或,
第三标注模块55,用于确定所述待评估语句中的主语信息,根据所述主语信息对所述待评估语句进行主语标注,获得标注后的待评估语句;和/或,
第四标注模块56,用于确定所述待评估语句中的不确定语义词语信息,根据所述不确定语义词语信息对所述待评估语句进行不确定语义标注,获得标注后的待评估语句;
向量转换模块57,用于通过预设的向量转换模型将所述标注后的待评估语句转换为所述待评估语句对应的语句向量与标注向量;
添加模块58,用于将所述待评估语句对应的语句向量与标注向量输入至所述预设的神经网络模型;
评估模块59,用于通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,接收模块51获取目标语句,待评估语句确定模块52根据目标语句确定待评估语句之后,评估模块59需要将待评估语句添加至预设的神经网络模型中进行判别。因此,在判别之前需要对待评估语句中的信息进行标注。具体地,第一标注模块53可以确定待评估语句中每一个词语的词性信息,根据该词性信息对待评估语句进行词性标注,获得标注后的待评估语句;可选地,第二标注模块54还可以确定待评估语句中的指代词信息,并根据该指代词信息对待评估语句进行指代词标注,获得标注后的待评估语句;可选地,第三标注模块55可以确定待评估语句中的主语信息,并根据该主语信息对待评估语句进行主语标注,其中主语可以为人名、机构名等,获得待评估语句;可选地,第四标注模块56可以确定待评估语句中是否包含不确定语义词语信息,并根据不确定语义信息对待评估语句进行不确定语义标注,获得标注后的语句。添加模块58将标注后的语句添加至预设的神经网络模型中进行判别。再将标注后的语句添加至预设的神经网络模型中之前,还需要将待评估语句转换为神经网络模型能够识别的模式,具体地,向量转换模块57可以通过预设的向量转换模型将标注后的待评估语句转换为语句向量与标注向量,评估模块59将语句向量和标注向量一同添加至神经网络模型中进行评估,获得评估结果。需要说明的是,上述多个标注方法可以单独实施,也可以结合实施,本发明在此不做限制。
本实施例提供的信息明确度评估装置,通过对待评估语句进行标注,并将标注后的待评估语句转换为语句向量与标注向量,从而能够实现对待评估语句明确度的评估。
图6为本发明实施例六提供的信息明确度评估装置的结构示意图,在上述任一实施例的基础上,所述装置包括:
接收模块61,用于接收目标语句;
待评估语句确定模块62,用于根据所述目标语句确定待评估语句;
评估模块63具体包括:
第一处理单元601,用于确定所述目标语句中的指代词,根据所述与目标语句相邻的上文和/或下文中预设个数的语句确定所述指代词对应的指代对象,通过所述指代对象对所述目标语句中的指代词进行替换,获得处理后的待评估语句;和/或,
第二处理单元602,用于根据所述与目标语句相邻的上文和/或下文中预设个数的语句的信息对所述目标语句中的信息进行匹配,获得处理后的待评估语句;
解码单元603,用于对所述处理后的待评估语句进行解码;
分类单元604,用于通过全连接层以及预设的分类器将所述处理后的待评估语句分类为包含明确信息的待评估语句与不包含明确信息的待评估语句,获得所述评估结果。
在本实施例中,接收模块61获取目标语句,待评估语句确定模块62根据目标语句确定待评估语句之后,评估模块63需要将待评估语句添加至预设的神经网络模型中进行判别。首先,第一处理单元601可以确定目标语句中的指代词,并根据与目标语句相邻的上文和/或下文中预设个数的语句确定所述指代词对应的指代对象,通过所述指代对象对所述目标语句中的指代词进行替换,获得处理后的待评估语句。具体地,基于Attention机制的Gated Recurrent Unit(GRU)用来将上下文信息加入到目标语句当中。假设上文和/或下文中预设个数的语句经过编码之后是C={c1,c2,…,cm},目标语句经过编码之后是S={s1,s2,…,sn}。在经过上文和/或下文中预设个数的语句-目标语句匹配之后的结果如公式1所示:
sct=GRU(sct-1,at) (1)
其中at=ATT(C,sct-1,st)。SC={sc1,sc2,…,scn}是含有上下文信息的语句表示。
进一步地,第二处理单元602可以根据目标语句相邻的上文和/或下文中预设个数的语句的信息对所述目标语句中的信息进行匹配,获得处理后的待评估语句。具体地,运用基于注意力机制的GRU,含有上下文信息的语句进行自我匹配,如公式2所示:
S2ct=GRU(s2ct-1,sct,at) (2)
其中at=ATT(SC,sct)。
进一步地,解码单元603可以对处理后的待评估语句进行解码,分类单元604通过全连接层与预设的分类器将处理后的待评估语句进行分类,获得评估结果。具体地,分类结果可以为包含明确信息的待评估语句与不包含明确信息的待评估语句。其中,预设的分类器可以为softmax分类器,或者其他能够实现分类的分类器,本发明在此不做限制。
本实施例提供的信息明确度评估装置,通过通过待评估语句中上下文语句对目标语句中的指代词进行替换并对重要信息进行匹配,从而能够提高评估准确度。
图7为本发明实施例七提供的信息明确度评估设备的结构示意图,如图7所示,所述设备包括:存储器71,处理器72;
存储器71;用于存储所述处理器72可执行指令的存储器71;
其中,所述处理器72被配置为由所述处理器72执行如上述的信息明确度评估方法。
本发明的又一个实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的信息明确度评估方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种信息明确度评估方法,其特征在于,包括:
接收目标语句;
根据所述目标语句确定待评估语句;
通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标语句确定待评估语句,包括:
确定所述与目标语句相邻的上文和/或下文中预设个数的语句;
将所述目标语句与所述与目标语句相邻的上文和/或下文中预设个数的语句作为所述待评估语句。
3.根据权利要求1所述的方法,其特征在于,所述通过预设的神经网络模型对所述待评估语句的明确度进行评估之前,还包括:
通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型。
4.根据权利要求1所述的方法,其特征在于,所述通过预设的神经网络模型对所述待评估语句的明确度进行评估之前,还包括:
确定所述待评估语句中每一个词语的词性信息,根据所述词性信息对所述待评估语句进行词性标注,获得标注后的待评估语句;和/或,
确定所述待评估语句中的指代词信息,根据所述指代词信息对所述待评估语句进行指代词标注,获得标注后的待评估语句;和/或,
确定所述待评估语句中的主语信息,根据所述主语信息对所述待评估语句进行主语标注,获得标注后的待评估语句;和/或,
确定所述待评估语句中的不确定语义词语信息,根据所述不确定语义词语信息对所述待评估语句进行不确定语义标注,获得标注后的待评估语句;
通过预设的向量转换模型将所述标注后的待评估语句转换为所述待评估语句对应的语句向量与标注向量;
将所述待评估语句对应的语句向量与标注向量输入至所述预设的神经网络模型。
5.根据权利要求2所述的方法,其特征在于,所述通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,包括:
确定所述目标语句中的指代词,根据所述与目标语句相邻的上文和/或下文中预设个数的语句确定所述指代词对应的指代对象,通过所述指代对象对所述目标语句中的指代词进行替换,获得处理后的待评估语句;和/或,
根据所述与目标语句相邻的上文和/或下文中预设个数的语句的信息对所述目标语句中的信息进行匹配,获得处理后的待评估语句;
对所述处理后的待评估语句进行解码;
通过全连接层以及预设的分类器将所述处理后的待评估语句分类为包含明确信息的待评估语句与不包含明确信息的待评估语句,获得所述评估结果。
6.一种信息明确度评估装置,其特征在于,包括:
接收模块,用于接收目标语句;
待评估语句确定模块,用于根据所述目标语句确定待评估语句;
评估模块,用于通过预设的神经网络模型对所述待评估语句的明确度进行评估,获得评估结果,根据所述评估结果进行信息抽取。
7.根据权利要求6所述的装置,其特征在于,所述待评估语句确定模块包括:
第一确定单元,用于确定所述与目标语句相邻的上文和/或下文中预设个数的语句;
第二确定单元,用于将所述目标语句与所述与目标语句相邻的上文和/或下文中预设个数的语句作为所述待评估语句。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
训练模块,用于通过预设的已对语句明确度进行标注后的待训练文本对所述预设的待训练模型进行训练,获得所述预设的神经网络模型。
9.一种信息明确度评估设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如权利要求1-5任一项所述的信息明确度评估方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至5任一项所述的信息明确度评估方法。
CN201810938624.6A 2018-08-17 2018-08-17 信息明确度评估方法、装置、设备及计算机可读存储介质 Expired - Fee Related CN110889289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810938624.6A CN110889289B (zh) 2018-08-17 2018-08-17 信息明确度评估方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810938624.6A CN110889289B (zh) 2018-08-17 2018-08-17 信息明确度评估方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110889289A true CN110889289A (zh) 2020-03-17
CN110889289B CN110889289B (zh) 2022-05-06

Family

ID=69744212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810938624.6A Expired - Fee Related CN110889289B (zh) 2018-08-17 2018-08-17 信息明确度评估方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110889289B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997162A (zh) * 2022-05-26 2022-09-02 中国工商银行股份有限公司 一种训练数据提取方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365834A (zh) * 2012-03-29 2013-10-23 富泰华工业(深圳)有限公司 语言歧义消除系统及方法
US9646250B1 (en) * 2015-11-17 2017-05-09 International Business Machines Corporation Computer-implemented cognitive system for assessing subjective question-answers
CN107507052A (zh) * 2017-07-17 2017-12-22 苏州凯联信息科技有限公司 一种报价信息获取方法及装置
CN108363790A (zh) * 2018-02-12 2018-08-03 百度在线网络技术(北京)有限公司 用于对评论进行评估的方法、装置、设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103365834A (zh) * 2012-03-29 2013-10-23 富泰华工业(深圳)有限公司 语言歧义消除系统及方法
US9646250B1 (en) * 2015-11-17 2017-05-09 International Business Machines Corporation Computer-implemented cognitive system for assessing subjective question-answers
CN107507052A (zh) * 2017-07-17 2017-12-22 苏州凯联信息科技有限公司 一种报价信息获取方法及装置
CN108363790A (zh) * 2018-02-12 2018-08-03 百度在线网络技术(北京)有限公司 用于对评论进行评估的方法、装置、设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114997162A (zh) * 2022-05-26 2022-09-02 中国工商银行股份有限公司 一种训练数据提取方法和装置

Also Published As

Publication number Publication date
CN110889289B (zh) 2022-05-06

Similar Documents

Publication Publication Date Title
CN110781276B (zh) 文本抽取方法、装置、设备及存储介质
CN111738004A (zh) 一种命名实体识别模型的训练方法及命名实体识别的方法
CN111783394B (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
KR101561464B1 (ko) 수집 데이터 감성분석 방법 및 장치
CN110245227B (zh) 文本分类的融合分类器的训练方法及设备
CN113010638A (zh) 实体识别模型生成方法及装置、实体提取方法及装置
CN112667813B (zh) 用于裁判文书的敏感身份信息的识别方法
CN110852071B (zh) 知识点检测方法、装置、设备及可读存储介质
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN116150404A (zh) 一种基于联合学习的教育资源多模态知识图谱构建方法
CN110889274B (zh) 信息质量评估方法、装置、设备及计算机可读存储介质
CN113255829B (zh) 基于深度学习的零样本图像目标检测方法和装置
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113076720B (zh) 长文本的分段方法及装置、存储介质、电子装置
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN112395858B (zh) 融合试题数据和解答数据的多知识点标注方法和系统
CN110889289B (zh) 信息明确度评估方法、装置、设备及计算机可读存储介质
CN117332789A (zh) 一种面向对话场景的语义分析方法及系统
CN111291569B (zh) 多类别实体识别模型的训练方法及装置
CN111104520A (zh) 一种基于人物身份的人物实体链接方法
CN116127011A (zh) 意图识别方法、装置、电子设备及存储介质
CN115687917A (zh) 样本处理方法以及装置、识别模型训练方法及装置
CN114330350A (zh) 一种命名实体识别方法、装置、电子设备及存储介质
CN110826330B (zh) 人名识别方法及装置、计算机设备及可读存储介质
CN110543560A (zh) 基于卷积神经网络的长文本分类识别方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230612

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220506

CF01 Termination of patent right due to non-payment of annual fee