CN110889274A - 信息质量评估方法、装置、设备及计算机可读存储介质 - Google Patents

信息质量评估方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110889274A
CN110889274A CN201810938623.1A CN201810938623A CN110889274A CN 110889274 A CN110889274 A CN 110889274A CN 201810938623 A CN201810938623 A CN 201810938623A CN 110889274 A CN110889274 A CN 110889274A
Authority
CN
China
Prior art keywords
sentence
evaluated
text
processed
trained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810938623.1A
Other languages
English (en)
Other versions
CN110889274B (zh
Inventor
谢海华
陈雪飞
佟津乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Original Assignee
Peking University Founder Information Industry Group Co Ltd
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Information Industry Group Co Ltd, Peking University Founder Group Co Ltd filed Critical Peking University Founder Information Industry Group Co Ltd
Priority to CN201810938623.1A priority Critical patent/CN110889274B/zh
Publication of CN110889274A publication Critical patent/CN110889274A/zh
Application granted granted Critical
Publication of CN110889274B publication Critical patent/CN110889274B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种信息质量评估方法、装置、设备及计算机可读存储介质,方法包括:确定待评估语句;通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;对所述判别后的待评估语句的语句价值进行评估,获得评估结果;根据所述评估结果对所述待评估语句进行信息抽取。从而能够提高抽取到的待评估语句的信息质量。

Description

信息质量评估方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及信息检索与文本信息处理领域,尤其涉及一种信息质量评估方法、装置、设备及计算机可读存储介质。
背景技术
从非结构化文本中抽取信息,即信息抽取,是文本信息处理领域的基础任务之一,具体地,抽取的信息可以包括实体属性、实体关系以及时间等。此外,信息抽取还是很多自然语言处理高级任务的前提,其中,高级任务包括智能问答,机器写作,文本阅读理解等。从文本中提取出含有所需信息的语句,是信息抽取的前提工作。在很多场景中,从文本中直接抽取信息,存在准确率低、训练成本高、容错率低等缺点。因此,如何提高信息抽取的准确性成为亟待解决的问题。
为了提高信息抽取的准确性,现有技术中提出一种信息抽取方法,具体地,可以从文本中先找出含有所需信息的语句,然后运用规则或者人工方法抽取信息,是信息抽取的一种折衷手段。
但是,上述方法虽然能够实现信息的快速抽取时,但是往往存在以下问题:1、识别的信息语句,可能包含不明确的信息,包括以下几种情况:信息是不确定的、不详尽的、或者语句中的代词指代不明。例如:“李白可能出生于四川。”,所述的信息是不确定的;“李白在幼年曾多次随父迁徙。”,迁徙的时间、地点等信息未说明,因此所述的信息是不详尽的;“该人在当天参加了组织会议。”,其中的“该人”和“当天”等代词的指代信息不确定。2、识别的信息语句,可能包含无价值的信息。例如:“士兵王晓在5月30日的战斗中逃跑了。”,该事件的主体“士兵王晓”可能不是我们关心的实体。因此,抽取到的信息质量参差不齐,且部分信息为无用信息。
发明内容
本发明提供一种信息质量评估方法、装置、设备及计算机可读存储介质,用于解决现有的信息抽取方法造成的信息抽取质量较低的技术问题。
本发明的第一个方面是提供一种信息质量评估方法,包括:
确定待评估语句;
通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;
对所述判别后的待评估语句的语句价值进行评估,获得评估结果;
根据所述评估结果对所述待评估语句进行信息抽取。
本发明的另一个方面是提供一种信息质量评估装置,包括:
待评估语句确定模块,用于确定待评估语句;
判别模块,用于通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;
评估模块,用于对所述判别后的待评估语句的语句价值进行评估,获得评估结果;
抽取模块,用于根据所述评估结果对所述待评估语句进行信息抽取。
本发明的又一个方面是提供一种信息质量评估设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如上述的信息质量评估方法。
本发明的又一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的信息质量评估方法。
本发明提供的信息质量评估方法、装置、设备及计算机可读存储介质,通过确定待评估语句;通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;对所述判别后的待评估语句的语句价值进行评估,获得评估结果;根据所述评估结果对所述待评估语句进行信息抽取。从而能够提高抽取到的待评估语句的信息质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的信息质量评估方法的流程示意图;
图2为本发明实施例二提供的信息质量评估方法的流程示意图;
图3为本发明实施例三提供的信息质量评估方法的流程示意图;
图4为本发明实施例四提供的信息质量评估装置的结构示意图;
图5为本发明实施例五提供的信息质量评估装置的结构示意图;
图6为本发明实施例六提供的信息质量评估装置的结构示意图;
图7为本发明实施例七提供的信息质量评估设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的信息质量评估方法的流程示意图,如图1所示,所述方法包括:
步骤101、确定待评估语句。
在本实施方式中,由于待评估文本中往往包括很多备注、引用等,因此,一段待评估文本中的内容不完全是需要评估的语句,为了提高语句质量评估的效率,首先,可以从待评估文本中确定当前的待评估语句。
步骤102、通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句。
在本实施方式中,由于部分语句中包括可能、大概、未必等含义不明确的词语,因此,包含上述词语的语句的含义也不够明确,若抽取出来的语句包括上述词语,则该语句质量较低。因此,为了进一步地提高待评估语句的信息质量,可以首先对待评估语句的明确度进行判别。具体地,确定了待评估文本中的待评估语句之后,可以将待评估语句添加至预设的神经网络模型中,通过该神经网络模型对该待评估语句的明确度进行判别,获得含义明确的待评估语句或含义不明确的待评估语句,即判别后的待评估语句。
步骤103、对所述判别后的待评估语句的语句价值进行评估,获得评估结果。
在本实施方式中,通过预设的神经网络模型对待评估语句的明确度进行判别之后,可以对判别后的待评估语句的语句价值进行进一步地分析。举例来说,“李白在幼年曾多次随父迁徙。”,迁徙的时间、地点等信息未说明,因此所述的信息是不详尽的;“该人在当天参加了组织会议。”,其中的“该人”和“当天”等代词的指代信息不确定。识别的信息语句,可能包含无价值的信息;“士兵王晓在5月30日的战斗中逃跑了。”,该事件的主体“士兵王晓”可能不是我们关心的实体。因此,若待评估语句中包含实体或者事件类词语不够清晰的话,那么待评估语句的语句价值也较低。因此,为了进一步地提高待评估语句的语句质量,可以对判别后的待评估语句的语句价值进行进一步地分析,获得具有明确的而且有价值的待评估语句或具有明确的但是无价值的待评估语句或具有不明确的但是有价值的待评估语句或具有不明确的而且无价值的待评估语句,即评估结果。
步骤104、根据所述评估结果对所述待评估语句进行信息抽取。
在本实施方式中,获取到待评估语句的评估结果之后,可以根据评估结果抽取质量较高的待评估语句,例如,抽取获得具有明确的而且有价值的待评估语句,从而能够保证抽到的信息均为有效信息。
作为一种可以实施的方式,一方面可以在对待评估语句评估完毕,获得评估结果之后进行信息抽取,另一方面,也可以首先对待评估文本进行去噪、分词等处理,获得处理后的待评估文本,对处理后的待评估文本进行信息抽取,获得多个抽取后的待评估语句。对抽取后的待评估语句进行质量评估,并根据评估结果选择质量较高的待评估语句进行保留。可以根据具体情况选择信息抽取的方式,本发明在此不做限制。
本实施例提供的信息质量评估方法,通过确定待评估语句;通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;对所述判别后的待评估语句的语句价值进行评估,获得评估结果;根据所述评估结果对所述待评估语句进行信息抽取。从而能够提高抽取到的待评估语句的信息质量。
进一步地,在上述实施例的基础上,所述方法包括:
确定待评估语句;
通过预设的已对语句明确度进行标注后的待训练文本对预设的待训练模型进行训练,获得所述预设的神经网络模型;
通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;
对所述判别后的待评估语句的语句价值进行评估,获得评估结果;
根据所述评估结果对所述待评估语句进行信息抽取。
在本实施例中,在待评估文本中确定待评估语句之后,首先需要建立用于对待评估语句进行明确度判别的神经网络模型。具体地,可以通过预设的已经对语句明确度进行标注的大量待训练文本对预设的待训练模型进行训练,将已经对语句明确度进行标注的大量待训练文本随机分为测试集与训练集,根据训练结果不断调整待训练模型的参数,最后获得预设的神经网络模型。将待评估语句添加至预设的神经网络模型中,通过该神经网络模型对该待评估语句的明确度进行判别,获得含义明确的待评估语句或含义不明确的待评估语句,即判别后的待评估语句。对判别后的待评估语句的语句价值进行进一步地分析,获得具有明确的而且有价值的待评估语句或具有明确的但是无价值的待评估语句或具有不明确的但是有价值的待评估语句或具有不明确的而且无价值的待评估语句,即评估结果,并根据评估结果抽取质量较高的待评估语句。
本实施例提供的信息质量评估方法,通过预先根据预设的已对语句明确度进行标注后的待训练文本对预设的待训练模型进行训练,获得所述预设的神经网络模型,从而能够为后续待评估语句的评估提供基础,进而为提高抽取到的待评估语句的信息质量提供了基础。
进一步地,在上述任一实施例的基础上,所述方法包括:
接收待评估文本;
去除所述待评估文本中除正文部分以外的全部文本;
将所述待评估文本中的正文部分按照文本中的标点符号进行分割,获得所述待评估语句;
通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;
对所述判别后的待评估语句的语句价值进行评估,获得评估结果;
根据所述评估结果对所述待评估语句进行信息抽取。
在本实施例中,由于待评估文本中往往包括很多备注、引用等,因此,一段待评估文本中的内容不完全是需要评估的语句,而对包括非必要信息的待评估文本进行分析往往较为耗费时间,为了提高语句质量评估的效率,首先,可以从待评估文本中确定当前的待评估语句。具体地,首先接收待评估文本,对待评估文本进行去噪处理,即去除待评估文本中除正文以外的全部标题、备注、引用等信息。由于对全部的正文部分进行评估耗费时间较长,因此,为了进一步地提高对待评估语句的评估效率,在对该待评估文本进行去噪处理之后,还可以对处理后的待评估文本进行分词处理,即针对正文部分,按照正文中的标点符号对正文部分进行分句,具体地,可以以句号、感叹号、分号等标点符号作为句子的结束符进行分句。
本实施例提供的信息质量评估方法,通过对待评估文本进行去噪与分词处理,从而能够提高待评估语句的评估效率,进而能够为提高抽取到的待评估语句的信息质量提供了基础。
图2为本发明实施例二提供的信息质量评估方法的流程示意图,在上述任一实施例的基础上,如图2所示,所述方法包括:
步骤201、确定待评估语句;
步骤202、获取待处理文本,所述待处理文本中包含多个待处理语句;
步骤203、根据预设的不确定语义词库判断每一所述待处理语句中是否包括不确定语义词,根据判断结果对所述待处理语句的明确度进行标注,获得已对语句明确度进行标注后的待训练文本;和/或,
步骤204、针对每一待处理语句,判断所述待处理语句中的实体信息的含义是否明确,根据判断结果对所述待处理语句的明确度进行标注,获得已对语句明确度进行标注后的待训练文本;和/或,
步骤205、针对每一待处理语句,通过语义分析技术判断所述待处理语句前后预设个数的待处理语句中是否包含所述待处理语句中指代词对应的指代对象,根据判断结果对所述待处理语句的明确度进行标注,获得已对语句明确度进行标注后的待训练文本;
步骤206、通过预设的已对语句明确度进行标注后的待训练文本对预设的待训练模型进行训练,获得所述预设的神经网络模型;
步骤207、通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;
步骤208、对所述判别后的待评估语句的语句价值进行评估,获得评估结果;
步骤209、根据所述评估结果对所述待评估语句进行信息抽取。
在本实施例中,在待评估文本中确定待评估语句之后,首先需要建立用于对待评估语句进行明确度判别的神经网络模型。具体地,可以通过预设的已经对语句明确度进行标注的大量待训练文本对预设的待训练模型进行训练,将已经对语句明确度进行标注的大量待训练文本随机分为测试集与训练集,根据训练结果不断调整待训练模型的参数,最后获得预设的神经网络模型。因此,在对待训练模型进行训练之前,首先应该获得已经对语句明确度进行标注的大量待训练文本。
具体地,可以接收待训练文本,其中,待训练文本中包括多个待训练语句。可以理解的是,若待评估语句中包含可能、大概、也许等不确定语义的词语,则该待评估语句的明确度不高,因此,可以根据预先建立的不确定语义词库与语义评估技术判断当前每一待训练语句中是否包含不确定语义词语,并根据判断结果对待训练语句的明确度进行标注。具体地,若待训练语句中包含不确定语义词语,则将该待训练语句标注为不明确的待训练语句,若不包括,则将该语句标注为明确的待训练语句,获得已对语句明确度进行标注后的待训练文本。需要说明的是,该预设的不确定语义词库可以采用任意一种词库建立方式进行建立,本发明在此不做限制。
作为一种可以实施的方式,可以理解的是,若一个待评估语句中的实体含义不清楚,则可以确定该待评估语句明确度不高。其中,实体可以为待评估语句中的时间、地点、任务等信息。举例来说,“李白在幼年曾多次随父迁徙。”,迁徙的时间、地点等信息未说明,因此所述的信息是不明确的。因此,针对每一待训练语句,确定该待训练语句中的实体信息,并判断该实体信息是否含义清楚,并根据判断判断结果对待训练语句的明确度进行标注。具体地,若待训练语句中实体含义不清楚,则将该待训练语句标注为不明确的待训练语句,若待训练语句中实体含义清楚,则将该语句标注为明确的待训练语句,获得已对语句明确度进行标注后的待训练文本。
作为一种可以实施的方式,可以理解的是,若一个待评估语句中包括指代词,如某人、某个时间等指代词,则可以确定该待评估语句明确度不高。举例来说,“该人在当天参加了组织会议。”,其中的“该人”和“当天”等代词的指代信息不确定。因此,针对每一待训练语句,可以通过语义分析技术判断该待训练语句前后预设个数的待训练语句中是否包含该指代词对应的指代对象,并根据判断结果对待训练语句的明确度进行标注。具体地,若待训练语句上下文中不包括指代词对应的指代对象,则将该待训练语句标注为不明确的待训练语句,若待训练语句上下文中包括指代词对应的指代对象,则将该语句标注为明确的待训练语句,获得已对语句明确度进行标注后的待训练文本。
需要说明的是,上述三个实施例可以如上述实施例中所述分别执行,也可以结合实施。具体地,结合实施过程中,可以根据待训练语句中是否包含不确定语义词、待训练语句中的实体信息是否明确以及待训练语句的上下文中是否包括指代词的指代对象三个部分来对待训练语句的明确度进行标注。
将标注后的待训练语句添加至待训练模型中对待训练模型训练,获得训练后的神经网络模型,通过该神经网络模型对该待评估语句的明确度进行判别,获得含义明确的待评估语句或含义不明确的待评估语句,即判别后的待评估语句。对判别后的待评估语句的语句价值进行进一步地分析,获得具有明确的而且有价值的待评估语句或具有明确的但是无价值的待评估语句或具有不明确的但是有价值的待评估语句或具有不明确的而且无价值的待评估语句,即评估结果,并根据评估结果抽取质量较高的待评估语句。
本实施例提供的信息质量评估方法,通过多种方式对待训练文本的明确度进行标注,并根据标注后的待训练文本实现对待训练模型的训练,从而能够提高对待评估语句明确度的判别能力,进而能够为提高抽取到的待评估语句的信息质量提供了基础。
图3为本发明实施例三提供的信息质量评估方法的流程示意图,在上述任一实施例的基础上,如图3所示,所述方法包括:
步骤301、确定待评估语句;
步骤302、通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;
步骤303、根据关键词提取技术与命名实体识别技术确定所述待评估语句所属待评估文本中的关键实体;
步骤304、根据关键词提取技术与远监督方法确定所述待评估语句所属待评估文本中的事件类词语;
步骤305、针对每一所述待评估语句,通过语法分析技术,确定所述待评估语句中的主语与谓语,确定所述主语是否为所述关键实体,确定所述谓语是否为所述事件类词语;
步骤306、若是,则判定所述待评估语句的语句价值较高,获得所述评估结果;
步骤307、根据所述评估结果对所述待评估语句进行信息抽取。
在本实施例中,确定待评估语句,通过该神经网络模型对该待评估语句的明确度进行判别,获得含义明确的待评估语句或含义不明确的待评估语句,即判别后的待评估语句。对判别后的待评估语句的语句价值进行进一步地分析。具体地,首先可以根据关键词提取技术与命名实体识别技术确定待评估语句所属的待评估文本中的关键实体,其中,关键实体为待评估文本中较为重要的主体,举例来说,若待评估文本为讲述拿破仑生平的文本,则关键实体可以为拿破仑、法国、厄尔巴岛等。并根据关键词提取技术与远监督方法确定待评估语句所属待评估文本中的事件类词语,举例来说,出生事件的相关词语是生于、诞生等。确定关键实体与事件类词语之后,针对每一个待评估语句,根据句法分析技术,确定待评估语句中的主语和谓语,判断该主语是否为关键主题,并且判断该谓语是否为事件类词语,若是,则判定该待评估语句价值较高,获得评估结果,并根据评估结果进行信息抽取。
本实施例提供的信息质量评估方法,通过确定关键实体与事件类词语,并判断待评估语句中的主语是否为关键实体,谓语是否为事件类词语,从而能够对待评估语句的语句价值进行判断,进而能够确定待评估语句的质量。
图4为本发明实施例四提供的信息质量评估装置的结构示意图,如图4所示,所述装置包括:
待评估语句确定模块41,用于确定待评估语句。
判别模块42,用于通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句。
评估模块43,用于对所述判别后的待评估语句的语句价值进行评估,获得评估结果。
抽取模块44,用于根据所述评估结果对所述待评估语句进行信息抽取。
本实施例提供的信息质量评估装置,通过确定待评估语句;通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;对所述判别后的待评估语句的语句价值进行评估,获得评估结果;根据所述评估结果对所述待评估语句进行信息抽取。从而能够提高抽取到的待评估语句的信息质量。
进一步地,在上述实施例的基础上,所述装置包括:
待评估语句确定模块,用于确定待评估语句;
训练模块,用于通过预设的已对语句明确度进行标注后的待训练文本对预设的待训练模型进行训练,获得所述预设的神经网络模型;
判别模块,用于通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;
评估模块,用于对所述判别后的待评估语句的语句价值进行评估,获得评估结果;
抽取模块,用于根据所述评估结果对所述待评估语句进行信息抽取。
本实施例提供的信息质量评估装置,通过预先根据预设的已对语句明确度进行标注后的待训练文本对预设的待训练模型进行训练,获得所述预设的神经网络模型,从而能够为后续待评估语句的评估提供基础,进而为提高抽取到的待评估语句的信息质量提供了基础。
进一步地,在上述任一实施例的基础上,所述装置包括:
待评估语句确定模块具体包括:
待评估文本接收单元,用于接收待评估文本;
去除单元,用于去除所述待评估文本中除正文部分以外的全部文本;
分割模块,用于将所述待评估文本中的正文部分按照文本中的标点符号进行分割,获得所述待评估语句;
判别模块,用于通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;
评估模块,用于对所述判别后的待评估语句的语句价值进行评估,获得评估结果;
抽取模块,用于根据所述评估结果对所述待评估语句进行信息抽取。
本实施例提供的信息质量评估装置,通过对待评估文本进行去噪与分词处理,从而能够提高待评估语句的评估效率,进而能够为提高抽取到的待评估语句的信息质量提供了基础。
图5为本发明实施例五提供的信息质量评估装置的结构示意图,在上述任一实施例的基础上,如图5所示,所述装置包括:
待评估语句确定模块51,用于确定待评估语句;
待处理文本获取模块52,用于获取待处理文本,所述待处理文本中包含多个待处理语句;
第一标注模块53,用于根据预设的不确定语义词库判断每一所述待处理语句中是否包括不确定语义词,根据判断结果对所述待处理语句的明确度进行标注,获得已对语句明确度进行标注后的待训练文本;和/或,
第二标注模块54,用于针对每一待处理语句,判断所述待处理语句中的实体信息的含义是否明确,根据判断结果对所述待处理语句的明确度进行标注,获得已对语句明确度进行标注后的待训练文本;和/或,
第三标注模块55,用于针对每一待处理语句,通过语义分析技术判断所述待处理语句前后预设个数的待处理语句中是否包含所述待处理语句中指代词对应的指代对象,根据判断结果对所述待处理语句的明确度进行标注,获得已对语句明确度进行标注后的待训练文本;
训练模块56,用于通过预设的已对语句明确度进行标注后的待训练文本对预设的待训练模型进行训练,获得所述预设的神经网络模型;
判别模块57,用于通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;
评估模块58,用于对所述判别后的待评估语句的语句价值进行评估,获得评估结果;
抽取模块59,用于根据所述评估结果对所述待评估语句进行信息抽取。
本实施例提供的信息质量评估装置,通过多种方式对待训练文本的明确度进行标注,并根据标注后的待训练文本实现对待训练模型的训练,从而能够提高对待评估语句明确度的判别能力,进而能够为提高抽取到的待评估语句的信息质量提供了基础。
图6为本发明实施例六提供的信息质量评估装置的结构示意图,在上述任一实施例的基础上,如图6所示,所述装置包括:
待评估语句确定模块61,用于确定待评估语句;
判别模块62,用于通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;
评估模块63具体包括:
关键实体确定单元601,用于根据关键词提取技术与命名实体识别技术确定所述待评估语句所属待评估文本中的关键实体;
事件类词语确定单元602,用于根据关键词提取技术与远监督方法确定所述待评估语句所属待评估文本中的事件类词语;
确定单元603,用于针对每一所述待评估语句,通过语法分析技术,确定所述待评估语句中的主语与谓语,确定所述主语是否为所述关键实体,确定所述谓语是否为所述事件类词语;
判定单元604,用于若是,则判定所述待评估语句的语句价值较高,获得所述评估结果;
抽取模块64,用于根据所述评估结果对所述待评估语句进行信息抽取。
本实施例提供的信息质量评估装置,通过确定关键实体与事件类词语,并判断待评估语句中的主语是否为关键实体,谓语是否为事件类词语,从而能够对待评估语句的语句价值进行判断,进而能够确定待评估语句的质量。
图7为本发明实施例七提供的信息质量评估设备的结构示意图,如图7所示,所述设备包括:存储器71,处理器72;
存储器71;用于存储所述处理器72可执行指令的存储器71;
其中,所述处理器72被配置为由所述处理器72执行如上述的信息质量评估方法。
本发明又一实施例还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的信息质量评估方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种信息质量评估方法,其特征在于,包括:
确定待评估语句;
通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;
对所述判别后的待评估语句的语句价值进行评估,获得评估结果;
根据所述评估结果对所述待评估语句进行信息抽取。
2.根据权利要求1所述的方法,其特征在于,所述通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句之前,还包括:
通过预设的已对语句明确度进行标注后的待训练文本对预设的待训练模型进行训练,获得所述预设的神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述通过预设的已对语句明确度进行标注后的待训练文本对预设的待训练模型进行训练,获得所述预设的神经网络模型之前,还包括:
获取待处理文本,所述待处理文本中包含多个待处理语句;
根据预设的不确定语义词库判断每一所述待处理语句中是否包括不确定语义词,根据判断结果对所述待处理语句的明确度进行标注,获得已对语句明确度进行标注后的待训练文本;和/或,
针对每一待处理语句,判断所述待处理语句中的实体信息的含义是否明确,根据判断结果对所述待处理语句的明确度进行标注,获得已对语句明确度进行标注后的待训练文本;和/或,
针对每一待处理语句,通过语义分析技术判断所述待处理语句前后预设个数的待处理语句中是否包含所述待处理语句中指代词对应的指代对象,根据判断结果对所述待处理语句的明确度进行标注,获得已对语句明确度进行标注后的待训练文本。
4.根据权利要求1所述的方法,其特征在于,所述确定待评估语句,包括:
接收待评估文本;
去除所述待评估文本中除正文部分以外的全部文本;
将所述待评估文本中的正文部分按照文本中的标点符号进行分割,获得所述待评估语句。
5.根据权利要求1所述的方法,其特征在于,所述对所述判别后的待评估语句的语句价值进行评估,获得评估结果,包括:
根据关键词提取技术与命名实体识别技术确定所述待评估语句所属待评估文本中的关键实体;
根据关键词提取技术与远监督方法确定所述待评估语句所属待评估文本中的事件类词语;
针对每一所述待评估语句,通过语法分析技术,确定所述待评估语句中的主语与谓语,确定所述主语是否为所述关键实体,确定所述谓语是否为所述事件类词语;
若是,则判定所述待评估语句的语句价值较高,获得所述评估结果。
6.一种信息质量评估装置,其特征在于,包括:
待评估语句确定模块,用于确定待评估语句;
判别模块,用于通过预设的神经网络模型对所述待评估语句的明确度进行判别,获得判别后的待评估语句;
评估模块,用于对所述判别后的待评估语句的语句价值进行评估,获得评估结果;
抽取模块,用于根据所述评估结果对所述待评估语句进行信息抽取。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
训练模块,用于通过预设的已对语句明确度进行标注后的待训练文本对预设的待训练模型进行训练,获得所述预设的神经网络模型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
待处理文本获取模块,用于获取待处理文本,所述待处理文本中包含多个待处理语句;
第一标注模块,用于根据预设的不确定语义词库判断每一所述待处理语句中是否包括不确定语义词,根据判断结果对所述待处理语句的明确度进行标注,获得已对语句明确度进行标注后的待训练文本;和/或,
第二标注模块,用于针对每一待处理语句,判断所述待处理语句中的实体信息的含义是否明确,根据判断结果对所述待处理语句的明确度进行标注,获得已对语句明确度进行标注后的待训练文本;和/或,
第三标注模块,用于针对每一待处理语句,通过语义分析技术判断所述待处理语句前后预设个数的待处理语句中是否包含所述待处理语句中指代词对应的指代对象,根据判断结果对所述待处理语句的明确度进行标注,获得已对语句明确度进行标注后的待训练文本。
9.一种信息质量评估设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如权利要求1-5任一项所述的信息质量评估方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至5任一项所述的信息质量评估方法。
CN201810938623.1A 2018-08-17 2018-08-17 信息质量评估方法、装置、设备及计算机可读存储介质 Expired - Fee Related CN110889274B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810938623.1A CN110889274B (zh) 2018-08-17 2018-08-17 信息质量评估方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810938623.1A CN110889274B (zh) 2018-08-17 2018-08-17 信息质量评估方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110889274A true CN110889274A (zh) 2020-03-17
CN110889274B CN110889274B (zh) 2022-02-08

Family

ID=69744220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810938623.1A Expired - Fee Related CN110889274B (zh) 2018-08-17 2018-08-17 信息质量评估方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110889274B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522914A (zh) * 2020-04-20 2020-08-11 北大方正集团有限公司 标注数据采集方法、装置、电子设备及存储介质
CN112818677A (zh) * 2021-02-22 2021-05-18 康美健康云服务有限公司 一种基于互联网的信息评估方法及系统
CN114492409A (zh) * 2022-01-27 2022-05-13 百度在线网络技术(北京)有限公司 文件内容的评价方法、装置、电子设备及程序产品

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置
CN102207948A (zh) * 2010-07-13 2011-10-05 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN103699689A (zh) * 2014-01-09 2014-04-02 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
CN104050294A (zh) * 2014-06-30 2014-09-17 北京奇虎科技有限公司 互联网稀有资源的挖掘方法及装置
US20160162806A1 (en) * 2014-12-03 2016-06-09 Educational Testing Service Computer-Implemented Systems and Methods for Generating a Supervised Model for Lexical Cohesion Detection
CN106294619A (zh) * 2016-08-01 2017-01-04 上海交通大学 舆情智能监管方法
CN106294330A (zh) * 2015-05-11 2017-01-04 清华大学 一种科技文本挑选方法及装置
CN107133212A (zh) * 2017-05-05 2017-09-05 北京大学 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN107193805A (zh) * 2017-06-06 2017-09-22 北京百度网讯科技有限公司 基于人工智能的文章价值评估方法、装置及存储介质
CN108363790A (zh) * 2018-02-12 2018-08-03 百度在线网络技术(北京)有限公司 用于对评论进行评估的方法、装置、设备和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096680A (zh) * 2009-12-15 2011-06-15 北京大学 信息有效性分析的方法和装置
CN102207948A (zh) * 2010-07-13 2011-10-05 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法
CN103678281A (zh) * 2013-12-31 2014-03-26 北京百度网讯科技有限公司 对文本进行自动标注的方法和装置
CN103699689A (zh) * 2014-01-09 2014-04-02 百度在线网络技术(北京)有限公司 事件知识库的构建方法及装置
CN104050294A (zh) * 2014-06-30 2014-09-17 北京奇虎科技有限公司 互联网稀有资源的挖掘方法及装置
US20160162806A1 (en) * 2014-12-03 2016-06-09 Educational Testing Service Computer-Implemented Systems and Methods for Generating a Supervised Model for Lexical Cohesion Detection
CN106294330A (zh) * 2015-05-11 2017-01-04 清华大学 一种科技文本挑选方法及装置
CN106294619A (zh) * 2016-08-01 2017-01-04 上海交通大学 舆情智能监管方法
CN107133212A (zh) * 2017-05-05 2017-09-05 北京大学 一种基于集成学习和词句综合信息的文本蕴涵识别方法
CN107193805A (zh) * 2017-06-06 2017-09-22 北京百度网讯科技有限公司 基于人工智能的文章价值评估方法、装置及存储介质
CN108363790A (zh) * 2018-02-12 2018-08-03 百度在线网络技术(北京)有限公司 用于对评论进行评估的方法、装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
奚雪峰 等: "汉语篇章微观话题结构建模与语料库构建", 《计算机研究与发展》 *
廖莉莉: "本体质量评估方法研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522914A (zh) * 2020-04-20 2020-08-11 北大方正集团有限公司 标注数据采集方法、装置、电子设备及存储介质
CN111522914B (zh) * 2020-04-20 2023-05-12 北大方正集团有限公司 标注数据采集方法、装置、电子设备及存储介质
CN112818677A (zh) * 2021-02-22 2021-05-18 康美健康云服务有限公司 一种基于互联网的信息评估方法及系统
CN114492409A (zh) * 2022-01-27 2022-05-13 百度在线网络技术(北京)有限公司 文件内容的评价方法、装置、电子设备及程序产品

Also Published As

Publication number Publication date
CN110889274B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN110245496B (zh) 一种源代码漏洞检测方法及检测器和其训练方法及系统
CN110889274B (zh) 信息质量评估方法、装置、设备及计算机可读存储介质
CN110555206A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN110516203B (zh) 争议焦点分析方法、装置、电子设备及计算机可存储介质
CN113590764B (zh) 训练样本构建方法、装置、电子设备和存储介质
CN111143531A (zh) 一种问答对构建方法、系统、装置及计算机可读存储介质
CN110728117A (zh) 基于机器学习和自然语言处理的段落自动识别方法及系统
CN113821605A (zh) 一种事件抽取方法
CN111444718A (zh) 一种保险产品需求文档处理方法、装置及电子设备
CN108845992B (zh) 计算机可读存储介质及问答交互方法
CN111090755B (zh) 一种文本关联关系判别方法及存储介质
CN110866389B (zh) 信息价值评估方法、装置、设备及计算机可读存储介质
CN111831792A (zh) 一种电力知识库构建方法及系统
CN109558580B (zh) 一种文本分析方法及装置
CN112115237B (zh) 烟草科技文献数据推荐模型的构建方法及装置
CN110889289B (zh) 信息明确度评估方法、装置、设备及计算机可读存储介质
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
CN110019772B (zh) 一种文本情绪分类方法及系统
Walker The need for annotated corpora from legal documents, and for (Human) protocols for creating them: the attribution problem
CN113673255B (zh) 文本功能区域拆分方法、装置、计算机设备及存储介质
CN114519357B (zh) 基于机器学习的自然语言处理方法和系统
CN115687334B (zh) 数据质检方法、装置、设备及存储介质
CN110427615B (zh) 一种基于注意力机制的金融事件修饰时态的分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230608

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220208