CN110866389A - 信息价值评估方法、装置、设备及计算机可读存储介质 - Google Patents

信息价值评估方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110866389A
CN110866389A CN201810938631.6A CN201810938631A CN110866389A CN 110866389 A CN110866389 A CN 110866389A CN 201810938631 A CN201810938631 A CN 201810938631A CN 110866389 A CN110866389 A CN 110866389A
Authority
CN
China
Prior art keywords
evaluated
text
key
information
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810938631.6A
Other languages
English (en)
Other versions
CN110866389B (zh
Inventor
谢海华
陈雪飞
佟津乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Original Assignee
Peking University Founder Information Industry Group Co Ltd
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Information Industry Group Co Ltd, Peking University Founder Group Co Ltd filed Critical Peking University Founder Information Industry Group Co Ltd
Priority to CN201810938631.6A priority Critical patent/CN110866389B/zh
Publication of CN110866389A publication Critical patent/CN110866389A/zh
Application granted granted Critical
Publication of CN110866389B publication Critical patent/CN110866389B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种信息价值评估方法、装置、设备及计算机可读存储介质,方法包括:接收待评估文本,所述待评估文本中包括至少一个待评估语句;确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称,根据预先建立的知识数据库确定信息类型词语;针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。通过预先对待评估文本的信息价值进行评估,并根据评估结果进行信息抽取,从而能够提高抽取到的信息的价值。

Description

信息价值评估方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及信息检索和文本信息处理领域,尤其涉及一种信息价值评估方法、装置、设备及计算机可读存储介质。
背景技术
从非结构化文本中抽取信息,即信息抽取,是文本信息处理领域的基础任务之一,具体地,抽取的信息可以包括实体属性、实体关系以及时间等。此外,信息抽取还是很多自然语言处理高级任务的前提,其中,高级任务包括智能问答,机器写作,文本阅读理解等。从文本中提取出含有所需信息的语句,是信息抽取的前提工作。在很多场景中,从文本中直接抽取信息,存在准确率低、训练成本高、容错率低等缺点。因此,如何提高信息抽取的准确性成为亟待解决的问题。
为了提高信息抽取的准确性,现有技术中提出一种信息抽取方法,具体地,可以从文本中先找出含有所需信息的语句,然后运用规则或者人工方法抽取信息,是信息抽取的一种折衷手段。
但是,上述方法虽然能够实现信息的快速抽取时,但是往往存在以下问题:1、识别的信息语句,其中的信息实体不是我们关心的,例如:“士兵王晓在5月20日的战斗中逃跑了。”,其中的“士兵王晓”如果不是我们关心的对象,则该信息是没有价值的;2、识别的信息语句,其中的信息类型是不重要的,例如:“李明稍作休息之后就出门了”,其中的信息类型“休息”、“出门”都是不重要的。因此,抽取到的价值质量参差不齐,且部分信息为无用信息。
发明内容
本发明提供一种信息价值评估方法、装置、设备及计算机可读存储介质,用于解决现有技术中直接进行信息抽取造成的信息价值较低的技术问题。
本发明的第一个方面是提供一种信息价值评估方法,包括:
接收待评估文本,所述待评估文本中包括至少一个待评估语句;
确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称,根据预先建立的知识数据库确定信息类型词语;
针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;
根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
本发明的另一个方面是提供一种信息价值评估装置,包括:
待评估文本接收模块,用于接收待评估文本,所述待评估文本中包括至少一个待评估语句;
关键实体确定模块,用于确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称,根据预先建立的知识数据库确定信息类型词语;
判断模块,用于针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;
评估模块,用于根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
本发明的又一个方面是提供一种信息价值评估设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如上述的信息价值评估方法。
本发明的又一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的信息价值评估方法。
本发明提供的信息价值评估方法、装置、设备及计算机可读存储介质,通过接收待评估文本,所述待评估文本中包括至少一个待评估语句;确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称,根据预先建立的知识数据库确定信息类型词语;针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。通过预先对待评估文本的信息价值进行评估,并根据评估结果进行信息抽取,从而能够提高抽取到的信息的价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的信息价值评估方法的流程示意图;
图2为本发明实施例二提供的信息价值评估方法的流程示意图;
图3为本发明实施例三提供的信息价值评估方法的流程示意图;
图4为本发明实施例四提供的信息价值评估装置的结构示意图;
图5为本发明实施例五提供的信息价值评估装置的结构示意图;
图6为本发明实施例六提供的信息价值评估装置的结构示意图;
图7为本发明实施例七提供的信息价值评估设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的信息价值评估方法的流程示意图,如图1所示,所述方法包括:
步骤101、接收待评估文本,所述待评估文本中包括至少一个待评估语句。
在本实施方式中,现有的信息抽取方法虽然能够实现信息的快速抽取,但是抽取的信息语句,其中的信息实体不是我们关心的、抽取的信息语句,其中的信息类型是不重要的,因此,抽取到的价值质量参差不齐,且部分信息为无用信息。为了解决上述技术问题,首先可以对带抽取的文本进行价值评估。具体地,可以接收待评估文本,其中,待评估文本中包括多个待评估语句。
步骤102、确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称,根据预先建立的知识数据库确定信息类型词语。
在本实施方式中,可以理解的是,每一个待评估文本都应该存在关键实体,其中关键实体包括关键主语、关键客体以及常见别称等,举例来说,若当前的待评估文本为乔布斯的传记,则关键实体可以为乔布斯。此外,除关键实体以外,一个待评估文本中还应包括较为重要的信息类型词语,举例来说,信息类型词语可以包括出生于、从事等表示词语。因此,为了实现对待评估文本信息价值的评估,接收待评估文本之后,首先可以确定待评估文本中的关键实体,并可以根据预先建立的知识数据库确定信息类型词语。
步骤103、针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语。
在本实施方式中,一般的语句均包括主语、谓语、宾语,因此,针对每一个待评估文本,确定该待评估文本的关键主体与信息类型词语之后,可以通过句法分析技术确定待评估语句中的主语与谓语,并判断该主语是否为关键实体、谓语是否为信息类型词语。可选地,可以采用任意一种方式对待评估语句中的主语与谓语进行识别,本发明在此不做限制。
步骤104、根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施方式中,通过句法分析技术确定待评估语句中的主语与谓语之后,若判断结果为该待评估文本中的待评估语句的主语为关键主体、谓语为信息类词语,则该待评估语句的信息价值较高;若判断结果为该待评估语句的主语为非关键主体、谓语为信息类型词语,则该待评估语句可能中的信息并非是我们想要获取的,也即该待评估语句的信息价值较低;如判断结果为该待评估语句的主语为非关键主体、谓语为非信息类型词语,则表征该待评估语句无抽取价值。因此,可以根据判断结果实现对待评估语句的信息抽取。作为一种可以实施的方式,可以首先对待评估文本进行信息抽取,并对抽取后的信息进行价值评估,根据评估结果对抽取的信息进行二次筛选。可以根据实际应用对信息抽取的顺序进行调整,本发明在此不做限制。
本实施例提供的信息价值评估方法,通过接收待评估文本,所述待评估文本中包括至少一个待评估语句;确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称,根据预先建立的知识数据库确定信息类型词语;针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。通过预先对待评估文本的信息价值进行评估,并根据评估结果进行信息抽取,从而能够提高抽取到的信息的价值。
进一步地,在上述实施例的基础上,所述方法包括:
接收待处理文本;
去除所述待处理文本中除正文部分以外的全部文本;
将所述待处理文本中的正文部分按照所述待处理文本中的标点符号进行分割,获得包括至少一个待评估语句的待评估文本;
确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称,根据预先建立的知识数据库确定信息类型词语;
针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;
根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,接收待处理文本,由于待处理文本中往往包括很多备注、引用等,因此,一段待处理文本中的内容不完全是需要评估的语句,而对包括非必要信息的待处理文本进行分析往往较为耗费时间,为了提高语句质量评估的效率,首先,可以从待处理文本中确定当前的待评估文本。具体地,首先接收待处理文本,对待处理文本进行去噪处理,即去除待处理文本中除正文以外的全部标题、备注、引用等信息。由于对全部的正文部分进行评估耗费时间较长,因此,为了进一步地提高对待处理文本的评估效率,在对该待处理文本进行去噪处理之后,还可以对处理后的待处理文本进行分词处理,即针对正文部分,按照正文中的标点符号对正文部分进行分句,具体地,可以以句号、感叹号、分号等标点符号作为句子的结束符进行分句,获得包括至少一个待评估语句的待评估文本。
本实施例提供的信息价值评估方法,通过接收待处理文本,并对待处理文本进行去噪与分词的步骤,获得包括至少一个待评估语句的待评估文本,从而能够提高对待评估文本信息价值评估的效率,进而能够为提高抽取到的待评估语句的信息价值提供了基础。
图2为本发明实施例二提供的信息价值评估方法的流程示意图,在上述任一实施例的基础上,如图2所示,所述方法包括:
步骤201、接收待评估文本,所述待评估文本中包括至少一个待评估语句;
步骤202、通过对所述待评估文本进行词性分析,确定所述待评估文本中的主语;
步骤203、根据关键词分析技术确定所述待评估文本中的主语中的关键主语;
步骤204、将与所述关键主语一同出现次数超过预设的阈值的词语以及预设的重要词语作为关键客体;
步骤205、根据预设的知识库确定所述关键主体与所述关键客体的常见别称;
步骤206、根据预先建立的知识数据库确定信息类型词语;
步骤207、针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;
步骤208、根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,为了实现对待评估文本信息价值的评估,接收待评估文本之后,首先可以确定待评估文本中的关键实体,并可以根据预先建立的知识数据库确定信息类型词语。具体地,可以集与词性分析和命名实体分析,确定待评估语句中的主语,其中,待评估语句中的主语可以是人名或者机构名,举例来说,若待评估文本为拿破仑传记,则主语可以为拿破仑、法国等。进一步地,确定了待评估语句中的主语之后,可以根据关键词分析技术判断主语的重要性,并将重要性较高的主语作为关键主语。需要说明的是,由于待评估语句中的主语除有重要意义的人名与机构名等,还包括“我”、“你”等指代词语,而这一类主语的价值较低。因此,针对每一个主语,确定该主语在待评估文本中出现的第一频率,并确定该主语在预设的文本集中出现的第二频率,根据第一频率和第二频率确定关键主语,从而能够精准地确定关键主语。进一步地,将经常与关键主语一同出现的实体作为关键客体,具体地,经常与关键主语一同出现的实体可以为物品、动植物等,此外,为了进一步地扩充关键客体的数量,可以将预设的实体也作为关键客体,其中,预设的实体可以为国家、著名景点等。可以理解的是,由于很多人物都具有别称,因此,为了提高对待评估语句价值评估的准确性,可以根据预设的知识库确定所述关键主体与所述关键客体的常见别称,举例来说,拿破仑的别称为拿破仑一世。根据预先建立的知识数据库确定信息类型词语,通过句法分析技术确定待评估语句中的主语与谓语,并判断该主语是否为关键实体、谓语是否为信息类型词语。根据判断结果实现对待评估语句的信息抽取。
本实施例提供的信息价值评估方法,通过确定待评估文本中的关键主语、关键客体以及常见别称,从而能够为待评估语句的价值评估提供基础。
图3为本发明实施例三提供的信息价值评估方法的流程示意图,在上述任一实施例的基础上,如图3所示,所述知识数据库中包括信息类型以及与所述信息类型对应的实体对;所述方法包括:
步骤301、接收待评估文本,所述待评估文本中包括至少一个待评估语句;
步骤302、确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称;
步骤303、确定当前的待扩充信息类型;
步骤304、根据所述待扩充信息类型在所述知识数据库中获取至少一个与所述待扩充信息类型对应的实体对;
步骤305、根据各所述实体对在预设的文本集中确定与各所述实体对相对应的全部关键词语;
步骤306、针对每一关键词语,根据所述关键词语在所述待评估文本中出现的频率以及所述关键词语在所述预设的文本集中出现的频率确定所述关键词语的权重;
步骤307、将权重超过预设的阈值的关键词语作为所述信息类型词语;
步骤308、针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;
步骤309、根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,为了实现对待评估文本信息价值的评估,接收待评估文本之后,首先可以确定待评估文本中的关键实体,并可以根据预先建立的知识数据库确定信息类型词语。具体地,预设的知识数据库中包括多组知识数据,其中,每一组知识数据都是以三元组形式表达,由信息类型与实体对组成,举例来说,<李白、出生年、701>,信息类型为出生年,实体对为李白,701,该组知识数据表征李白的出生年是701年。确定当前的待扩充信息类型,根据该信息类型在知识数据库中确定与该信息类型对应的实体对,根据该实体对从预设的文本集中确定与该实体对对应的多个句子集合,并根据关键词提取技术在多个句子集合中确定关键词语,即待扩充信息类型对应的多种表达方式。针对每一个关键词语,根据关键词语在待评估文本中出现的频率以及关键词语在预设的文本集中出现的频率确定关键词语的权重,关键词语权重计算方法如公式1所示,其中Ei表示一种信息类型,R(w,Ei) 表示关键词语w对于Ei的权重:
Figure RE-GDA0001843297590000091
其中,TFAdj(w,Ei)的表达方式如公式2所示:
Figure RE-GDA0001843297590000092
其中TFAdj,max(Ek)是所有TFAdj(wx,Ek)中的最大值。Variance(w,Ei)是w的词频的方差。具有较大R(w,Ei)的关键词语被选为Ei的信息类型词语。通过句法分析技术确定待评估语句中的主语与谓语,并判断该主语是否为关键实体、谓语是否为信息类型词语。根据判断结果实现对待评估语句的信息抽取。
本实施例提供的信息价值评估方法,通过根据知识数据库确定信息类型词语,从而能够为待评估语句的价值评估提供基础。
进一步地,在上述任一实施例的基础上,所述方法包括:
接收待评估文本,所述待评估文本中包括至少一个待评估语句;
确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称;
确定当前的待扩充信息类型;
根据所述待扩充信息类型在所述知识数据库中获取至少一个与所述待扩充信息类型对应的实体对;
根据各所述实体对在预设的文本集中确定与各所述实体对相对应的全部关键词语;
针对每一关键词语,根据所述关键词语在所述待评估文本中出现的频率以及所述关键词语在所述预设的文本集中出现的频率确定所述关键词语的权重;
将权重超过预设的阈值的关键词语作为所述信息类型词语;
通过同义词以及词向量分析技术,确定与所述信息类型词语词义相似的第一词语;
根据所述第一词语对所述信息类型词语进行扩充;
针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;
根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
在本实施例中,根据知识数据库确定信息类型词语之后,可以根据同义词林与词向量分析技术,确定与该信息类型词语词义相近的词语,将该词语作为信息类型词语。
本实施例提供的信息价值评估方法,通过根据同义词林与词向量分析技术,确定与该信息类型词语词义相近的词语,将该词语作为信息类型词语,从而能够进一步地提高信息价值评估的效率。
图4为本发明实施例四提供的信息价值评估装置的结构示意图,如图4所示,所述装置包括:
待评估文本接收模块41,用于接收待评估文本,所述待评估文本中包括至少一个待评估语句。
关键实体确定模块42,用于确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称,根据预先建立的知识数据库确定信息类型词语。
判断模块43,用于针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语。
评估模块44,用于根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
本实施例提供的信息价值评估装置,通过接收待评估文本,所述待评估文本中包括至少一个待评估语句;确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称,根据预先建立的知识数据库确定信息类型词语;针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。通过预先对待评估文本的信息价值进行评估,并根据评估结果进行信息抽取,从而能够提高抽取到的信息的价值。
进一步地,在上述实施例的基础上,所述装置包括:
所述待评估文本接收模块包括:
待处理文本接收单元,用于接收待处理文本;
去除单元,用于去除所述待处理文本中除正文部分以外的全部文本;
分割单元,用于将所述待处理文本中的正文部分按照所述待处理文本中的标点符号进行分割,获得包括至少一个待评估语句的待评估文本;
关键实体确定模块,用于确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称,根据预先建立的知识数据库确定信息类型词语;
判断模块,用于针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;
评估模块,用于根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
本实施例提供的信息价值评估装置,通过接收待处理文本,并对待处理文本进行去噪与分词的步骤,获得包括至少一个待评估语句的待评估文本,从而能够提高对待评估文本信息价值评估的效率,进而能够为提高抽取到的待评估语句的信息价值提供了基础。
图5为本发明实施例五提供的信息价值评估装置的结构示意图,在上述任一实施例的基础上,如图5所示,所述装置包括:
待评估文本接收模块51,用于接收待评估文本,所述待评估文本中包括至少一个待评估语句;
所述关键实体确定模块52包括:
主语确定单元501,用于通过对所述待评估文本进行词性分析,确定所述待评估文本中的主语;
关键主语确定单元502,用于根据关键词分析技术确定所述待评估文本中的主语中的关键主语;
关键客体确定单元503,用于将与所述关键主语一同出现次数超过预设的阈值的词语以及预设的重要词语作为关键客体;
常见别称确定单元504,用于根据预设的知识库确定所述关键主体与所述关键客体的常见别称;
关键实体确定模块52,还用于根据预先建立的知识数据库确定信息类型词语;
判断模块53,用于针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;
评估模块54,用于根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
本实施例提供的信息价值评估装置,通过确定待评估文本中的关键主语、关键客体以及常见别称,从而能够为待评估语句的价值评估提供基础。
图6为本发明实施例六提供的信息价值评估装置的结构示意图,在上述任一实施例的基础上,如图6所示,所述知识数据库中包括信息类型以及与所述信息类型对应的实体对;所述装置包括:
待评估文本接收模块61,用于接收待评估文本,所述待评估文本中包括至少一个待评估语句;
关键实体确定模块62,用于确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称;
关键实体确定模块62,还包括:
类型确定单元601,用于确定当前的待扩充信息类型;
实体对获取单元602,用于根据所述待扩充信息类型在所述知识数据库中获取至少一个与所述待扩充信息类型对应的实体对;
关键词语获取单元603,用于根据各所述实体对在预设的文本集中确定与各所述实体对相对应的全部关键词语;
权重确定单元604,用于针对每一关键词语,根据所述关键词语在所述待评估文本中出现的频率以及所述关键词语在所述预设的文本集中出现的频率确定所述关键词语的权重;
设定单元605,用于将权重超过预设的阈值的关键词语作为所述信息类型词语;
判断模块63,用于针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;
评估模块64,用于根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
本实施例提供的信息价值评估装置,通过根据知识数据库确定信息类型词语,从而能够为待评估语句的价值评估提供基础。
进一步地,在上述任一实施例的基础上,所述装置包括:
待评估文本接收模块,用于接收待评估文本,所述待评估文本中包括至少一个待评估语句;
关键实体确定模块,用于确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称;
关键实体确定模块,还包括:
类型确定单元,用于确定当前的待扩充信息类型;
实体对获取单元,用于根据所述待扩充信息类型在所述知识数据库中获取至少一个与所述待扩充信息类型对应的实体对;
关键词语获取单元,用于根据各所述实体对在预设的文本集中确定与各所述实体对相对应的全部关键词语;
权重确定单元,用于针对每一关键词语,根据所述关键词语在所述待评估文本中出现的频率以及所述关键词语在所述预设的文本集中出现的频率确定所述关键词语的权重;
设定单元,用于将权重超过预设的阈值的关键词语作为所述信息类型词语;
第一词语确定单元,用于通过同义词以及词向量分析技术,确定与所述信息类型词语词义相似的第一词语;
扩充单元,用于根据所述第一词语对所述信息类型词语进行扩充;
判断模块,用于针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;
评估模块,用于根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
本实施例提供的信息价值评估装置,通过根据同义词林与词向量分析技术,确定与该信息类型词语词义相近的词语,将该词语作为信息类型词语,从而能够进一步地提高信息价值评估的效率。
图7为本发明实施例七提供的信息价值评估设备的结构示意图,如图7所示,所述设备包括:存储器71,处理器72;
存储器71;用于存储所述处理器72可执行指令的存储器71;
其中,所述处理器72被配置为由所述处理器72执行如上述的信息价值评估方法。
本发明的又一实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述的信息价值评估方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种信息价值评估方法,其特征在于,包括:
接收待评估文本,所述待评估文本中包括至少一个待评估语句;
确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称,根据预先建立的知识数据库确定信息类型词语;
针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;
根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
2.根据权利要求1所示的方法,其特征在于,所述接收待评估文本,包括:
接收待处理文本;
去除所述待处理文本中除正文部分以外的全部文本;
将所述待处理文本中的正文部分按照所述待处理文本中的标点符号进行分割,获得包括至少一个待评估语句的待评估文本。
3.根据权利要求1所示的方法,其特征在于,所述确定所述待评估文本中的关键实体,包括:
通过对所述待评估文本进行词性分析,确定所述待评估文本中的主语;
根据关键词分析技术确定所述待评估文本中的主语中的关键主语;
将与所述关键主语一同出现次数超过预设的阈值的词语以及预设的重要词语作为关键客体;
根据预设的知识库确定所述关键主体与所述关键客体的常见别称。
4.根据权利要求1所示的方法,其特征在于,所述知识数据库中包括信息类型以及与所述信息类型对应的实体对;所述根据预先建立的知识数据库确定信息类型词语,包括:
确定当前的待扩充信息类型;
根据所述待扩充信息类型在所述知识数据库中获取至少一个与所述待扩充信息类型对应的实体对;
根据各所述实体对在预设的文本集中确定与各所述实体对相对应的全部关键词语;
针对每一关键词语,根据所述关键词语在所述待评估文本中出现的频率以及所述关键词语在所述预设的文本集中出现的频率确定所述关键词语的权重;
将权重超过预设的阈值的关键词语作为所述信息类型词语。
5.根据权利要求4所示的方法,其特征在于,所述将权重超过预设的阈值的关键词语作为所述信息类型词语之后,还包括:
通过同义词以及词向量分析技术,确定与所述信息类型词语词义相似的第一词语;
根据所述第一词语对所述信息类型词语进行扩充。
6.一种信息价值评估装置,其特征在于,包括:
待评估文本接收模块,用于接收待评估文本,所述待评估文本中包括至少一个待评估语句;
关键实体确定模块,用于确定所述待评估文本中的关键实体,所述关键实体包括关键主语、关键客体以及常见别称,根据预先建立的知识数据库确定信息类型词语;
判断模块,用于针对每一所述待评估语句,通过句法分析技术确定所述待评估语句中的主语与谓语,判断所述主语是否为所述关键实体,判断所述谓语是否为所述信息类型词语;
评估模块,用于根据判断结果对所述待评估语句的信息价值进行评估,获得评估结果,根据所述评估结果进行信息抽取。
7.根据权利要求6所示的装置,其特征在于,所述待评估文本接收模块包括:
待处理文本接收单元,用于接收待处理文本;
去除单元,用于去除所述待处理文本中除正文部分以外的全部文本;
分割单元,用于将所述待处理文本中的正文部分按照所述待处理文本中的标点符号进行分割,获得包括至少一个待评估语句的待评估文本。
8.根据权利要求6所示的装置,其特征在于,所述关键实体确定模块包括:
主语确定单元,用于通过对所述待评估文本进行词性分析,确定所述待评估文本中的主语;
关键主语确定单元,用于根据关键词分析技术确定所述待评估文本中的主语中的关键主语;
关键客体确定单元,用于将与所述关键主语一同出现次数超过预设的阈值的词语以及预设的重要词语作为关键客体;
常见别称确定单元,用于根据预设的知识库确定所述关键主体与所述关键客体的常见别称。
9.一种信息价值评估设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如权利要求1-5任一项所述的信息价值评估方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至5任一项所述的信息价值评估方法。
CN201810938631.6A 2018-08-17 2018-08-17 信息价值评估方法、装置、设备及计算机可读存储介质 Expired - Fee Related CN110866389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810938631.6A CN110866389B (zh) 2018-08-17 2018-08-17 信息价值评估方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810938631.6A CN110866389B (zh) 2018-08-17 2018-08-17 信息价值评估方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110866389A true CN110866389A (zh) 2020-03-06
CN110866389B CN110866389B (zh) 2021-12-17

Family

ID=69651005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810938631.6A Expired - Fee Related CN110866389B (zh) 2018-08-17 2018-08-17 信息价值评估方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110866389B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818677A (zh) * 2021-02-22 2021-05-18 康美健康云服务有限公司 一种基于互联网的信息评估方法及系统
CN116681056A (zh) * 2023-05-24 2023-09-01 人民网股份有限公司 基于价值量表的文本价值计算方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030130995A1 (en) * 2002-01-07 2003-07-10 Cameron Pope Automated system and methods for collecting data
CN102207948A (zh) * 2010-07-13 2011-10-05 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法
CN103970848A (zh) * 2014-05-01 2014-08-06 刘莎 一种通用型互联网信息数据挖掘方法
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN105706078A (zh) * 2013-10-09 2016-06-22 谷歌公司 实体集合的自动定义
US10002129B1 (en) * 2017-02-15 2018-06-19 Wipro Limited System and method for extracting information from unstructured text
CN108287821A (zh) * 2018-01-23 2018-07-17 北京奇艺世纪科技有限公司 一种高质量文本筛选方法、装置及电子设备
CN108345625A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种信息挖掘方法和装置、一种用于信息挖掘的装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030130995A1 (en) * 2002-01-07 2003-07-10 Cameron Pope Automated system and methods for collecting data
CN102207948A (zh) * 2010-07-13 2011-10-05 天津海量信息技术有限公司 一种事件陈述句素材库的生成方法
CN105706078A (zh) * 2013-10-09 2016-06-22 谷歌公司 实体集合的自动定义
CN103970848A (zh) * 2014-05-01 2014-08-06 刘莎 一种通用型互联网信息数据挖掘方法
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN105138507A (zh) * 2015-08-06 2015-12-09 电子科技大学 一种基于模式自学习的中文开放式关系抽取方法
CN108345625A (zh) * 2017-01-25 2018-07-31 北京搜狗科技发展有限公司 一种信息挖掘方法和装置、一种用于信息挖掘的装置
US10002129B1 (en) * 2017-02-15 2018-06-19 Wipro Limited System and method for extracting information from unstructured text
CN108287821A (zh) * 2018-01-23 2018-07-17 北京奇艺世纪科技有限公司 一种高质量文本筛选方法、装置及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112818677A (zh) * 2021-02-22 2021-05-18 康美健康云服务有限公司 一种基于互联网的信息评估方法及系统
CN116681056A (zh) * 2023-05-24 2023-09-01 人民网股份有限公司 基于价值量表的文本价值计算方法及装置
CN116681056B (zh) * 2023-05-24 2024-01-26 人民网股份有限公司 基于价值量表的文本价值计算方法及装置

Also Published As

Publication number Publication date
CN110866389B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
CN109670191B (zh) 机器翻译的校准优化方法、装置与电子设备
Shardlow The cw corpus: A new resource for evaluating the identification of complex words
JP6427466B2 (ja) 同義語ペア獲得装置、方法、及びプログラム
CN110866389B (zh) 信息价值评估方法、装置、设备及计算机可读存储介质
CN111198946A (zh) 一种网络新闻热点挖掘方法及装置
CN111881297A (zh) 语音识别文本的校正方法及装置
CN107832297A (zh) 一种面向特征词粒度的领域情感词典构建方法
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN107526792A (zh) 一种中文问句关键词快速提取方法
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
CN110348539B (zh) 短文本相关性判别方法
CN110019820B (zh) 一种病历中主诉与现病史症状时间一致性检测方法
CN110889274B (zh) 信息质量评估方法、装置、设备及计算机可读存储介质
CN111191469A (zh) 大规模语料清洗对齐方法及装置
CN114528413A (zh) 众包标注支持的知识图谱更新方法、系统和可读存储介质
CN108536671B (zh) 文本数据的情感指数识别方法和系统
CN112580350A (zh) 一种诉求分析方法、装置、电子设备和存储介质
CN114579796B (zh) 机器阅读理解方法及装置
CN113240322B (zh) 气候风险披露质量方法、装置、电子设备及存储介质
CN115757815A (zh) 知识图谱的构建方法、装置及存储介质
CN112115237B (zh) 烟草科技文献数据推荐模型的构建方法及装置
CN115204123A (zh) 协同编辑文档的分析方法、分析装置以及存储介质
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN113886521A (zh) 一种基于相似词汇表的文本关系自动标注方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230614

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 9 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211217

CF01 Termination of patent right due to non-payment of annual fee