CN110569494A - 用于生成信息的方法和装置 - Google Patents

用于生成信息的方法和装置 Download PDF

Info

Publication number
CN110569494A
CN110569494A CN201810567936.0A CN201810567936A CN110569494A CN 110569494 A CN110569494 A CN 110569494A CN 201810567936 A CN201810567936 A CN 201810567936A CN 110569494 A CN110569494 A CN 110569494A
Authority
CN
China
Prior art keywords
triple
target
determining
event information
historical event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810567936.0A
Other languages
English (en)
Other versions
CN110569494B (zh
Inventor
陈玉光
潘禄
陈文浩
周辉
陈伟娜
郑宇宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810567936.0A priority Critical patent/CN110569494B/zh
Priority to KR1020190029040A priority patent/KR102290767B1/ko
Priority to EP19162972.4A priority patent/EP3579119A1/en
Priority to US16/355,304 priority patent/US11494420B2/en
Priority to JP2019052668A priority patent/JP6849723B2/ja
Publication of CN110569494A publication Critical patent/CN110569494A/zh
Application granted granted Critical
Publication of CN110569494B publication Critical patent/CN110569494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Probability & Statistics with Applications (AREA)

Abstract

本申请实施例公开了用于生成信息的方法和装置。上述方法的一具体实施方式包括:接收目标文本,目标文本包括对象和针对对象的描述信息;对目标文本进行依存句法分析,生成目标文本的依存树;将预设的至少一个句法结构树与依存树进行匹配,得到至少一个三元组,其中,三元组包括主语、谓语和宾语;根据至少一个三元组中三元组包括的词语以及匹配得到三元组的句法结构树的预设权重,从至少一个三元组中确定目标三元组。该实施方式提高了目标三元组提取的准确率。

Description

用于生成信息的方法和装置
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于生成信息的方法和装置。
背景技术
目前,通常可以采用命名实体识别(Named Entity Recognition,NER)技术和实体链指(Entity linking,EL)技术对文本中的实体进行挖掘。其中,NER能够识别出专用名词,如人物、企业等。EL能够将文本中的词语与知识图谱中的实体相关联,解决实体的同一指代的问题。然而目前并不能对事件进行识别和关联。
发明内容
本申请实施例提出了用于生成信息的方法和装置。
第一方面,本申请实施例提供了一种用于生成信息的方法,包括:接收目标文本,目标文本包括对象和针对上述对象的描述信息;对目标文本进行依存句法分析,生成目标文本的依存树;将预设的至少一个句法结构树与上述依存树进行匹配,得到至少一个三元组,其中,三元组包括主语、谓语和宾语;根据上述至少一个三元组中三元组包括的词语以及匹配得到三元组的句法结构树的预设权重,从上述至少一个三元组中确定目标三元组。
在一些实施例中,上述根据上述至少一个三元组中三元组包括的词语以及匹配得到三元组的句法结构树的预设权重,从上述至少一个三元组中确定目标三元组,包括:根据上述依存树,确定目标文本中的数量词以及定语;确定上述数量词修饰的对象以及上述定语修饰的对象;根据所确定的数量词、定语、对象,更新上述至少一个三元组;从更新的至少一个三元组中确定目标三元组。
在一些实施例中,上述根据所确定的数量词、定语、对象,更新上述至少一个三元组,包括:对于上述至少一个三元组中的三元组,确定所确定的对象是否与该三元组的主语或宾语匹配;响应于确定所确定的对象与该三元组的主语匹配,合并修饰所确定的对象的数量词、定语以及该三元组的主语,确定合并后的文本为该三元组的主语;响应于确定所确定的对象与该三元组的宾语匹配,合并修饰所确定的对象的数量词、定语以及该三元组的宾语,确定合并后的文本为该三元组的宾语。
在一些实施例中,上述根据上述至少一个三元组中三元组包括的词语以及匹配得到三元组的句法结构树的预设权重,从上述至少一个三元组中确定目标三元组,包括:对于上述至少一个三元组中的三元组,确定匹配得到该三元组的句法结构树的预设权重;确定该三元组中包括的词语的字数;确定该三元组中词语的共现度;根据所确定的权重、字数以及共现度,确定该三元组的评分;确定上述至少一个三元组中评分最高的三元组为目标三元组。
在一些实施例中,上述方法还包括:获取至少一个历史目标三元组;统计上述至少一个历史目标三元组中由同一句法结构树匹配得到的历史目标三元组的数量;根据统计结果确定上述至少一个句法结构树的权重。
在一些实施例中,上述方法还包括:根据上述目标三元组,从预设的历史事件信息集合中确定出与目标文本相关的至少一条历史事件信息;确定目标文本与上述至少一条历史事件信息的相似度;输出与目标文本相似度最高的历史事件信息。
在一些实施例中,历史事件信息包括参与者信息与触发词信息;以及上述根据上述目标三元组,从预设的历史事件信息集合中确定出与目标文本相关的至少一条历史事件信息,包括:确定以下条件是否满足:上述目标三元组的主语或宾语与上述历史事件信息集合中历史事件信息的参与者信息匹配、上述目标三元组的谓语与上述历史事件信息集合中历史事件信息的触发词信息匹配;确定满足以上条件中的至少一项的历史事件信息与目标文本相关。
在一些实施例中,历史事件信息包括关键词;以及上述确定目标文本与上述至少一条历史事件信息的相似度,包括:对目标文本进行切分,得到第一词语集合;对于上述至少一条历史事件信息中的历史事件信息,拼接该历史事件信息包括的关键词,对拼接得到的文本进行切分,得到第二词语集合;根据上述第一词语集合与上述第二词语集合,确定目标文本与该历史事件信息的相似度。
第二方面,本申请实施例提供了一种用于生成信息的装置,包括:目标文本接收单元,被配置成接收目标文本,目标文本包括对象和针对上述对象的描述信息;依存树生成单元,被配置成对目标文本进行依存句法分析,生成目标文本的依存树;三元组确定单元,被配置成将预设的至少一个句法结构树与上述依存树进行匹配,得到至少一个三元组,其中,三元组包括主语、谓语和宾语;目标三元组确定单元,被配置成根据上述至少一个三元组中三元组包括的词语以及匹配得到三元组的句法结构树的预设权重,从上述至少一个三元组中确定目标三元组。
在一些实施例中,上述目标三元组确定单元包括:定语确定模块,被配置成根据上述依存树,确定目标文本中的数量词以及定语;对象确定模块,被配置成确定上述数量词修饰的对象以及上述定语修饰的对象;三元组更新模块,被配置成根据所确定的数量词、定语、对象,更新上述至少一个三元组;目标三元组确定模块,被配置成从更新的至少一个三元组中确定目标三元组。
在一些实施例中,上述三元组更新模块进一步被配置成:对于上述至少一个三元组中的三元组,确定所确定的对象是否与该三元组的主语或宾语匹配;响应于确定所确定的对象与该三元组的主语匹配,合并修饰所确定的对象的数量词、定语以及该三元组的主语,确定合并后的文本为该三元组的主语;响应于确定所确定的对象与该三元组的宾语匹配,合并修饰所确定的对象的数量词、定语以及该三元组的宾语,确定合并后的文本为该三元组的宾语。
在一些实施例中,上述目标三元组确定单元进一步被配置成:对于上述至少一个三元组中的三元组,确定匹配得到该三元组的句法结构树的预设权重;确定该三元组中包括的词语的字数;确定该三元组中词语的共现度;根据所确定的权重、字数以及共现度,确定该三元组的评分;确定上述至少一个三元组中评分最高的三元组为目标三元组。
在一些实施例中,上述装置还包括权重设置单元,上述权重设置单元包括:历史目标三元组模块,被配置成获取至少一个历史目标三元组;三元组数量统计模块,被配置成统计上述至少一个历史目标三元组中由同一句法结构树匹配得到的历史目标三元组的数量;权重确定模块,被配置成根据统计结果确定上述至少一个句法结构树的权重。
在一些实施例中,上述装置还包括:历史事件信息确定单元,被配置成根据上述目标三元组,从预设的历史事件信息集合中确定出与目标文本相关的至少一条历史事件信息;相似度确定单元,被配置成确定目标文本与上述至少一条历史事件信息的相似度;历史事件信息输出单元,被配置成输出与目标文本相似度最高的历史事件信息。
在一些实施例中,历史事件信息包括参与者信息与触发词信息;以及上述历史事件信息确定单元进一步被配置成:确定以下条件是否满足:上述目标三元组的主语或宾语与上述历史事件信息集合中历史事件信息的参与者信息匹配、上述目标三元组的谓语与上述历史事件信息集合中历史事件信息的触发词信息匹配;确定满足以上条件中的至少一项的历史事件信息与目标文本相关。
在一些实施例中,历史事件信息包括关键词;以及上述相似度确定单元进一步被配置成:对目标文本进行切分,得到第一词语集合;对于上述至少一条历史事件信息中的历史事件信息,拼接该历史事件信息包括的关键词,对拼接得到的文本进行切分,得到第二词语集合;根据上述第一词语集合与上述第二词语集合,确定目标文本与该历史事件信息的相似度。
第三方面,本申请实施例提供了一种设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得上述一个或多个处理器实现如第一方面任一实施例所描述的方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面任一实施例所描述的方法。
本申请的上述实施例提供的用于生成信息的方法和装置,在接收目标文本后,可以对目标文本进行依存句法分析,生成目标文本的依存树。然后将预设的至少一个句法结构树与上述依存树进行匹配,得到至少一个三元组。最后根据上述至少一个三元组中的每个三元组包括的词语以及匹配得到该三元组的句法结构树的预设权重,从上述至少一个三元组中确定出目标三元组。本实施例的方法和装置,可以选取出与目标文本中包括的事件最相关的三元组,提高了目标三元组提取的准确率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于生成信息的方法的一个实施例的流程图;
图2a是根据本申请的用于生成信息的方法的一个实施例中的依存树的结构示意图;
图2b是根据本申请的用于生成信息的方法的一个实施例中的句法结构树的结构示意图;
图2c是根据本申请的用于生成信息的方法中图2a所示的依存树与图2b所示的句法结构树匹配得到的一个候选三元组的结构示意图;
图2d是根据本申请的用于生成信息的方法中图2a所示的依存树与图2b所示的句法结构树匹配得到的另一个候选三元组的结构示意图;
图2e是根据本申请的用于生成信息的方法中图2a所示的依存树与图2b所示的句法结构树匹配得到的又一个候选三元组的结构示意图;
图3是根据本申请的用于生成信息的方法的一个应用场景的示意图;
图4是根据本申请的用于生成信息的方法中确定目标三元组的流程图;
图5是根据本申请的用于生成信息的方法的另一个实施例的流程图;
图6是根据本申请的用于生成信息的装置的一个实施例的结构示意图;
图7是适于用来实现本申请实施例的设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于生成信息的方法或用于生成信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如文本输入应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏并且支持文本输入的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上输入的文本提供支持的后台服务器。后台服务器可以对接收到的目标文本等数据进行分析等处理,并将处理结果(例如目标三元组)反馈给终端设备101、102、103。
服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于生成信息的方法可以由终端设备101、102、103执行,也可以由服务器105执行。相应地,用于生成信息的装置可以设置于终端设备101、102、103中,也可以设置于服务器105中。
可以理解的是,当本申请实施例所提供的用于生成信息的方法由终端设备101、102、103执行时,上述系统架构100可以不包括网络104和服务器105。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于生成信息的方法的一个实施例的流程200。本实施例的用于生成信息的方法,包括以下步骤:
步骤201,接收目标文本。
在本实施例中,用于生成信息的方法的执行主体(例如图1所示的终端设备101、102、103或服务器105)可以接收目标文本。当用于生成信息的方法的执行主体为终端设备时,其可以直接接收用户通过该终端设备输入的目标文本。当用于生成信息的方法的执行主体为服务器时,其可以通过有线或无线连接方式从用户所使用的终端设备处接收目标文本。上述目标文本可以包括对象和针对上述对象的描述信息。上述对象可以是通过NER技术或EL技术识别出的任意实体,如人物、企业等。上述描述信息可以是用于描述上述对象的信息,包括但不限于用于描述对象的状态的信息、用于描述上述对象的动作的信息等。
需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接以及其他现在已知或将来开发的无线连接方式。
步骤202,对目标文本进行依存句法分析,生成目标文本的依存树。
执行主体在接收到目标文本后,可以对目标文本进行依存句法分析。依存句法又称从属关系句法,最先由法国语言学家L.Tesniere于20世纪50年代提出。依存句法是一种结构句法,其是用词语之间所组成的依存关系来描述一个句子的语言结构。为了清楚地描述依存句法在结构上的特点,可以通过依存树来表示。依存树中的每个节点都对应句子中的词语。依存树不仅可以表征词语间的依存关系,还可以表征词语的词性(例如,数量词,助词等),还可以表征词语在文本中的作用(例如,作为定语、状语等)。实际应用中,执行主体可以通过各种开源工具包对目标文本进行依存句法分析。上述开源工具包可以包括例如美国斯坦福大学的Stanford NLP小组提供的开源工具包StandfordParser、中国复旦大学计算机学院开发的开源工具包Fudan NLP等。
步骤203,将预设的至少一个句法结构树与依存树进行匹配,得到至少一个三元组。
在生成目标文本的依存树后,执行主体可以将预设的句法结构树与依存树进行匹配。其中,句法结构树的树状结构中包括多个节点,句法结构树中可以包括位于每个节点的词语的词性。将上述句法结构树与依存树进行匹配,即可得到依存树中与句法结构树相同依存关系的词语。同时,得到的各词语的词性与句法结构树中对应节点的词语的词性相同。
举例来说,目标文本的依存树的结构如图2a所示,句法结构树的结构如图2b所示。图2b所示的句法结构树示出了各节点的词语的词性,其中,v.表示动词,n.表示名词。在一些可选的实现方式中,可以通过如下的方式来将句法结构树与依存树进行匹配:首先,仅考虑句法结构树和依存树的结构而不考虑词性,可以确定图2c、图2d和图2e中位于虚线节点的词语形成的候选三元组。接着,将图2c、图2d和图2e所示的候选三元组中各节点的词语的词性与句法结构树中各节点的词语的词性进行匹配,确定图2c所示的三元组的各词语的词性与句法结构树中各节点的词语的词性相同。则,图2c所示的三元组即为依存树与句法结构树匹配得到的结果。
三元组可以包括主语、谓语和宾语,此处的三元组可以是广义上的三元组。例如,有些句子不存在宾语,则得到的三元组中宾语为“空”。例如,有些句子包括并列谓语,则得到的三元组中的谓语可以包括两个词语。可以理解的是,三元组中的主语、谓语和宾语可能与目标文本的主语、谓语和宾语相同,也可能不同。举例来说,目标文本为“共享单车行业在2016年和2017年上半年的快速扩张之后,于2017年下半年逐渐显露颓势”,得到的三元组有可能包括:共享单车行业-扩张-空、共享单车行业-显露-颓势。目标文本的主语为“共享单车行业”,谓语为“显露”,宾语为“颓势”。其中,第一个三元组中的谓语“扩张”与目标文本的谓语“显露”不同。第二个三元组中的主语、谓语和宾语与目标文本的主语、谓语和宾语相同。
步骤204,根据至少一个三元组中三元组包括的词语以及匹配得到三元组的句法结构树的预设权重,从至少一个三元组中确定目标三元组。
在得到上述至少一个三元组后,对于上述至少一个三元组的每个三元组,执行主体可以根据该三元组中包括的词语以及匹配得到该三元组的句法结构树的预设权重,从至少一个三元组中确定出目标三元组。其中,句法结构树的权重可以由技术人员根据具体应用场景来设置。例如,技术人员可以在上述至少一个句法结构树中每次选取一个句法结构树来进行三元组的匹配,则可以根据句法结构树在过去时间段内的被选取用来进行三元组的匹配的次数来设置权重。或者,技术人员还可以根据句法结构树中包括的节点的数量来设置权重。
继续参见图3,图3是根据本实施例的用于生成信息的方法的应用场景的一个示意图。在图3的应用场景中,用户通过终端输入的目标文本为视频标题,终端将上述视频标题发送给服务器。服务器在接收到上述视频标题后,可以首先生成视频标题的依存树。然后与句法结构树匹配,得到至少一个三元组。然后从至少一个三元组中确定出目标三元组。最后将目标三元组输出给终端,以供用户查看。
本申请的上述实施例提供的用于生成信息的方法,在接收目标文本后,可以对目标文本进行依存句法分析,生成目标文本的依存树。然后将预设的至少一个句法结构树与上述依存树进行匹配,得到至少一个三元组。最后根据上述至少一个三元组中的每个三元组包括的词语以及匹配得到该三元组的句法结构树的预设权重,从上述至少一个三元组中确定出目标三元组。本实施例的方法,可以选取出与目标文本中包括的事件最相关的三元组,提高了目标三元组提取的准确率。
在本实施例的一些可选的实现方式中,执行主体可以根据图2中未示出的以下步骤来确定句法结构树的权重:首先,获取至少一个历史目标三元组。然后,统计上述至少一个历史目标三元组中由同一句法结构树匹配得到的历史目标三元组的数量。最后,根据统计结果确定至少一个句法结构树的权重。
本实现方式中,执行主体可以首先获取至少一个历史目标三元组。此处,历史目标三元组是指执行主体在过去的时间段内对接收到的目标文本进行处理得到的目标三元组。然后,执行主体可以统计上述至少一个历史目标三元组中,由同一句法结构树匹配得到的历史目标三元组的数量。可以理解的是,某一句法结构树匹配得到的历史目标三元组的数量越多,说明该句法结构树的正确率越高,则该句法结构树的权重应越大。最后,执行主体可根据上述统计结果确定各句法结构树的权重。举例来说,执行主体获取到100个历史目标三元组,经统计发现,50个历史目标三元组由句法结构树a得到,30个历史目标三元组由句法结构树b得到,剩余的20个历史目标三元组由句法结构树c得到。执行主体可以根据上述统计结果,确定句法结构树a的权重为50/100=0.5,句法结构树b的权重为30/100=0.3,句法结构树c的权重为20/100=0.2。
本实现方式的用于生成信息的方法,可以结合历史目标三元组来及时调整句法结构树的权重,从而提高了确定目标三元组的准确率。
继续参见图4,其示出了根据本申请的用于生成信息的方法中确定目标三元组的流程400。如图4所示,本申请可以根据如下步骤来确定目标三元组:
步骤401,根据依存树,确定目标文本中的数量词以及定语。
本实施例中,由于依存树中表征了词语的词性和作用,因此执行主体可以根据生成的目标文本的依存树,确定目标文本中的数量词和定语。定语用于修饰主语和宾语,其可以包括名词、代词和形容词。
步骤402,确定上述数量词修饰的对象以及上述定语修饰的对象。
在确定了数量词和定语后,执行主体可以确定上述数量词修饰的对象以及上述定语修饰的对象。上述对象可以是三元组中的主语,也可以是三元组中的宾语。举例来说,文本“一个苹果”中,“一个”为数量词,“苹果”为数量词“一个”修饰的对象。文本“红苹果”中,“红”为定语,“苹果”为定语“红”修饰的对象。
步骤403,根据所确定的数量词、定语、对象,更新至少一个三元组。
执行主体在确定了上述数量词、定语和其所修饰的对象后,可以更新至少一个三元组。例如,当所确定的对象为三元组的宾语时,则执行主体可以将修饰该对象的数量词和/或定语与该对象进行合并,将合并后的文本作为三元组的新的宾语,从而更新了该三元组。通过上述更新,一方面可以增加每个三元组中的词语,可以通过更新的三元组中包括的字数来确定目标三元组,提高了确定目标三元组的准确率。举例来说,目标文本为“张三出席深圳生日会”,执行主体生成依存树后与句法结构树匹配可以得到三元组“张三-出席-深圳”和三元组“张三-出席-生日会”。根据依存树,可以确定“深圳”为“生日会”的定语,则执行主体可以更新得到三元组“张三-出席-深圳生日会”。
在本实施例的一些可选的实现方式中,上述步骤403还可以包括图4中未示出的以下内容:删除上述至少一个三元组中宾语与目标文本中的定语匹配的三元组。
本实现方式中,执行主体可以确定得到的至少一个三元组中是否存在宾语为目标文本的定语的三元组。如果存在,执行主体可以将该三元组删除。例如,对于三元组“张三-出席-深圳”,执行主体可以确定作为定语的“深圳”不应作为三元组的宾语。因此,执行主体可以确定三元组“张三-出席-深圳”不正确,可以将该三元组删除。这样,可以有效减少了计算量,提高计算效率。
在本实施例的一些可选的实现方式中,执行主体可以通过图4中未示出的以下步骤来更新三元组:首先,对于至少一个三元组中的三元组,确定所确定的对象是否与该三元组的主语或宾语匹配。然后,在确定所确定的对象与该三元组的主语匹配后,合并修饰上述所确定的对象的数量词、定语以及该三元组的主语,确定合并后的文本为该三元组的主语。然后,在确定所确定的对象与该三元组的宾语匹配后,合并修饰上述所确定的对象的数量词、定语以及该三元组的宾语,确定合并后的文本为该三元组的宾语。
对于上述至少一个三元组中的每个三元组,执行主体可以首先确定所确定的对象是否与该三元组的主语或宾语匹配。可以理解的是,此处的匹配可以是指上述对象中的至少一个字与三元组的主语或宾语中的至少一个字相同。例如,对象为“张先生”,而三元组的主语为“张三先生”,可以认定上述对象与该三元组的主语匹配。
若确定所确定的对象与该三元组的主语匹配,执行主体可以将修饰上述对象的数量词、定语以及该三元组的主语合并,并将合并后的文本作为该三元组的主语。例如,对象为“张先生”,修饰该对象的定语为“神清气爽的”,三元组的主语为“张三先生”,合并后的文本可以为“神清气爽的张三先生”。然后将“神清气爽的张三先生”作为该三元组的主语。这样,实现了对三元组的主语的更新。
在确定所确定的对象与该三元组的宾语匹配后,执行主体可以将修饰上述对象的数量词、定语以及该三元组的宾语合并,并将合并后的文本作为该三元组的宾语。这样,实现了对三元组的宾语的更新。
可以理解的是,在对三元组进行更新时,可以只更新三元组的主语,也可以只更新三元组的宾语,还可以同时更新三元组的主语和宾语。另外,在执行上述合并操作时,可以取数量词与定语中的任一项与三元组的主语合并,或者与三元组的宾语合并。
步骤404,从更新的至少一个三元组中确定目标三元组。
在对三元组更新后,可以从更新的至少一个三元组中确定目标三元组。具体的,执行主体可以根据以下子步骤来确定目标三元组:
子步骤4041,对于至少一个三元组中的三元组,确定匹配得到该三元组的句法结构树的预设权重;确定该三元组中包括的词语的字数;确定该三元组中词语的共现度;根据所确定的权重、字数以及共现度,确定该三元组的评分。
对于上述至少一个三元组中的每个三元组,执行主体可以首先确定匹配得到该三元组的句法结构树的权重。然后根据该三元组中包括的词语,确定该三元组中包括的词语的字数。然后确定该三元组中词语的共现度。最后,根据所确定的权重、字数以及共现度,计算该三元组的评分。其中,此处的共现可以指三元组中的词语出现在同一句话、同一段落或者同一篇文章中。上述共现度可以为以下三者之积:三元组中的第一个词出现的概率、在第一个词出现的基础上出现第二个词的概率、在第一个词以及第二个词出现的基础上出现第三个词出现的概率。
例如,三元组为“张三-探望-新生儿”,则执行主体可以首先在预设的信息集合中确定“张三”出现的概率。上述信息集合可以是网页主题的集合、多篇文章的集合等。假设上述信息集合中包括10000条信息,其中包括“张三”的信息有100条,则“张三”出现的概率为1%。然后,执行主体可以确定“探望”出现在上述信息集合中,包括“张三”的信息中的概率。假设上述包括“张三”的100条信息中,有20条信息中包括“探望”,则在“张三”出现的基础上,“探望”出现的概率为20%。然后,执行主体可以根据同样的方法确定在“张三”和“探望”出现的基础上,“新生儿”出现在“探望”之后的概率为50%。则上述共现度为1%×20%×50%=0.1%。
执行主体在得到权重、字数和共现度后,可以根据以下公式来确定该三元组的评分:评分=a×权重+b×字数+c×共现度。其中,a、b、c为预设的系数。
步骤4042,确定至少一个三元组中评分最高的三元组为目标三元组。
在得到各三元组的评分后,执行主体可以将上述至少一个三元组中评分最高的三元组为目标三元组。可以理解的是,三元组的评分越高,说明该三元组的准确率越高,越能表达目标文本中包括的对象与对象的描述信息。
本申请的上述实施例提供的用于生成信息的方法,可以在多个三元组中确定出与目标文本最相关的三元组,从而提高了三元组提取的准确率。
继续参见图5,其示出了根据本申请的用于生成信息的方法的另一个实施例的流程500。如图5所示,本实施例的用于生成信息的方法在得到目标三元组后还可以包括以下步骤:
步骤501,根据目标三元组,从预设的历史事件信息集合中确定出与目标文本包括相关的至少一条历史事件信息。
在确定出目标三元组后,可以根据上述目标三元组从预设的历史事件信息集合中确定出与目标文本相关的至少一条历史事件信息。上述历史事件信息也可以包括对象和描述对象的信息。本实施例中,当历史事件信息中的对象与目标三元组的主语相同时,或者历史事件信息中包括目标三元组的主语、谓语或宾语时,可以认定历史事件信息与目标文本相关。
在本实施例的一些可选的实现方式中,历史事件信息可以包括参与者信息与触发词信息。执行主体可以根据图5中未示出的以下步骤来确定历史事件信息与目标文本是否相关:首先,确定以下条件是否满足:目标三元组的主语或宾语与历史事件信息集合中历史事件信息的参与者信息匹配、目标三元组的谓语与历史事件信息集合中历史事件信息的触发词信息匹配。然后,确定满足以上条件中的至少一项的历史事件信息与目标文本相关。
本实现方式中,上述参与者信息可以是历史事件中的相关人物的信息。触发词信息可以是上述参与者信息的动作信息。例如,历史事件信息为“小明和小红一起去第一餐厅吃中午饭”,则参与者信息可以包括“小明”和“小红”,触发词信息为“吃”。将目标三元组的主语或宾语与参与者信息进行匹配,如果匹配成功,则说明三元组的主语或宾语与历史事件中的参与者相同。将目标三元组的谓语与触发词信息进行匹配,如果匹配成功,则说明三元组的谓语与历史事件中的触发词相同。上述两个条件中的至少一个条件被满足,则执行主体可以认定该历史事件与目标文本相关。
步骤502,确定目标文本与至少一条历史事件信息的相似度。
在根据目标三元组,确定出至少一条历史事件信息后,为了进一步得到与目标文本最为相关的历史事件信息,执行主体可以确定目标文本与上述至少一个历史事件信息中各历史事件信息的相似度。执行主体可以根据目标文本与历史事件信息中相同文字或词语的数量来确定目标文本与历史事件信息的相似度。或者,执行主体还可以对历史事件信息中满足上述条件的项数来确定相似度。
在本实施例的一些可选的实现方式中,上述历史事件信息可以包括关键词。上述关键词可以是事件名称、事件发生时间等。其中上述事件名称可以包括历史事件的主语、谓语和宾语。执行主体可以根据图5中未示出的以下步骤来确定目标文本与历史事件信息的相似度:首先,对目标文本进行切分,得到第一词语集合。然后,对于上述至少一条历史事件信息中的每个历史事件信息,拼接该历史事件信息包括的关键词,对拼接得到的文本进行切分,得到第二词语集合。根据第一词语集合与第二词语集合,确定目标文本与该历史事件信息的相似度。
本实现方式中,执行主体可以首先对目标文本进行切分,得到第一词语集合。在切分时,可以根据语义切词,还可以根据字数切词。然后,对于上述至少一条历史事件信息中的每条历史事件信息,执行主体可以将该历史事件信息的关键词进行拼接,然后对拼接得到的文本进行切分,得到第二词语集合。为了保证相似度的准确性,可以以相同的粒度来切词。即,在对目标文本和拼接得到的文本进行切分时,都采用bigram或trigram的方式来切词,得到的词语中包括的字数相同。例如,目标文本为“我是中国人”,采用bigram的方式切词,得到“我是”、“是中”、“中国”、“国人”。采用trigram的方式切词,得到“我是中”、“是中国”、“中国人”。
执行主体在得到第一词语集合和第二词语集合后,可以将第一词语集合和第二词语集合中的词语都列出来。然后统计上述各个词语在目标文本中出现的次数,将得到的各次数组合得到第一词向量A。然后统计上述各个词语在拼接得到的文本中得到的次数,将得到的各次数组合形成第二词向量B。然后执行主体可以根据向量余弦公式来计算目标文本与拼接得到的文本的相似度:
其中,A=(A1,A2,….An),B=(B1,B2,….Bn)。Ai为第一词向量A中的第i个值,Bi为第二词向量B中的第i个值。
步骤503,输出与目标文本相似度最高的历史事件信息。
在确定了与目标文本相关的每个历史事件信息与目标文本的相似度后,执行主体可以输出与目标文本相似度最高的历史事件信息。
本申请的上述实施例提供的用于生成信息的方法,可以从历史事件信息集合中确定出与目标文本最相关的历史事件信息,以丰富用户的信息量。本实施例的方法可以应用于视频甄选方面。可以将视频的标题作为目标文本,确定出视频标题的目标三元组,然后甄选出与上述视频标题相关的历史事件,从而判断视频是否为旧视频。
进一步参考图6,作为对上述各图所示方法的实现,本申请提供了一种用于生成信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图6所示,本实施例的用于生成信息的装置600包括:目标文本接收单元601、依存树生成单元602、三元组确定单元603以及目标三元组确定单元604。
其中,目标文本接收单元601,被配置成接收目标文本。目标文本包括对象和针对对象的描述信息。
依存树生成单元602,被配置成对目标文本进行依存句法分析,生成目标文本的依存树。
三元组确定单元603,被配置成将预设的至少一个句法结构树与依存树进行匹配,得到至少一个三元组。其中,三元组包括主语、谓语和宾语。
目标三元组确定单元604,被配置成根据至少一个三元组中三元组包括的词语以及匹配得到三元组的句法结构树的预设权重,从至少一个三元组中确定目标三元组。
在本实施例的一些可选的实现方式中,上述目标三元组确定单元604还可以进一步包括图6中未示出的定语确定模块、对象确定模块、三元组更新模块以及目标三元组确定模块。
定语确定模块,被配置成根据依存树,确定目标文本中的数量词以及定语。
对象确定模块,被配置成确定数量词修饰的对象以及定语修饰的对象。
三元组更新模块,被配置成根据所确定的数量词、定语、对象,更新至少一个三元组。
目标三元组确定模块,被配置成从更新的至少一个三元组中确定目标三元组。
在本实施例的一些可选的实现方式中,上述三元组更新模块可以进一步被配置成:对于至少一个三元组中的三元组,确定所确定的对象是否与该三元组的主语或宾语匹配。响应于确定所确定的对象与该三元组的主语匹配,合并修饰所确定的对象的数量词、定语以及该三元组的主语,确定合并后的文本为该三元组的主语。响应于确定所确定的对象与该三元组的宾语匹配,合并修饰所确定的对象的数量词、定语以及该三元组的宾语,确定合并后的文本为该三元组的宾语。
在本实施例的一些可选的实现方式中,上述目标三元组确定单元可以进一步被配置成:对于至少一个三元组中的三元组,确定匹配得到该三元组的句法结构树的预设权重;确定该三元组中包括的词语的字数;确定该三元组中词语的共现度;根据所确定的权重、字数以及共现度,确定该三元组的评分;确定至少一个三元组中评分最高的三元组为目标三元组。
在本实施例的一些可选的实现方式中,上述装置600还可以包括图6中未示出的权重设置单元。上述权重设置单元可以包括历史目标三元组模块、三元组数量统计模块以及权重确定模块。
历史目标三元组模块,被配置成获取至少一个历史目标三元组。
三元组数量统计模块,被配置成统计上述至少一个历史目标三元组中由同一句法结构树匹配得到的历史目标三元组的数量。
权重确定模块,被配置成根据统计结果确定上述至少一个句法结构树的权重。
在本实施例的一些可选的实现方式中,上述装置600还可以包括图6中未示出的历史事件信息确定单元、相似度确定单元以及历史事件信息输出单元。
其中,历史事件信息确定单元,被配置成根据目标三元组,从预设的历史事件信息集合中确定出与目标文本相关的至少一条历史事件信息。
相似度确定单元,被配置成确定目标文本与至少一条历史事件信息的相似度。
历史事件信息输出单元,被配置成输出与目标文本相似度最高的历史事件信息。
在本实施例的一些可选的实现方式中,上述历史事件信息可以包括参与者信息与触发词信息。则上述历史事件信息确定单元进一步被配置成:确定以下条件是否满足:目标三元组的主语或宾语与历史事件信息集合中历史事件信息的参与者信息匹配、目标三元组的谓语与历史事件信息集合中历史事件信息的触发词信息匹配。确定满足以上条件中的至少一项的历史事件信息与目标文本相关。
在本实施例的一些可选的实现方式中,上述历史事件信息可以包括关键词。上述相似度确定单元进一步被配置成:对目标文本进行切分,得到第一词语集合;对于至少一条历史事件信息中的历史事件信息,拼接该历史事件信息包括的关键词,对拼接得到的文本进行切分,得到第二词语集合;根据第一词语集合与第二词语集合,确定目标文本与该历史事件信息的相似度。
本申请的上述实施例提供的用于生成信息的装置,在接收目标文本后,可以对目标文本进行依存句法分析,生成目标文本的依存树。然后将预设的至少一个句法结构树与上述依存树进行匹配,得到至少一个三元组。最后根据上述至少一个三元组中的每个三元组包括的词语以及匹配得到该三元组的句法结构树的预设权重,从上述至少一个三元组中确定出目标三元组。本实施例的装置,可以选取出与目标文本中包括的事件最相关的三元组,提高了目标三元组提取的准确率。
应当理解,用于生成信息的装置600中记载的单元601至单元604分别与参考图2中描述的方法中的各个步骤相对应。由此,上文针对用于生成信息的方法描述的操作和特征同样适用于装置600及其中包含的单元,在此不再赘述。
下面参考图7,其示出了适于用来实现本申请实施例的设备的计算机系统700的结构示意图。图7示出的设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括目标文本接收单元、依存树生成单元、三元组确定单元和目标三元组确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,目标文本接收单元还可以被描述为“接收目标文本的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:接收目标文本,目标文本包括对象和针对对象的描述信息;对目标文本进行依存句法分析,生成目标文本的依存树;将预设的至少一个句法结构树与依存树进行匹配,得到至少一个三元组,其中,三元组包括主语、谓语和宾语;根据至少一个三元组中三元组包括的词语以及匹配得到三元组的句法结构树的预设权重,从至少一个三元组中确定目标三元组。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (18)

1.一种用于生成信息的方法,包括:
接收目标文本,所述目标文本包括对象和针对所述对象的描述信息;
对所述目标文本进行依存句法分析,生成所述目标文本的依存树;
将预设的至少一个句法结构树与所述依存树进行匹配,得到至少一个三元组,其中,三元组包括主语、谓语和宾语;
根据所述至少一个三元组中三元组包括的词语以及匹配得到三元组的句法结构树的预设权重,从所述至少一个三元组中确定目标三元组。
2.根据权利要求1所述的方法,其中,所述根据所述至少一个三元组中三元组包括的词语以及匹配得到三元组的句法结构树的预设权重,从所述至少一个三元组中确定目标三元组,包括:
根据所述依存树,确定所述目标文本中的数量词以及定语;
确定所述数量词修饰的对象以及所述定语修饰的对象;
根据所确定的数量词、定语、对象,更新所述至少一个三元组;
从更新的至少一个三元组中确定目标三元组。
3.根据权利要求2所述的方法,其中,所述根据所确定的数量词、定语、对象,更新所述至少一个三元组,包括:
对于所述至少一个三元组中的三元组,确定所确定的对象是否与该三元组的主语或宾语匹配;
响应于确定所确定的对象与该三元组的主语匹配,合并修饰所确定的对象的数量词、定语以及该三元组的主语,确定合并后的文本为该三元组的主语;
响应于确定所确定的对象与该三元组的宾语匹配,合并修饰所确定的对象的数量词、定语以及该三元组的宾语,确定合并后的文本为该三元组的宾语。
4.根据权利要求1-3任一项所述的方法,其中,所述根据所述至少一个三元组中三元组包括的词语以及匹配得到三元组的句法结构树的预设权重,从所述至少一个三元组中确定目标三元组,包括:
对于所述至少一个三元组中的三元组,确定匹配得到该三元组的句法结构树的预设权重;确定该三元组中包括的词语的字数;确定该三元组中词语的共现度;根据所确定的权重、字数以及共现度,确定该三元组的评分;
确定所述至少一个三元组中评分最高的三元组为目标三元组。
5.根据权利要求1-3任一项所述的方法,其中,所述方法还包括:
获取至少一个历史目标三元组;
统计所述至少一个历史目标三元组中由同一句法结构树匹配得到的历史目标三元组的数量;
根据统计结果确定所述至少一个句法结构树的权重。
6.根据权利要求1所述的方法,其中,所述方法还包括:
根据所述目标三元组,从预设的历史事件信息集合中确定出与所述目标文本相关的至少一条历史事件信息;
确定所述目标文本与所述至少一条历史事件信息的相似度;
输出与所述目标文本相似度最高的历史事件信息。
7.根据权利要求6所述的方法,其中,历史事件信息包括参与者信息与触发词信息;以及
所述根据所述目标三元组,从预设的历史事件信息集合中确定出与所述目标文本相关的至少一条历史事件信息,包括:
确定以下条件是否满足:所述目标三元组的主语或宾语与所述历史事件信息集合中历史事件信息的参与者信息匹配、所述目标三元组的谓语与所述历史事件信息集合中历史事件信息的触发词信息匹配;
确定满足以上条件中的至少一项的历史事件信息与所述目标文本相关。
8.根据权利要求6所述的方法,其中,历史事件信息包括关键词;以及
所述确定所述目标文本与所述至少一条历史事件信息的相似度,包括:
对所述目标文本进行切分,得到第一词语集合;
对于所述至少一条历史事件信息中的历史事件信息,拼接该历史事件信息包括的关键词,对拼接得到的文本进行切分,得到第二词语集合;根据所述第一词语集合与所述第二词语集合,确定所述目标文本与该历史事件信息的相似度。
9.一种用于生成信息的装置,包括:
目标文本接收单元,被配置成接收目标文本,所述目标文本包括对象和针对所述对象的描述信息;
依存树生成单元,被配置成对所述目标文本进行依存句法分析,生成所述目标文本的依存树;
三元组确定单元,被配置成将预设的至少一个句法结构树与所述依存树进行匹配,得到至少一个三元组,其中,三元组包括主语、谓语和宾语;
目标三元组确定单元,被配置成根据所述至少一个三元组中三元组包括的词语以及匹配得到三元组的句法结构树的预设权重,从所述至少一个三元组中确定目标三元组。
10.根据权利要求9所述的装置,其中,所述目标三元组确定单元包括:
定语确定模块,被配置成根据所述依存树,确定所述目标文本中的数量词以及定语;
对象确定模块,被配置成确定所述数量词修饰的对象以及所述定语修饰的对象;
三元组更新模块,被配置成根据所确定的数量词、定语、对象,更新所述至少一个三元组;
目标三元组确定模块,被配置成从更新的至少一个三元组中确定目标三元组。
11.根据权利要求10所述的装置,其中,所述三元组更新模块进一步被配置成:
对于所述至少一个三元组中的三元组,确定所确定的对象是否与该三元组的主语或宾语匹配;
响应于确定所确定的对象与该三元组的主语匹配,合并修饰所确定的对象的数量词、定语以及该三元组的主语,确定合并后的文本为该三元组的主语;
响应于确定所确定的对象与该三元组的宾语匹配,合并修饰所确定的对象的数量词、定语以及该三元组的宾语,确定合并后的文本为该三元组的宾语。
12.根据权利要求9-11任一项所述的装置,其中,所述目标三元组确定单元进一步被配置成:
对于所述至少一个三元组中的三元组,确定匹配得到该三元组的句法结构树的预设权重;确定该三元组中包括的词语的字数;确定该三元组中词语的共现度;根据所确定的权重、字数以及共现度,确定该三元组的评分;
确定所述至少一个三元组中评分最高的三元组为目标三元组。
13.根据权利要求9-11任一项所述的装置,其中,所述装置还包括权重设置单元,所述权重设置单元包括:
历史目标三元组模块,被配置成获取至少一个历史目标三元组;
三元组数量统计模块,被配置成统计所述至少一个历史目标三元组中由同一句法结构树匹配得到的历史目标三元组的数量;
权重确定模块,被配置成根据统计结果确定所述至少一个句法结构树的权重。
14.根据权利要求9所述的装置,其中,所述装置还包括:
历史事件信息确定单元,被配置成根据所述目标三元组,从预设的历史事件信息集合中确定出与所述目标文本相关的至少一条历史事件信息;
相似度确定单元,被配置成确定所述目标文本与所述至少一条历史事件信息的相似度;
历史事件信息输出单元,被配置成输出与所述目标文本相似度最高的历史事件信息。
15.根据权利要求14所述的装置,其中,历史事件信息包括参与者信息与触发词信息;以及
所述历史事件信息确定单元进一步被配置成:
确定以下条件是否满足:所述目标三元组的主语或宾语与所述历史事件信息集合中历史事件信息的参与者信息匹配、所述目标三元组的谓语与所述历史事件信息集合中历史事件信息的触发词信息匹配;
确定满足以上条件中的至少一项的历史事件信息与所述目标文本相关。
16.根据权利要求14所述的装置,其中,历史事件信息包括关键词;以及
所述相似度确定单元进一步被配置成:
对所述目标文本进行切分,得到第一词语集合;
对于所述至少一条历史事件信息中的历史事件信息,拼接该历史事件信息包括的关键词,对拼接得到的文本进行切分,得到第二词语集合;根据所述第一词语集合与所述第二词语集合,确定所述目标文本与该历史事件信息的相似度。
17.一种设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。
18.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
CN201810567936.0A 2018-06-05 2018-06-05 用于生成信息的方法、装置、电子设备及可读介质 Active CN110569494B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201810567936.0A CN110569494B (zh) 2018-06-05 2018-06-05 用于生成信息的方法、装置、电子设备及可读介质
KR1020190029040A KR102290767B1 (ko) 2018-06-05 2019-03-14 정보를 생성하기 위한 방법 및 장치
EP19162972.4A EP3579119A1 (en) 2018-06-05 2019-03-14 Method and apparatus for recognizing event information in text
US16/355,304 US11494420B2 (en) 2018-06-05 2019-03-15 Method and apparatus for generating information
JP2019052668A JP6849723B2 (ja) 2018-06-05 2019-03-20 情報を生成するための方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810567936.0A CN110569494B (zh) 2018-06-05 2018-06-05 用于生成信息的方法、装置、电子设备及可读介质

Publications (2)

Publication Number Publication Date
CN110569494A true CN110569494A (zh) 2019-12-13
CN110569494B CN110569494B (zh) 2023-04-07

Family

ID=65817830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810567936.0A Active CN110569494B (zh) 2018-06-05 2018-06-05 用于生成信息的方法、装置、电子设备及可读介质

Country Status (5)

Country Link
US (1) US11494420B2 (zh)
EP (1) EP3579119A1 (zh)
JP (1) JP6849723B2 (zh)
KR (1) KR102290767B1 (zh)
CN (1) CN110569494B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128200A (zh) * 2019-12-31 2021-07-16 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN113761919A (zh) * 2020-06-04 2021-12-07 国家计算机网络与信息安全管理中心 一种口语化短文本的实体属性提取方法及电子装置
CN116679889A (zh) * 2023-07-31 2023-09-01 苏州浪潮智能科技有限公司 Raid设备配置信息的确定方法及装置、存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027312B (zh) * 2019-12-12 2024-04-19 中金智汇科技有限责任公司 文本扩充方法、装置、电子设备及可读存储介质
CN111274391B (zh) * 2020-01-15 2023-09-01 北京百度网讯科技有限公司 一种spo的抽取方法、装置、电子设备及存储介质
CN113094469B (zh) * 2021-04-02 2022-07-05 清华大学 文本数据分析方法、装置、电子设备及存储介质
CN113245734B (zh) * 2021-05-11 2023-06-16 无锡先导智能装备股份有限公司 配置参数推荐方法、系统、仪器和存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968431A (zh) * 2012-09-18 2013-03-13 华东师范大学 一种基于依存树的中文实体关系挖掘的控制装置
CN103473223A (zh) * 2013-09-25 2013-12-25 中国科学院计算技术研究所 一种基于句法树的规则抽取及翻译方法
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和系统
CN104331480A (zh) * 2014-11-07 2015-02-04 苏州大学 一种中文事件触发词的抽取系统及方法
CN104462327A (zh) * 2014-12-02 2015-03-25 百度在线网络技术(北京)有限公司 语句相似度的计算、搜索处理方法及装置
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN105574092A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
CN105912575A (zh) * 2016-03-31 2016-08-31 百度在线网络技术(北京)有限公司 文字信息推送方法和装置
CN105975458A (zh) * 2016-05-03 2016-09-28 安阳师范学院 一种基于细粒度依存关系的中文长句相似度计算方法
US20170228372A1 (en) * 2016-02-08 2017-08-10 Taiger Spain Sl System and method for querying questions and answers
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107748742A (zh) * 2017-06-16 2018-03-02 平安科技(深圳)有限公司 一种基于句法依存关系提取中心词的方法、终端以及设备
CN107908637A (zh) * 2017-09-26 2018-04-13 北京百度网讯科技有限公司 一种基于知识库的实体更新方法及系统
CN107977379A (zh) * 2016-10-25 2018-05-01 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4625535B1 (ja) * 2009-12-14 2011-02-02 株式会社野村総合研究所 情報抽出システム及び情報抽出プログラム
US9336205B2 (en) * 2012-04-10 2016-05-10 Theysay Limited System and method for analysing natural language
US9817810B2 (en) * 2012-11-07 2017-11-14 International Business Machines Corporation SVO-based taxonomy-driven text analytics
KR101475439B1 (ko) 2013-02-18 2014-12-24 주식회사 솔트룩스 사용자에게 최적화된 관심 정보를 제공하기 위한 시스템 및 방법
US20150127323A1 (en) * 2013-11-04 2015-05-07 Xerox Corporation Refining inference rules with temporal event clustering
KR101396131B1 (ko) * 2013-11-18 2014-05-19 한국과학기술정보연구원 패턴 기반 관계 유사도 측정 장치 및 방법
US20150370787A1 (en) * 2014-06-18 2015-12-24 Microsoft Corporation Session Context Modeling For Conversational Understanding Systems
US10110533B2 (en) * 2014-10-28 2018-10-23 Salesforce.Com, Inc. Identifying entities in email signature blocks
US20170083817A1 (en) * 2015-09-23 2017-03-23 Isentium, Llc Topic detection in a social media sentiment extraction system
KR101768852B1 (ko) * 2016-01-26 2017-08-17 경북대학교 산학협력단 트리플 데이터의 생성 방법 및 시스템
US20170357625A1 (en) * 2016-06-14 2017-12-14 Northrop Grumman Systems Corporation Event extraction from documents
EP3462331B1 (en) * 2017-09-29 2021-08-04 Tata Consultancy Services Limited Automated cognitive processing of source agnostic data

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968431A (zh) * 2012-09-18 2013-03-13 华东师范大学 一种基于依存树的中文实体关系挖掘的控制装置
CN103473223A (zh) * 2013-09-25 2013-12-25 中国科学院计算技术研究所 一种基于句法树的规则抽取及翻译方法
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和系统
CN104331480A (zh) * 2014-11-07 2015-02-04 苏州大学 一种中文事件触发词的抽取系统及方法
CN104462327A (zh) * 2014-12-02 2015-03-25 百度在线网络技术(北京)有限公司 语句相似度的计算、搜索处理方法及装置
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN105574092A (zh) * 2015-12-10 2016-05-11 百度在线网络技术(北京)有限公司 信息挖掘方法和装置
US20170228372A1 (en) * 2016-02-08 2017-08-10 Taiger Spain Sl System and method for querying questions and answers
CN105912575A (zh) * 2016-03-31 2016-08-31 百度在线网络技术(北京)有限公司 文字信息推送方法和装置
CN105975458A (zh) * 2016-05-03 2016-09-28 安阳师范学院 一种基于细粒度依存关系的中文长句相似度计算方法
CN107977379A (zh) * 2016-10-25 2018-05-01 百度国际科技(深圳)有限公司 用于挖掘信息的方法和装置
CN107291687A (zh) * 2017-04-27 2017-10-24 同济大学 一种基于依存语义的中文无监督开放式实体关系抽取方法
CN107748742A (zh) * 2017-06-16 2018-03-02 平安科技(深圳)有限公司 一种基于句法依存关系提取中心词的方法、终端以及设备
CN107908637A (zh) * 2017-09-26 2018-04-13 北京百度网讯科技有限公司 一种基于知识库的实体更新方法及系统

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
GUANNGXU: "基于依存句法分析的开放式中文实体关系抽取", 《HTTPS://BLOG.CSDN.NET/HEUGUANGXU/ARTICLE/DETAILS/80088489》 *
SHANSHAN ZHENG;JING YANG;XIN LIN;JUNZHONG GU: "Dependency Tree Based Chinese Relation Extraction over Web Data", 《2012 SEVENTH INTERNATIONAL CONFERENCE ON KNOWLEDGE, INFORMATION AND CREATIVITY SUPPORT SYSTEMS》 *
SHIVAM5992 BANSAL: "Introduction to Computational Linguistics and Dependency Trees in data science", 《HTTPS://WWW.ANALYTICSVIDHYA.COM/BLOG/2017/12/INTRODUCTION-COMPUTATIONAL-LINGUISTICS-DEPENDENCY-TREES》 *
唐亮等: "基于特征相似度的跨语言事件映射", 《计算机应用》 *
唐晓波等: "基于依存句法网络的文本特征提取研究", 《现代图书情报技术》 *
宋卿,戚成琳,杨越: "基于Bootstrapping的新闻事件型实体关系抽取方法", 《中国传媒大学学报(自然科学版)》 *
张仰森等: "一种基于语义关系图的词语语义相关度计算模型", 《自动化学报》 *
李剑锋,杨芸,周昌乐: "一种基于汉语隐喻依存句法树的嵌入式树匹配算法", 《厦门大学学报(自然科学版)》 *
李玉娥: "基于依存句法分析的语义三元组构建的研究与实现", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *
王丹丹徐金安陈钰枫张玉洁杨晓晖: "融合词法句法分析联合模型的树到串EBMT方法", 《北京大学学报(自然科学版)》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128200A (zh) * 2019-12-31 2021-07-16 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN113128200B (zh) * 2019-12-31 2023-07-21 北京百度网讯科技有限公司 用于处理信息的方法和装置
CN113761919A (zh) * 2020-06-04 2021-12-07 国家计算机网络与信息安全管理中心 一种口语化短文本的实体属性提取方法及电子装置
CN116679889A (zh) * 2023-07-31 2023-09-01 苏州浪潮智能科技有限公司 Raid设备配置信息的确定方法及装置、存储介质
CN116679889B (zh) * 2023-07-31 2023-11-03 苏州浪潮智能科技有限公司 Raid设备配置信息的确定方法及装置、存储介质

Also Published As

Publication number Publication date
CN110569494B (zh) 2023-04-07
JP6849723B2 (ja) 2021-03-24
KR102290767B1 (ko) 2021-08-17
EP3579119A1 (en) 2019-12-11
JP2019212289A (ja) 2019-12-12
KR20190138562A (ko) 2019-12-13
US11494420B2 (en) 2022-11-08
US20190370272A1 (en) 2019-12-05

Similar Documents

Publication Publication Date Title
CN110569494B (zh) 用于生成信息的方法、装置、电子设备及可读介质
US10559308B2 (en) System for determining user intent from text
US10019437B2 (en) Facilitating information extraction via semantic abstraction
US20200057946A1 (en) Techniques for building a knowledge graph in limited knowledge domains
US9916303B2 (en) Answering time-sensitive questions
US10630798B2 (en) Artificial intelligence based method and apparatus for pushing news
US20210082410A1 (en) Using semantic frames for intent classification
WO2019224629A1 (en) Training data expansion for natural language classification
US10776579B2 (en) Generation of variable natural language descriptions from structured data
US10032448B1 (en) Domain terminology expansion by sensitivity
US20140258205A1 (en) Inner passage relevancy layer for large intake cases in a deep question answering system
US20160260166A1 (en) Identification, curation and trend monitoring for uncorrelated information sources
CN110807311B (zh) 用于生成信息的方法和装置
US9507767B2 (en) Caching of deep structures for efficient parsing
US20220222442A1 (en) Parameter learning apparatus, parameter learning method, and computer readable recording medium
US9208142B2 (en) Analyzing documents corresponding to demographics
CN111126073B (zh) 语义检索方法和装置
US10699069B2 (en) Populating spreadsheets using relational information from documents
CN111368036B (zh) 用于搜索信息的方法和装置
JP5225219B2 (ja) 述語項構造解析方法、その装置及びプログラム
JP2020035427A (ja) 情報を更新するための方法と装置
US12002456B2 (en) Using semantic frames for intent classification
US20240127004A1 (en) Multi-lingual natural language generation
WO2023211370A2 (en) Semantic parsing for short text
CN115422907A (zh) 一种多维度科技项目立项查重的方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant