CN109582954A - 用于输出信息的方法和装置 - Google Patents
用于输出信息的方法和装置 Download PDFInfo
- Publication number
- CN109582954A CN109582954A CN201811325147.2A CN201811325147A CN109582954A CN 109582954 A CN109582954 A CN 109582954A CN 201811325147 A CN201811325147 A CN 201811325147A CN 109582954 A CN109582954 A CN 109582954A
- Authority
- CN
- China
- Prior art keywords
- event
- target text
- information
- text
- syntax tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了用于输出信息的方法和装置。该方法的一具体实施方式包括:获取目标文本;对目标文本进行句法分析,构建句法树,其中,句法树的每个节点具有对应的词汇集合;基于句法树,对目标文本进行结构划分,获得针对目标文本的结构信息,其中,结构信息用于表征目标文本的基本结构;将所获得的结构信息输入预先训练的事件提取模型,获得针对目标文本的事件空间向量并输出,其中,事件空间向量包括事件影响主体和事件类型,事件提取模型用于表征文本的结构信息与事件空间向量的对应关系。该实施方式提高了对文本分析以获得文本所涉及的事件的相关信息的效率。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于输出信息的方法和装置。
背景技术
随着计算机技术网络技术的发展,越来越多的信息出现在网络上,这些信息可以对人们的生活和工作具有指导和参考意义。人们如果需要从网络上获得某些信息,需要进行检索,从大量的信息中提取出子集需要的信息。当检索出的信息数量庞大时,人们需要从庞大的信息量中提取有用的信息(例如对股票市场产生影响的新闻、评论等信息),进而对这些进行分析,效率较低。
发明内容
本申请实施例提出了一种改进的用于输出信息的方法和装置,来解决以上背景技术部分提到的技术问题。
第一方面,本申请实施例提供了一种用于输出信息的方法,该方法包括:获取目标文本;对目标文本进行句法分析,构建句法树,其中,句法树的每个节点具有对应的词汇集合;基于句法树,对目标文本进行结构划分,获得针对目标文本的结构信息,其中,结构信息用于表征目标文本的基本结构;将所获得的结构信息输入预先训练的事件提取模型,获得针对目标文本的事件空间向量并输出,其中,事件空间向量包括事件影响主体和事件类型,事件提取模型用于表征文本的结构信息与事件空间向量的对应关系。
在一些实施例中,对目标文本进行句法分析,构建句法树,包括:基于以下至少一种算法,对目标文本进行句法分析,构建句法树:切词算法、词性标注算法、命名实体识别算法、句法语法依赖分析算法。
在一些实施例中,结构信息包括以下至少一种:执行主体、被执行主体、关联动词。
在一些实施例中,事件空间向量还包括事件涉及方面信息和事件描述信息,其中,事件涉及方面信息用于表征执行事件的主体相关的信息,事件描述信息用于表征事件影响主体涉及的行为或者评价。
在一些实施例中,在将所获得的结构信息输入预先训练的事件提取模型,获得针对目标文本的事件空间向量并输出之后,该方法还包括:基于所输出的事件空间向量,生成推荐信息并输出,其中,推荐信息用于表征事件影响主体的推荐程度。
在一些实施例中,事件提取模型通过如下步骤训练得到:获取训练样本集合,其中,训练样本包括样本文本和针对样本文本的样本事件评价信息;利用机器学习方法,基于预设的深度学习模型,将每个训练样本包括的样本文本作为输入,将每个训练样本包括的样本事件评价信息作为输出,训练得到事件提取模型。
在一些实施例中,深度学习模型为有限自动机。
第二方面,本申请实施例提供了一种用于输出信息的装置,该装置包括:第一获取单元,用于获取目标文本;构建单元,用于对目标文本进行句法分析,构建句法树,其中,句法树的每个节点具有对应的词汇集合;划分单元,用于基于句法树,对目标文本进行结构划分,获得针对目标文本的结构信息,其中,结构信息用于表征目标文本的基本结构;第一输出单元,用于将所获得的结构信息输入预先训练的事件提取模型,获得针对目标文本的事件空间向量并输出,其中,事件空间向量包括事件影响主体和事件类型,事件提取模型用于表征文本的结构信息与事件空间向量的对应关系。
在一些实施例中,构建模块进一步配置用于:基于以下至少一种算法,对目标文本进行句法分析,构建句法树:切词算法、词性标注算法、命名实体识别算法、句法语法依赖分析算法。
在一些实施例中,结构信息包括以下至少一种:执行主体、被执行主体、关联动词。
在一些实施例中,事件空间向量还包括事件涉及方面信息和事件描述信息,其中,事件涉及方面信息用于表征执行事件的主体相关的信息,事件描述信息用于表征事件影响主体涉及的行为或者评价。
在一些实施例中,该装置还包括:第二输出单元,用于基于所输出的事件空间向量,生成推荐信息并输出,其中,推荐信息用于表征事件影响主体的推荐程度。
在一些实施例中,该装置还包括:第二获取单元,用于获取训练样本集合,其中,训练样本包括样本文本和针对样本文本的样本事件评价信息;训练单元,用于利用机器学习方法,基于预设的深度学习模型,将每个训练样本包括的样本文本作为输入,将每个训练样本包括的样本事件评价信息作为输出,训练得到事件提取模型。
在一些实施例中,深度学习模型为有限自动机。
本申请实施例提供的用于输出信息的方法和装置,通过对获取的目标文本进行分析,构建句法树,再基于句法树得到目标文本的结构信息,最后利用事件提取模型,提取事件空间向量并输出,提高了对文本分析以获得文本所涉及的事件的相关信息的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的用于输出信息的方法的一个实施例的流程图;
图3是根据本申请的用于输出信息的方法的句法树的示例性示意图;
图4是根据本申请的用于输出信息的方法的事件空间向量的示例性示意图;
图5是根据本申请的用于输出信息的方法的又一事件空间向量的示例性示意图;
图6是根据本申请的用于输出信息的方法的另一事件空间向量的示例性示意图;
图7是根据本申请的用于输出信息的装置的一个实施例的结构示意图;
图8是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于输出信息的方法或用于输出信息的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种信息处理类应用。
终端设备101、102、103可以是具有数据处理应用的各种设备,包括但不限于台式计算机、数据服务器等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103或其他服务器上产生的文本进行处理的后台信息处理服务器。后台信息处理服务器可以对获取的文本进行分析、处理,并将处理结果(例如产生的推荐信息)反馈给终端设备。
需要说明的是,本申请实施例所提供的用于输出信息的方法一般由服务器105执行,相应地,用于输出信息的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于输出信息的方法的一个实施例的流程200。该用于输出信息的方法,包括以下步骤:
步骤201,获取目标文本。
在本实施例中,用于输出信息的方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式从远程获取目标文本,也可以从上述电子设备本身获取目标文本。其中,目标文本可以是预先设置的文本列表或文本集合中的文本。目标文本可以是某篇文章的题目、正文等。例如,目标文本可以是上述电子设备从互联网中获取的经济类新闻的题目或正文。
步骤202,对目标文本进行句法分析,构建句法树。
在本实施例中,基于步骤201中获取的目标文本,上述电子设备可以对目标文本进行句法分析,构建句法树。其中,句法树的每个节点具有对应的词汇集合。上述电子设备可以首先对目标文本进行切词,得到组成上述目标文本的多个词汇,再通过各种句法分析算法,得到词汇之间的语法关系,从而构建句法树。
句法分析(Parsing)通常是指对句子中的词语语法功能进行分析。在这里,句法分析的作用是分析出目标文本中的词汇信息的结构关系。例如,上述电子设备对获取的目标文本进行切词和分析,从而得出各词汇之间的结构关系。根据这些结构关系,电子设备可以将切词得到的词汇序列中的各个词汇依次存储在树形结构的节点。然后根据各词之间的结构关系,生成树形结构各层中的节点直至根节点。此时的树形结构即为与该词序列对应的句法树。也就是说,句法树是一种表征一组词序列中各词之间的结构关系的树形结构。
作为示例,电子设备可以对目标文本“A公司诉讼B公司侵权”进行句法分析,并生成与该目标文本对应的句法树。如图3(a)所示,对该目标文本进行切词后得到的词序列为“A,公司,诉讼,B,公司,侵权”。在与该搜索语句对应的句法树中,词序列中的各词位于句法树的各个节点。且根据句法分析得到的结构关系,句法树的各节点中还可以包含词性标签,用于描述词的词性。如图3中的“NN”表示名词或名词短语,“EX”表示助词,“PRP”表示人称代词,“NNP”表示介词短语,“V”表示动词。句法树中的父节点和子节点之间的连线可以表征节点之间的语义关系。如图3(a)中的根节点301表征目标文本的主体,节点301和节点302之间的连线表征主体的下一个语义单元,节点302和节点304之间的连线表征上述动作的执行者,节点301和节点303之间的连线表征从主体提取的主语。同样的,如图3(b)所示,电子设备还可以对目标文本“我朋友把B车换成A车了”进行句法分析,并生成与该目标文本对应的句法树。对该目标文本进行切词后得到的词序列为“我,朋友,把,B车,换成,A车,了”,其中,切词后得到的各个词及词性如图3(b)中的305-311所示。可以理解的是,句法分析是常用的分析方法,而且现有技术中句法分析技术已比较成熟,在此不再赘述。
在本实施例的一些可选的实现方式中,上述电子设备可以基于以下至少一种算法,对目标文本进行句法分析,构建句法树:切词算法、词性标注算法、命名实体识别算法、句法语法依赖分析算法等。
步骤203,基于句法树,对目标文本进行结构划分,获得针对目标文本的结构信息。
在本实施例中,基于步骤202构建的句法树,上述电子设备可以基于句法树,对目标文本进行结构划分,获得针对目标文本的结构信息。其中,结构信息用于表征目标文本的基本结构。上述电子设备可以根据句法树中标注的词性、句法树中的结点之间的语义关系,对目标文本进行结构划分,得到结构信息。例如,对于目标文本“XX手机售后服务真是又快又好”,得到的结构信息为“XX手机,售后服务,快,好”。
在本实施例的一些可选的实现方式中,结构信息可以包括以下至少一种:执行主体、被执行主体、关联动词。示例性的,如图3所示,针对目标文本“A公司诉讼B公司侵权”,上述电子设备获得的结构信息为:“执行主体:A公司诉讼,被执行主体:B公司,关联动词:侵权”。
步骤204,将所获得的结构信息输入预先训练的事件提取模型,获得针对目标文本的事件空间向量并输出。
在本实施例中,基于步骤203获得的结构信息,上述电子设备可以将所获得的结构信息输入预先训练的事件提取模型,获得针对目标文本的事件空间向量并输出。其中,事件空间向量可以包括事件影响主体和事件类型。事件影响主体用于表征事件影响的主体。事件类型用于表征事件对事件影响主体造成的影响的类型(例如,负面、正面、无影响等)。上述事件空间向量可以是多个事件空间子向量的集合,其中,每个事件空间子向量表征一个事件的事件空间向量。例如,同时有多个Negatives事件,则分别以Negatives_1、Negative_2,…,Negative_n命名。
在本实施例的一些可选的实现方式中,上述事件空间向量还可以包括事件涉及方面信息和事件描述信息。其中,事件涉及方面信息用于表征执行事件的主体相关的信息。事件描述信息用于表征事件影响主体涉及的行为或者评价。如图4所示,事件空间向量401为Negtive(Object,Action),其中,事件空间向量401的名称Negtive为事件类型402,表征该事件为负面信息,Object为事件影响主体403,表征该事件对B公司造成影响,Action为事件描述信息404,表征事件影响主体B公司有侵权行为。
如图5所示,事件空间向量401在如图4所示的事件空间向量的基础上增加了事件涉及方面信息405,其中,事件涉及方面信息405用于表征该事件中,涉及的“A公司诉讼”方面的信息对事件影响主体403造成了影响。
需要说明的是,除了上述事件空间向量的表达形式,本实施例还可以采用多种形式表征事件空间向量。例如,事件空间向量Positive(Object,Aspect,SubjQuality)表征某事件对事件影响对主体(Object)的某方面(Aspect)具有正面的影响;事件空间向量Preference(PreferredObject,AlternativeObject)表征事件对事件影响主体PreferredObject进行了正面影响,对事件影响主体AlternativeObject进行了负面影响。如图6(a)所示,目标文本为“XX手机售后服务真是又快又好”,对应的事件空间向量601为Positive(Object,Aspect,SubjQuality1,SubjQuality2),其中,事件空间向量601的名称Positive为事件类型602,表征该事件为正面信息,Object为事件影响主体603,Aspect为事件涉及方面信息604,SubjQuality1为事件描述信息605,SubjQuality2为事件描述信息606。如图6(b)所示,目标文本为“我朋友把B车换成A车了”,对应的事件空间向量607为Preference(PreferredObject,AlternativeObject),其中,事件空间向量607的名称Preference为事件类型608,表征该事件为参考信息,PreferredObject为事件影响主体609,AlternativeObject为事件影响主体610。
在本实施例中,事件提取模型用于表征文本的结构信息与事件空间向量的对应关系。作为示例,事件提取模型可以是技术人员基于对大量的文本和事件空间向量的统计而预先制定的、存储有多个文本与事件空间向量的对应关系的对应关系表;也可以是技术人员利用机器学习方法,基于预先获取的大量的训练样本进行训练而得到的模型。通过事件提取模型提取的针对目标文本的事件空间向量,可以更加快速、准确地反映目标文本对应的事件的影响情况,为人们提供更准确的决策信息。
在本实施例的一些可选的实现方式中,上述事件提取模型可以通过如下步骤训练得到:
首先,上述电子设备获取训练样本集合,其中,训练样本包括样本文本和针对样本文本的样本事件评价信息。例如,训练样本可以是针对文本的结构信息“C公司陷入,XX危机”,该训练样本的评价信息设置为“负面信息”。
利用机器学习方法,基于预设的深度学习模型,将每个训练样本包括的样本文本作为输入,将每个训练样本包括的样本事件评价信息作为输出,训练得到事件提取模型。
具体的,上述电子设备可以使用深度学习模型(例如有限自动机、卷积神经网络、循环神经网络等),将上述样本文本作为模型的输入,将上述事件评价信息作为对应的模型的输出,利用有监督的机器学习方法,对该模型进行训练,得到事件提取模型。上述训练样本集合可以是技术人员利用互联网公开的语料,以及人类的先验知识,构造的海量的训练样本,这样可以兼顾了人类先验知识的准确性和深度模型的泛化能力。需要说明的是,上述深度学习模型的原理和应用方法是目前广泛研究和应用的公知技术,在此不再赘述。
在本实施例的一些可选的实现方式中,上述深度学习模型为有限自动机。有限自动机(或称为有穷状态的机器)是一种有限离散数字系统的抽象数学模型,它由一个有限的内部状态集和一组控制规则组成,这些规则是用来控制在当前状态下读入输入符号后应转向什么状态。
在本实施例的一些可选的实现方式中,上述电子设备还可以在将所获得的结构信息输入预先训练的事件提取模型,获得针对目标文本的事件空间向量并输出之后,执行如下步骤:基于所输出的事件空间向量,生成推荐信息并输出。其中,推荐信息用于表征事件影响主体的推荐程度。作为示例,假设事件空间向量为如图5所示的事件空间向量401,则上述电子设备可以生成如下形式的推荐信息:“推荐对象:B公司,推荐理由:A公司诉讼,推荐结果:不推荐”。上述电子设备在生成推荐信息并输出后,还可以进一步将上述推荐信息发送至预设的设备,例如图1所示的终端设备,或者在预设的显示设备上显示上述推荐信息,以使用户根据推荐信息进行进一步的决策。
应当理解,上述推荐信息还可以是以列表的形式呈现在用户所使用的终端设备上。例如,在推荐信息列表中,可以包括多个事件相关的推荐信息,没条推荐信息包括针对一个文本所对应的事件的推荐结果。
本申请的上述实施例提供的方法,通过对获取的目标文本进行分析,构建句法树,再基于句法树得到目标文本的结构信息,最后利用事件提取模型,提取事件空间向量并输出,提高了对文本分析以获得文本所涉及的事件的相关信息的效率。
进一步参考图7,作为对上述各图所示方法的实现,本申请提供了一种用于输出信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例的用于输出信息的装置700包括:第一获取单元701,用于获取目标文本;构建单元702,用于对目标文本进行句法分析,构建句法树,其中,句法树的每个节点具有对应的词汇集合;划分单元703,用于基于句法树,对目标文本进行结构划分,获得针对目标文本的结构信息,其中,结构信息用于表征目标文本的基本结构;第一输出单元704,用于将所获得的结构信息输入预先训练的事件提取模型,获得针对目标文本的事件空间向量并输出,其中,事件空间向量包括事件影响主体和事件类型,事件提取模型用于表征文本的结构信息与事件空间向量的对应关系。
在本实施例中,用于输出信息的装置700的第一获取单元701可以通过有线连接方式或者无线连接方式从远程获取目标文本,也可以从上述电子设备本身获取目标文本。其中,目标文本可以是预先设置的文本列表或文本集合中的文本。
在本实施例中,基于第一获取单元701获取的目标文本,上述构建单元702可以对目标文本进行句法分析,构建句法树。其中,句法树的每个节点具有对应的词汇集合。上述构建单元702可以首先对目标文本进行切词,得到组成上述目标文本的多个词汇,再通过各种句法分析算法,得到词汇之间的语法关系,从而构建句法树。
在本实施例中,基于构建单元702构建的句法树,上述划分单元703可以基于句法树,对目标文本进行结构划分,获得针对目标文本的结构信息。其中,结构信息用于表征目标文本的基本结构。上述划分单元703可以根据句法树中标注的词性、句法树中的结点之间的语义关系,对目标文本进行结构划分,得到结构信息。
在本实施例中,基于划分单元703获得的结构信息,上述第一输出单元704可以将所获得的结构信息输入预先训练的事件提取模型,获得针对目标文本的事件空间向量并输出。
在本实施例的一些可选的实现方式中,构建模块可以进一步配置用于:基于以下至少一种算法,对目标文本进行句法分析,构建句法树:切词算法、词性标注算法、命名实体识别算法、句法语法依赖分析算法。
在本实施例的一些可选的实现方式中,结构信息包括以下至少一种:执行主体、被执行主体、关联动词。
在本实施例的一些可选的实现方式中,事件空间向量还包括事件涉及方面信息和事件描述信息,其中,事件涉及方面信息用于表征执行事件的主体相关的信息,事件描述信息用于表征事件影响主体涉及的行为或者评价。
在本实施例的一些可选的实现方式中,用于输出信息的装置700还可以包括:第二输出单元,用于基于所输出的事件空间向量,生成推荐信息并输出,其中,推荐信息用于表征事件影响主体的推荐程度。
在本实施例的一些可选的实现方式中,用于输出信息的装置700还可以包括:第二获取单元,用于获取训练样本集合,其中,训练样本包括样本文本和针对样本文本的样本事件评价信息;训练单元,用于利用机器学习方法,基于预设的深度学习模型,将每个训练样本包括的样本文本作为输入,将每个训练样本包括的样本事件评价信息作为输出,训练得到事件提取模型。
在本实施例的一些可选的实现方式中,深度学习模型可以为有限自动机。
本申请的上述实施例提供的装置,通过对获取的目标文本进行分析,构建句法树,再基于句法树得到目标文本的结构信息,最后利用事件提取模型,提取事件空间向量并输出,提高了对文本分析以获得文本所涉及的事件的相关信息的效率。
下面参考图8,其示出了适于用来实现本申请实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括第一获取单元、构建单元、划分单元和第一输出单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,接收单元还可以被描述为“获取目标文本的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取目标文本;对目标文本进行句法分析,构建句法树,其中,句法树的每个节点具有对应的词汇集合;基于句法树,对目标文本进行结构划分,获得针对目标文本的结构信息,其中,结构信息用于表征目标文本的基本结构;将所获得的结构信息输入预先训练的事件提取模型,获得针对目标文本的事件空间向量并输出,其中,其中,事件空间向量包括事件影响主体和事件类型,事件提取模型用于表征文本的结构信息与事件空间向量的对应关系。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种用于输出信息的方法,其特征在于,所述方法包括:
获取目标文本;
对所述目标文本进行句法分析,构建句法树,其中,所述句法树的每个节点具有对应的词汇集合;
基于所述句法树,对所述目标文本进行结构划分,获得针对所述目标文本的结构信息,其中,所述结构信息用于表征所述目标文本的基本结构;
将所获得的结构信息输入预先训练的事件提取模型,获得针对所述目标文本的事件空间向量并输出,其中,所述事件空间向量包括事件影响主体和事件类型,所述事件提取模型用于表征文本的结构信息与事件空间向量的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标文本进行句法分析,构建句法树,包括:
基于以下至少一种算法,对所述目标文本进行句法分析,构建句法树:切词算法、词性标注算法、命名实体识别算法、句法语法依赖分析算法。
3.根据权利要求1所述的方法,其特征在于,所述结构信息包括以下至少一种:执行主体、被执行主体、关联动词。
4.根据权利要求1所述的方法,其特征在于,所述事件空间向量还包括事件涉及方面信息和事件描述信息,其中,所述事件涉及方面信息用于表征执行事件的主体相关的信息,所述事件描述信息用于表征事件影响主体涉及的行为或者评价。
5.根据权利要求1所述的方法,其特征在于,在所述将所获得的结构信息输入预先训练的事件提取模型,获得针对所述目标文本的事件空间向量并输出之后,所述方法还包括:
基于所输出的事件空间向量,生成推荐信息并输出,其中,所述推荐信息用于表征所述事件影响主体的推荐程度。
6.根据权利要求1-5之一所述的方法,其特征在于,所述事件提取模型通过如下步骤训练得到:
获取训练样本集合,其中,训练样本包括样本文本和针对样本文本的样本事件评价信息;
利用机器学习方法,基于预设的深度学习模型,将每个训练样本包括的样本文本作为输入,将每个训练样本包括的样本事件评价信息作为输出,训练得到所述事件提取模型。
7.根据权利要求5所述的方法,其特征在于,所述深度学习模型为有限自动机。
8.一种用于输出信息的装置,其特征在于,所述装置包括:
第一获取单元,用于获取目标文本;
构建单元,用于对所述目标文本进行句法分析,构建句法树,其中,所述句法树的每个节点具有对应的词汇集合;
划分单元,用于基于所述句法树,对所述目标文本进行结构划分,获得针对所述目标文本的结构信息,其中,所述结构信息用于表征所述目标文本的基本结构;
第一输出单元,用于将所获得的结构信息输入预先训练的事件提取模型,获得针对所述目标文本的事件空间向量并输出,其中,所述事件空间向量包括事件影响主体和事件类型,所述事件提取模型用于表征文本的结构信息与事件空间向量的对应关系。
9.根据权利要求8所述的装置,其特征在于,所述构建模块进一步配置用于:
基于以下至少一种算法,对所述目标文本进行句法分析,构建句法树:切词算法、词性标注算法、命名实体识别算法、句法语法依赖分析算法。
10.根据权利要求8所述的装置,其特征在于,所述结构信息包括以下至少一种:执行主体、被执行主体、关联动词。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2018100671273 | 2018-01-24 | ||
CN201810067127 | 2018-01-24 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109582954A true CN109582954A (zh) | 2019-04-05 |
Family
ID=65921897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811325147.2A Pending CN109582954A (zh) | 2018-01-24 | 2018-11-08 | 用于输出信息的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582954A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110891201A (zh) * | 2019-11-07 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、服务器和存储介质 |
CN111177319A (zh) * | 2019-12-24 | 2020-05-19 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
CN111459959A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111460296A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN112132262A (zh) * | 2020-09-08 | 2020-12-25 | 西安交通大学 | 基于可解释模型的循环神经网络后门攻击检测方法 |
CN112989797A (zh) * | 2021-03-10 | 2021-06-18 | 北京百度网讯科技有限公司 | 模型训练、文本扩展方法,装置,设备以及存储介质 |
CN115329756A (zh) * | 2021-10-21 | 2022-11-11 | 盐城金堤科技有限公司 | 执行主体的提取方法、装置、存储介质和电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915345A (zh) * | 2014-03-11 | 2015-09-16 | 华为技术有限公司 | 一种推荐服务信息的方法和终端 |
CN106959944A (zh) * | 2017-02-14 | 2017-07-18 | 中国电子科技集团公司第二十八研究所 | 一种基于中文语法规则的事件提取方法和系统 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
-
2018
- 2018-11-08 CN CN201811325147.2A patent/CN109582954A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915345A (zh) * | 2014-03-11 | 2015-09-16 | 华为技术有限公司 | 一种推荐服务信息的方法和终端 |
CN106959944A (zh) * | 2017-02-14 | 2017-07-18 | 中国电子科技集团公司第二十八研究所 | 一种基于中文语法规则的事件提取方法和系统 |
CN107122416A (zh) * | 2017-03-31 | 2017-09-01 | 北京大学 | 一种中文事件抽取方法 |
Non-Patent Citations (1)
Title |
---|
吴家皋 等: "HMM模型和句法分析相结合的事件属性信息抽取", 《南京师大学报(自然科学版)》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110891201B (zh) * | 2019-11-07 | 2022-11-01 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、服务器和存储介质 |
CN110891201A (zh) * | 2019-11-07 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 文本生成方法、装置、服务器和存储介质 |
CN111177319A (zh) * | 2019-12-24 | 2020-05-19 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
CN111177319B (zh) * | 2019-12-24 | 2024-08-27 | 中国建设银行股份有限公司 | 风险事件的确定方法、装置、电子设备和存储介质 |
CN111459959B (zh) * | 2020-03-31 | 2023-06-30 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111460296A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111460296B (zh) * | 2020-03-31 | 2023-08-04 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN111459959A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 用于更新事件集合的方法和装置 |
CN112132262B (zh) * | 2020-09-08 | 2022-05-20 | 西安交通大学 | 基于可解释模型的循环神经网络后门攻击检测方法 |
CN112132262A (zh) * | 2020-09-08 | 2020-12-25 | 西安交通大学 | 基于可解释模型的循环神经网络后门攻击检测方法 |
CN112989797A (zh) * | 2021-03-10 | 2021-06-18 | 北京百度网讯科技有限公司 | 模型训练、文本扩展方法,装置,设备以及存储介质 |
CN112989797B (zh) * | 2021-03-10 | 2023-11-14 | 北京百度网讯科技有限公司 | 模型训练、文本扩展方法,装置,设备以及存储介质 |
CN115329756A (zh) * | 2021-10-21 | 2022-11-11 | 盐城金堤科技有限公司 | 执行主体的提取方法、装置、存储介质和电子设备 |
CN115329756B (zh) * | 2021-10-21 | 2024-07-05 | 盐城天眼察微科技有限公司 | 执行主体的提取方法、装置、存储介质和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107491534B (zh) | 信息处理方法和装置 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN109582954A (zh) | 用于输出信息的方法和装置 | |
US10733197B2 (en) | Method and apparatus for providing information based on artificial intelligence | |
US9684876B2 (en) | Question answering system-based generation of distractors using machine learning | |
US20170337261A1 (en) | Decision Making and Planning/Prediction System for Human Intention Resolution | |
US20150310096A1 (en) | Comparing document contents using a constructed topic model | |
EP4322009A1 (en) | Test case generation method, apparatus and device | |
US8719025B2 (en) | Contextual voice query dilation to improve spoken web searching | |
CN108959531A (zh) | 信息搜索方法、装置、设备及存储介质 | |
CN111783450B (zh) | 语料文本中的短语提取方法、装置、存储介质及电子设备 | |
CN110275963A (zh) | 用于输出信息的方法和装置 | |
CN112148701A (zh) | 一种文件检索的方法及设备 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN111897965B (zh) | 话题生成方法、装置、存储介质和电子设备 | |
CN109190123A (zh) | 用于输出信息的方法和装置 | |
US12056184B2 (en) | Method and apparatus for generating description information of an image, electronic device, and computer readable storage medium | |
CN110245357A (zh) | 主实体识别方法和装置 | |
AU2019290658B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
US20230274161A1 (en) | Entity linking method, electronic device, and storage medium | |
CN116578700A (zh) | 日志分类方法、日志分类装置、设备及介质 | |
CN115620726A (zh) | 语音文本生成方法、语音文本生成模型的训练方法、装置 | |
CN115859999A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN115169345A (zh) | 文本情感分析模型的训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190405 |
|
RJ01 | Rejection of invention patent application after publication |