CN112269884B - 信息抽取方法、装置、设备及存储介质 - Google Patents

信息抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112269884B
CN112269884B CN202011268781.4A CN202011268781A CN112269884B CN 112269884 B CN112269884 B CN 112269884B CN 202011268781 A CN202011268781 A CN 202011268781A CN 112269884 B CN112269884 B CN 112269884B
Authority
CN
China
Prior art keywords
nodes
graph
node
labeling
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011268781.4A
Other languages
English (en)
Other versions
CN112269884A (zh
Inventor
孙明明
华文越
刘颖
郑康杰
王鑫
李平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011268781.4A priority Critical patent/CN112269884B/zh
Publication of CN112269884A publication Critical patent/CN112269884A/zh
Application granted granted Critical
Publication of CN112269884B publication Critical patent/CN112269884B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种信息抽取方法、装置、设备及存储介质,涉及人工智能、知识图谱、自然语言处理技术。具体实现方案为:获取待抽取的目标文本;对目标文本进行信息标注,得到标注结果,标注结果中包括所述目标文本中所包含的所有短语以及各短语之间的依存关系;采用所需信息抽取策略,对标注结果进行信息抽取,得到信息抽取结果。本申请方案能够提高信息抽取策略的可重用性。

Description

信息抽取方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域中的人工智能、知识图谱、自然语言处理技术,尤其涉及一种信息抽取方法、装置、设备及存储介质。
背景技术
一些应用场景中,需要对文本进行信息抽取。例如,以构建知识图谱为例,从文本中提取出事实,将这些事实采用结构化表示,形成知识图谱。
一个信息抽取任务通常需要抽取特定类型的信息。具体的,其抽取过程通常包括:根据信息抽取需求将原始文本中感兴趣信息转换为特定表达形式,省略不感兴趣的信息;进而采用信息抽取策略对该特定表达形式进行信息抽取,得到所需要的信息。
然而,上述信息抽取方式的可重用性较差,无法适用其他的信息抽取需求。
发明内容
本申请提供了一种信息抽取方法、装置、设备及存储介质,用于提高信息抽取策略的可重用性。
第一方面,本申请提供一种信息抽取方法,包括:
获取待抽取的目标文本;
对所述目标文本进行信息标注,得到标注结果,所述标注结果中包括所述目标文本中所包含的所有短语以及各短语之间的依存关系;
采用所需信息抽取策略,对所述标注结果进行信息抽取,得到信息抽取结果。
第二方面,本申请提供一种信息抽取装置,包括:
获取模块,用于获取待抽取的目标文本;
标注模块,用于对所述目标文本进行信息标注,得到标注结果,所述标注结果中包括所述目标文本中所包含的所有短语以及各短语之间的依存关系;
抽取模块,用于采用所需信息抽取策略,对所述标注结果进行信息抽取,得到信息抽取结果。
第三方面,本申请提供一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面中任一项所述的方法。
第四方面,本申请提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面中任一项所述的方法。
第五方面,本申请提供一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为开放信息提取的过程示意图;
图2为现有的OIE系统的示意图;
图3为本申请提供的OIE系统架构的示意图;
图4为本申请提供的一种信息抽取方法的流程示意图;
图5为本申请提供的一个标注图的示意图;
图6为本申请提供的一种标注图的生成方法的流程示意图;
图7A至图7C为本申请提供的标注图生成过程的一个示例图;
图8为本申请提供的一种信息抽取装置的结构示意图;
图9为本申请提供的另一种信息抽取装置的结构示意图;
图10为本申请提供的电子设备的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
开放信息提取(Open Information Extraction,OIE)成为知识计算的重要基础构件。图1为开放信息提取的过程示意图。如图1所示,开放信息抽取从开放的自由文本中提取事实,提取出的事实可以有多种应用,包括但不限于:构建知识图谱、图计算、知识搜索、语义搜索、智能问答、可视化展示等。
现有的OIE系统通常是针对特定的信息抽取任务而设计开发的。每个信息抽取任务仅抽取特定类型的信息。图2为现有的OIE系统的示意图。如图2所示,每个OIE系统构造了从一个文本到一组事实的策略通道。每个OIE系统的信息抽取过程通常包括:根据信息抽取需求将原始文本中感兴趣信息转换为特定表达形式,省略不感兴趣的信息;进而采用信息抽取策略对该特定表达形式进行信息抽取,得到所需要的信息。
发明人在研究过程中发现,上述的OIE系统的构造过程至少存在如下技术问题:
(1)每个OIE系统仅关注自己感兴趣的信息,而忽略了其他信息,导致抽取的信息受到局限。
(2)在多个OIE系统的构建过程中,存在重复工作。例如,不同OIE系统在对感兴趣信息进行表达时可能均涉及下述工作:将具有明确主客体依赖关系的简单句子转换为谓词-论元结构。
(3)不同OIE系统的信息抽取策略不可重用。由于每个OIE系统的信息抽取策略都是基于自己所感兴趣信息的特定表达形式进行的,当不同OIE系统感兴趣信息不同,或者采用的特定表达形式不同时,一个OIE系统的信息抽取策略将不能重用于其他系统。
(4)无法适应其他的信息抽取任务。由于每个OIE系统在开发时以期望的形式提取感兴趣的信息,并省略不感兴趣的信息,因此,它们不能适应其他的信息抽取任务。当面临新的信息抽取任务时,需要重新设计开发新的OIE系统。
为了解决上述技术问题中的至少一个,本申请提供一种OIE系统架构,其构思在于为所有信息抽取策略提供一个共享的平台。该平台首先对原始文本进行标注得到标注结果,在标注时关注原始文本中的所有信息,而不丢失信息。进而,所有的信息抽取策略都基于该标注结果进行信息抽取,也就是说,所有的信息抽取策略可以在不知道原始文本的情况下从现有标注结果中抽取出事实。
本申请中,将实现该平台的任务命名为开放信息表达式(Open InformationExpression,OIX)。OIX侧重于表达句子中的所有信息,而不是提取感兴趣的信息。这种方法使得在多任务学习场景中不同智能体之间(每个智能体对一部分信息感兴趣)互相竞争文字,与现有的只提取部分信息的OIE系统相比,这种竞争会产生更稳健的表达。
图3为本申请提供的OIE系统架构的示意图。如图3所示,该系统架构中包括OIX单元和OIE单元。OIX单元用于对原始文本中的所有信息进行标注,并输出标注结果。OIE单元中可以部署一个或者多个信息抽取策略,这些信息抽取策略则基于该标注结果进行信息抽取,得到事实。可选的,该系统架构中还可以包括整合单元(图3中未示出),整合单元可用于对信息抽取策略抽取出的事实进行格式转换,例如转换为三元组的表示形式。
本申请中,由于OIX单元是对原始文本中的所有信息进行标注,而不省略任何信息,因此,保证了标注结果的无损性,并进而保证了信息抽取结果的有效性。进一步的,由于信息抽取策略是基于标注结果,而不是基于原始文本进行信息抽取的,因此,这些信息抽取策略在平台内部是可重用的。当面临特定信息抽取任务时,可以选择一组信息抽取策略或开发新的信息抽取策略,构建出新的OIE通道。这样,信息抽取策略的可重用性大大提高。另外,当面临多种信息抽取任务时,只需要构建各自的信息抽取策略,而无需对原始文本进行重复表达,减少了重复工作。
基于图3所示的系统架构,本申请提供一种信息抽取方法,应用于计算机技术领域中的人工智能、知识图谱、自然语言处理等技术,以提高信息抽取策略的可重用性。
下面结合几个具体的实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图4为本申请提供的一种信息抽取方法的流程示意图。如图4所示,本实施例的方法包括:
S401:获取待抽取的目标文本。
该目标文本可以是从网页获取的文本。该目标文本还可以是用户输入的文本,或者,是对用户输入的语音进行识别得到的文本。其中,目标文本可以是一个或者多个句子,还可以是一个或者多个段落。
需要说明的是,本实施例对于目标文本所采用的语言不作限定,例如:可以为中文文本、英文文本、日文文本等。为了便于理解,后续举例中均以中文文本为例进行描述。
S402:对目标文本进行信息标注,得到标注结果,该标注结果中包括目标文本中所包含的所有短语以及各短语之间的依存关系。
本实施例中,信息标注是指对目标文本中的各成分之间的依存关系进行标注。其中,对目标文本进行信息标注时,需要关注目标文本中的所有信息,而不丢失任何信息,这样,得到的标注结果中包括目标文本中的所有短语以及各短语之间的依存关系。换句话说,目标文本中的所有短语均在标注结果中出现。
可以采用多种方式对目标文本进行信息标注,例如,可以通过对目标文本进行依存句法分析,得到目标文本中各短语之间的句法依存关系,并将得到的分析结果作为标注结果。或者,还可以通过对目标文本进行依存语义分析,得到目标文本中各个短语之间的语义依存关系,将得到的分析结果作为标注结果。
本实施例中,可以通过图3中的OIX单元对目标文本进行信息标注,并输出标注结果。
需要说明的是,本实施例对于标注结果的形式不作限定,可以为结构树的形式,还可以图表的形式,或者,还可以是元组的形式。后续实施例会结合举例对标注结果的形式进行说明,此处不作赘述。
本实施例中的短语也可以称为简单短语,指的是固定的表达,或者是一个有一个主词及其辅助词、限定词、从属词或相邻的形容词/副词修饰的短语。例如:“太阳系”、“一本书”、“美女”等都可以称为短语。
S403:采用所需信息抽取策略,对该标注结果进行信息抽取,得到信息抽取结果。
本实施例中的信息抽取策略可以是基于规则的策略,还可以是基于机器学习模型的策略。根据当前信息抽取任务的需求,采用该任务所需的信息抽取策略,对该标注结果进行信息抽取,得到信息抽取结果。
可选的,S403之前,还可以包括下述中的至少一项:
根据信息抽取需求,从策略数据库中选择所需信息抽取策略;
根据信息抽取需求,生成所需信息抽取策略。
其中,策略数据库中用于存储根据历史抽取需求构建的信息抽取策略,这些信息抽取策略是基于标注结果构建的,因此,这些信息抽取策略具有可重用性。
本实施例中,由于信息抽取策略是基于标注结果进行抽取的,而无需知道目标文本,因此,这些信息抽取策略在不同信息抽取任务之间是可重用的。当面临特定信息抽取任务时,可以从策略数据库中选择一组现有的信息抽取策略或开发新的信息抽取策略,构建出新的OIE通道。可见,本实施例中信息抽取策略的可重用性大大提高。
另外,由于标注结果中包括了目标文本中所包含的所有短语以及各短语之间的依存关系,即标注结果未丢失信息,因此,当面对多种信息抽取任务时,只需要采用每种信息抽取任务所需的信息抽取策略对标注结果进行信息抽取,而无需对目标文本进行重复表达,减少了重复工作。
通常而言,自然语言讨论实体与实体之间的关系,并描述他们的状态和属性。当谈论实体时,人类可能会谈论一些显式的实体,或者是一些未知实体的代表。当谈到关系时,关系可以是实体之间的关系,也可以是实体和关系之间的关系;也就是说,关系可以嵌套。因此,从逻辑的角度来看,本申请实施例采用以下组件来表达语言信息。
(1)常量:表示实体,例如“太阳系”、“公司”等;或者,表示实体/事件/关系的状态,例如:“昂贵”、“难以”等。
(2)函数:f(arg1,·······)→{e},表示实体的查询或实体的代表。其中,arg1表示函数的参数,{e}是函数返回的一些未知实体集。例如,如下语言描述可以表示为函数:“X的总裁”,“当Y时”,其中X和Y表示函数的参数。函数在英语文本中较为常见,例如,what从句、where从句、of短语或者of从句等,均可以表示为函数。
(3)谓词:p(arg1,····,argn)→{0,1},表示实体、谓词之间的事实关系和逻辑联系。其中arg1、argn表示谓词的参数,0、1表示谓词的真假状态,0表示谓词为假状态,1表示谓词为真状态。例如,如下语言描述可以表示为谓词:“X购买了Y”、“X说Y”、“Y,因为Z”。
上述组件中,argi可以是常量、谓词或函数。有了这些组件,常量和实例化的函数变成了词语(term),实例化的事实谓词变成了原子公式(atom formula),实例化的逻辑谓词变成了通用公式(general formula),最后,一个句子可以用公式(formula)来表达。通过这种表达方式,缩小了语言与知识的差距。本实施例中称这种表达方式为开放信息标注(Open Information Annotation,OIA)。
上述实施例中,可以对目标文本进行开放信息标注,得到标注结果。下面对标注结果的一种可能的表示形式进行描述。
为了直观理解,本实施例采用标注图来表示对目标文本的标注结果。标注图中包括节点和边。目标文本中的短语与标注图中的节点一一对应。目标文本中具有依存关系的两个短语对应的节点之间通过边连接。
其中,本实施例的标注图为单根有向无环依赖图(Directed acyclic graph,DAG)。
可选的,标注图中每个节点的类型为下述中的任一:谓词节点、函数节点、常量节点。
常量节点对应文本中的常量短语,可以是用于表示实体的名词性短语,还可以是用于描述实体/事件的描述性短语。函数节点对应文本中的函数短语(也可以称为问题短语),即,希望返回一组实体的函数短语,或者代表未知实体的函数短语。谓词节点对应文本中的谓词短语,包括但不限于:简单的动词短语、简单的介词短语、简单的连接短语、简单的修饰短语等。
标注图还包括用于连接节点的边。本实施例的标注图中,每个谓词节点与该谓词节点的参数节点之间通过边连接,每个函数节点与该函数节点的参数节点之间通过边连接。其中,谓词节点的参数节点对应目标文本中与谓词短语具有依存关系的短语;函数节点的参数节点对应目标文本中与函数短语具有依存关系的短语。
换句话说,标注图的边将每个谓词节点与其参数节点连接起来,或者,将每个函数节点与其参数节点连接起来,其中,参数节点可以是任何常量节点、谓词节点或函数节点。
图5为本申请提供的一个标注图的示意图。图5示例的是句子“我见过绝望的人,所以我觉得他不像”对应的标注图。图5中常量节点被可视化为椭圆形状;谓词节点被可视化为矩形形状。由于句子“我见过绝望的人,所以我觉得他不像”中不包括函数短语,因此,图5中未示出函数节点。
继续参见图5,图5中的每条边还具有标签。本实施例中,标签有两种类型,分别为:谓词参数n(pred.arg.{n})和函数参数n(func.arg.{n}),其中,pred.arg.{n}用于连接谓词节点与其参数节点,n表示参数的序号;而func.arg.{n}用于连接函数节点和其参数节点,n表示参数的序号。
一些情况下,一个词可以被关系从句修饰,这个词充当了由关系从句表达的谓语的参数,但是谓语用来修饰这个词。为了表达这种关系,在标注图中可以将边反转,并在边的类型前添加前缀“反:”或者“as:”,例如:as:pred.arg.1或as:func.arg.2,以表示该条边被反转过。
结合图5所示,“所以”→“见过”边的标签为“谓词参数1”(pred.arg:1),表示“见过”是“所以”的第1个参数;“所以”→“觉得”边的标签为“谓词参数2”(pred.arg:2),表示“觉得”是“所以”的第2个参数。“人”→“绝望的”边的标签为“反:谓词参数1”(as:pred.arg:1),表示该条边反转过。
需要说明的是,图5所示的标注图仅为一个简单的示例。实际应用中,标注图中的节点、边的类型可以更加丰富。例如,对于带有两个参数的预定义谓词,为了降低标注图的复杂性,本实施例中还可以使用一条边连接两个参数,并将该条边的标签设置为该预定义谓词。例如:谓词Appos(arg1,arg2),可以由标注图中的边arg1→arg2(该边的标签为appos,采用小写与谓词Appos进行区分)表示。as:前缀在该场合也适用,表达了“arg1是arg2的{含义}”的含义。
本实施例提供的标注图中,表达了原始文本中所涉及的各种信息,包括:1)实体之间的关系;2)嵌套的事实(即作为另一事实的论据的事实);3)事实之间的关系,例如逻辑联系,比如“如果”、“否则”等,还例如话语关系,比如“因为”、“尽管”等;4)自然语言中除陈述句以外的信息,例如疑问句。
另外,本实施例的标注图中还保证了节点的原子性,这样后续基于标注图执行信息抽取策略时,可以根据各策略的喜好进行自由组合,从而,使得标注图可以服务于不同的信息抽取策略。例如,对于句子“浮士德与魔鬼达成交易”,ClauseIE策略倾向于将句子表达为(浮士德,达成,与魔鬼交易)的形式,而MinIE策略则倾向于将句子表达为(浮士德,与X达成交易,魔鬼)的形式。采用本实施例的方式,生成的标注图则使用一个嵌套结构,表达为((浮士德,达成,交易),与,魔鬼)的形式。这样后续无论采用ClauseIE策略还是采用MinIE策略,都可以方便的进行信息抽取。
本实施例中,目标文本中的所有短语(标点符号除外)都出现在标注图中,从而最大限度地减少了信息的丢失。另外,由于标注图是单根的,符合句子的层次语义结构,有利于更好的可视化、理解和注释。
在上述任意实施例的基础上,下面结合一个具体的实施例描述标注图的生成过程。
图6为本申请提供的一种标注图的生成方法的流程示意图。本实施例可以作为S402的细化。如图6所示,本实施例的方法,包括:
S601:对目标文本进行依存句法分析,得到依存句法图。
其中,依存句法图中的每个节点对应目标文本中的一个词语,不同节点之间的边表示词语之间的句法关系。
具体应用中,可以采用多种依存分析方法,对目标文本进行依存句法分析,得到依存句法图。该依存句法图可以为通用依存句法图,还可以为增强依存句法图。
一种可能的实施方式中,可以对目标文本进行自然语言处理,生成通用依存句法图。具体的,采用通用依存分析(Universal Dependency Parsing)方法,对目标文本进行依存句法分析。示例性的,可以采用ud2.0标准作为通用依存句法图的目标形式,利用基于神经网络的斯坦福自然语言处理工具(StanfordNLP toolkit 2)生成通用依存句法图。通用依存分析方法是跨语言设计的,这使得本实施例的方法可以适用于对任何语言的文本进行处理。
实际应用中,通用依存句法图中的依存信息可能不够丰富,因此,在另一种可能的实施方式中,生成通用依存句法图之后,还可以根据目标文本中各词语之间的句法关系,对通用依存句法图中各节点的连接关系进行补充,得到增强依存句法图。由于增强依存句法图提供了更加丰富的句法依存关系,后续步骤中根据增强依存句法图对目标文本进行信息标注,可以使得标注图中的依存关系更加丰富。
S602:根据依存句法图,从目标文本中确定出标注图中的节点,并对标注图中各节点之间的边连接关系进行标注,得到标注图。
本实施例中为了使标注图表达的信息更容易理解,在标注图中采用短语作为节点。由于依存句法图中以词语为节点,因此可以根据依存句法图的节点识别出简单短语,通过对依存句法图中的节点合并的方式,确定出标注图中的节点。
示例性的,若依存句法图中存在可合并为短语的多个节点,则将多个节点合并后的短语以及依存句法图中未合并的节点,确定为标注图中的节点,否则,将依存句法图中的节点确定为标注图中的节点。
确定出标注图中的节点之后,可以根据依存句法图,对标注图中各节点之间的边连接关系进行标注。具体的,可以将依存句法图中节点之间的边连接关系映射为标注图中的节点之间的边连接关系,从而得到标注图。
可选的,若经过上述步骤得到的标注图不是单根图,则可以采用如下可能的方式,将标注图处理为单根的。
一种可能的方式中,若标注图中存在具有并列关系的多个节点,则在标注图中新增一个节点,并在新增的节点与具有并列关系的多个节点之间分别添加边。其中,该新增节点可以为谓词节点,具有并列关系的多个节点作为该谓词节点的参数节点。
另一种可能的方式,若标注图中存在多个根节点,则从多个根节点中确定出主根节点,并保留主根节点所关联的边,将其余根节点所关联的边进行反向连接。
其中,主根节点通常对应于依存句法图中作为根的谓词或该根的连接字。另外,在将某条边反向连接之后,还可以对该条边的标签添加标记,以区分该条边是反转得到的。例如,将反转后的边的标签添加as:前缀。
在图6所示的标注图生成方法的基础上,本实施例还可以采用如下可行的方式,对生成的标注图的效果进行测试。
方式1:使用真实的增强依存句法图作为输入,对采用本实施例的方法生成的标注图进行验证(即只测试S602)。方式2:使用原始文本作为输入,对采用本实施例的方法生成的标注图进行验证(即测试生成标注图的整个流程)。
上述两种方式下,可以先根据增强依存句法图或者根据原始文本进行手动标注得到手动标注图,进而根据生成的标注图与手动标注图之间的匹配程度,来确定生成的标注图的效果。具体的,可以在三个层次上衡量匹配程度:节点级、边级和图级。对于节点级别,表示是节点名称;对于边级别,表示是一个三元组<起始节点名称、边标签、结束节点名称>;对于图形级别,表示是所有边三元组的集合。
上述两种方式下,还可以对生成的标注图进行信息抽取得到事实,进而根据事实的正确性,来确定生成的标注图的效果。具体的,对生成的标注图进行抽取得到第一事实集。对于每个谓词节点,收集其所有参数并生成第二事实集。将第一事实集与第二事实集进行比较,得到标注图的效果。
下面结合一个具体的示例,描述标注图的生成过程。
图7A至图7C为本申请提供的标注图生成过程的一个示例图。假设目标文本为“商店回收并转让钟表”。对该目标文本进行通用依存句法分析,得到如图7A所示的通用依存分析图。该通用依存分析图中,“回收”与“商店”、“转让”、“钟表”之间均存在边连接关系,并且“商店”为“回收”的名词主语(nsubj),“转让”为“回收”为并列关系(conj),“钟表”为“回收”的宾语(obj)。“转让”与“并”之间存在边连接关系,并且“并”为并列连接词(cc)。
进一步的,在图7A所示的通用依存分析图的基础上,通过添加边连接关系,将其转换为如图7B所示的增强依存分析图。参见图7B,在图7A的基础上,增加了“商店”与“转让”之间的边,并且“商店”为“转让”的主语(nsubj),还增加了“转让”与“钟表”之间的边,并且“钟表”为“转让”的宾语(obj)。
进一步的,根据图7B所示的增强依存分析图,生成如图7C所示的标注图。由于图7B所示的增强依存分析图中,不存在能够合并为短语的节点,因此,直接将图7B中的各节点(去除标点符号)作为标注图中的节点,并将图7B中各节点的连接关系映射为图7C中的连接关系。由于“回收”和“转让”为并列关系的节点,且并列连接词为“并”,因此,在图7C中,将“并”作为谓词节点,并将“回收”和“转让”作为“并”的两个参数节点。“商店”和“钟表”作为“回收”的两个参数节点,同时,“商店”和“钟表”也作为“转让”的两个参数节点。
由于图7C所示的标注图中,表达了原始文本“商店回收并转让钟表”中的所有信息,因此,后续可以基于该标注图进行信息抽取,保证了信息抽取结果的有效性。另外,当面临多个信息抽取任务时,可以采用每个任务所需的信息抽取策略对图7C所示的标注图进行信息抽取,无需针对每个任务对原始语句分别进行表达,减少了重复工作。
图8为本申请提供的一种信息抽取装置的结构示意图。本实施例的装置可以为软件和/或硬件的形式。如图8所示,本实施例的信息抽取装置10可以包括:获取模块11、标注模块12和抽取模块13。其中,
获取模块11,用于获取待抽取的目标文本;
标注模块12,用于对所述目标文本进行信息标注,得到标注结果,所述标注结果中包括所述目标文本中所包含的所有短语以及各短语之间的依存关系;
抽取模块13,用于采用所需信息抽取策略,对所述标注结果进行信息抽取,得到信息抽取结果。
一种可能的实施方式中,所述标注结果包括标注图,所述标注图中包括节点和边,所述目标文本中的短语与所述标注图中的节点一一对应,所述目标文本中具有依存关系的两个短语对应的节点之间通过所述边连接。
图9为本申请提供的另一种信息抽取装置的结构示意图。在图8所示实施例的基础上,标注模块12可以包括:分析单元121和标注单元122。
其中,分析单元121,用于对所述目标文本进行依存句法分析,得到依存句法图;
标注单元122,用于根据所述依存句法图,从所述目标文本中确定出所述标注图中的节点,并对所述标注图中各节点之间的边连接关系进行标注,得到所述标注图。
一种可能的实施方式中,所述标注单元122具体用于:
若所述依存句法图中存在可合并为短语的多个节点,则将所述多个节点合并后的短语以及所述依存句法图中未合并的节点,确定为所述标注图中的节点,否则,将所述依存句法图中的节点确定为所述标注图中的节点。
一种可能的实施方式中,所述标注单元122还用于:
若所述标注图中存在具有并列关系的多个节点,则在所述标注图中新增一个节点,并在新增的节点与所述具有并列关系的多个节点之间分别添加边;和/或,
若所述标注图中存在多个根节点,则从所述多个根节点中确定出主根节点,并保留所述主根节点所关联的边,将其余根节点所关联的边进行反向连接。
一种可能的实施方式中,所述分析单元121具体用于:
对所述目标文本进行自然语言处理,生成通用依存句法图;
根据所述目标文本中的句法关系,对所述通用依存句法图中各节点之间的边连接关系进行补充,得到增强依存句法图;
所述标注单元122具体用于:根据所述增强依存句法图,从所述目标文本中确定出所述标注图中的节点,并对所述标注图中各节点之间的边连接关系进行标注,得到所述标注图。
一种可能的实施方式中,所述标注图中每个节点的类型为下述中的任一:谓词节点、函数节点、常量节点;每个谓词节点与该谓词节点的参数节点之间通过边连接,每个函数节点与该函数节点的参数节点之间通过边连接;
所述谓词节点对应所述目标文本中的谓词短语,所述谓词节点的参数节点对应所述目标文本中与所述谓词短语具有依存关系的短语;
所述函数节点对应所述目标文本中的函数短语,所述函数节点的参数节点对应所述目标文本中与所述函数短语具有依存关系的短语;
所述常量节点对应所述目标文本中的常量短语。
一种可能的实施方式中,所述抽取模块13还用于:
根据信息抽取需求,从策略数据库中选择所述所需信息抽取策略;
和/或,
根据信息抽取需求,生成所述所需信息抽取策略。
本实施例提供的信息抽取装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不作赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
根据本申请的实施例,本申请还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
如图10所示,是根据本申请实施例的信息抽取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图10所示,该电子设备包括:一个或多个处理器101、存储器102,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图10中以一个处理器101为例。
存储器102即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的信息抽取方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的信息抽取方法。
存储器102作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的信息抽取方法对应的程序指令/模块(例如,附图8所示的获取模块11、标注模块12和抽取模块13)。处理器101通过运行存储在存储器102中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的信息抽取方法。
存储器102可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据信息抽取的电子设备的使用所创建的数据等。此外,存储器102可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器102可选包括相对于处理器101远程设置的存储器,这些远程存储器可以通过网络连接至信息抽取的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
信息抽取方法的电子设备还可以包括:输入装置103和输出装置104。处理器101、存储器102、输入装置103和输出装置104可以通过总线或者其他方式连接,图10中以通过总线连接为例。
输入装置103可接收输入的数字或字符信息,以及产生与信息抽取方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置104可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算机程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算机程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (14)

1.一种信息抽取方法,包括:
获取待抽取的目标文本;
对所述目标文本进行自然语言处理,生成通用依存句法图;
根据所述目标文本中的句法关系,对所述通用依存句法图中各节点之间的边连接关系进行补充,得到增强依存句法图;
根据所述增强依存句法图,从所述目标文本中确定出标注图中的节点,并对所述标注图中各节点之间的边连接关系进行标注,得到所述标注图;所述标注结果中包括所述目标文本中所包含的所有短语以及各短语之间的依存关系;
采用所需信息抽取策略,对所述标注结果进行信息抽取,得到信息抽取结果。
2.根据权利要求1所述的方法,其中,所述标注结果包括标注图,所述标注图中包括节点和边,所述目标文本中的短语与所述标注图中的节点一一对应,所述目标文本中具有依存关系的两个短语对应的节点之间通过所述边连接。
3.根据权利要求1所述的方法,其中,根据所述依存句法图,从所述目标文本中确定出所述标注图中的节点,包括:
若所述依存句法图中存在可合并为短语的多个节点,则将所述多个节点合并后的短语以及所述依存句法图中未合并的节点,确定为所述标注图中的节点,否则,将所述依存句法图中的节点确定为所述标注图中的节点。
4.根据权利要求1或3所述的方法,得到所述标注图之后,还包括:
若所述标注图中存在具有并列关系的多个节点,则在所述标注图中新增一个节点,并在新增的节点与所述具有并列关系的多个节点之间分别添加边;
和/或,
若所述标注图中存在多个根节点,则从所述多个根节点中确定出主根节点,并保留所述主根节点所关联的边,将其余根节点所关联的边进行反向连接。
5.根据权利要求2或3所述的方法,其中,所述标注图中每个节点的类型为下述中的任一:谓词节点、函数节点、常量节点;每个谓词节点与该谓词节点的参数节点之间通过边连接,每个函数节点与该函数节点的参数节点之间通过边连接;
所述谓词节点对应所述目标文本中的谓词短语,所述谓词节点的参数节点对应所述目标文本中与所述谓词短语具有依存关系的短语;
所述函数节点对应所述目标文本中的函数短语,所述函数节点的参数节点对应所述目标文本中与所述函数短语具有依存关系的短语;
所述常量节点对应所述目标文本中的常量短语。
6.根据权利要求1至3任一项所述的方法,采用所需信息抽取策略,对所述标注结果进行信息抽取,得到信息抽取结果之前,还包括:
根据信息抽取需求,从策略数据库中选择所述所需信息抽取策略;
和/或,
根据信息抽取需求,生成所述所需信息抽取策略。
7.一种信息抽取装置,包括:
获取模块,用于获取待抽取的目标文本;
标注模块,用于对所述目标文本进行信息标注,得到标注结果,所述标注结果中包括所述目标文本中所包含的所有短语以及各短语之间的依存关系;
抽取模块,用于采用所需信息抽取策略,对所述标注结果进行信息抽取,得到信息抽取结果;
所述标注模块包括:
分析单元,用于对所述目标文本进行自然语言处理,生成通用依存句法图;根据所述目标文本中的句法关系,对所述通用依存句法图中各节点之间的边连接关系进行补充,得到增强依存句法图;
标注单元,用于根据所述增强依存句法图,从所述目标文本中确定出标注图中的节点,并对所述标注图中各节点之间的边连接关系进行标注,得到所述标注图。
8.根据权利要求7所述的装置,其中,所述标注结果包括标注图,所述标注图中包括节点和边,所述目标文本中的短语与所述标注图中的节点一一对应,所述目标文本中具有依存关系的两个短语对应的节点之间通过所述边连接。
9.根据权利要求7所述的装置,其中,所述标注单元具体用于:
若所述依存句法图中存在可合并为短语的多个节点,则将所述多个节点合并后的短语以及所述依存句法图中未合并的节点,确定为所述标注图中的节点,否则,将所述依存句法图中的节点确定为所述标注图中的节点。
10.根据权利要求7或9所述的装置,所述标注单元还用于:
若所述标注图中存在具有并列关系的多个节点,则在所述标注图中新增一个节点,并在新增的节点与所述具有并列关系的多个节点之间分别添加边;
和/或,
若所述标注图中存在多个根节点,则从所述多个根节点中确定出主根节点,并保留所述主根节点所关联的边,将其余根节点所关联的边进行反向连接。
11.根据权利要求8或9所述的装置,其中,所述标注图中每个节点的类型为下述中的任一:谓词节点、函数节点、常量节点;每个谓词节点与该谓词节点的参数节点之间通过边连接,每个函数节点与该函数节点的参数节点之间通过边连接;
所述谓词节点对应所述目标文本中的谓词短语,所述谓词节点的参数节点对应所述目标文本中与所述谓词短语具有依存关系的短语;
所述函数节点对应所述目标文本中的函数短语,所述函数节点的参数节点对应所述目标文本中与所述函数短语具有依存关系的短语;
所述常量节点对应所述目标文本中的常量短语。
12.根据权利要求7至9任一项所述的装置,所述抽取模块还用于:
根据信息抽取需求,从策略数据库中选择所述所需信息抽取策略;
和/或,
根据信息抽取需求,生成所述所需信息抽取策略。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1至6中任一项所述的方法。
CN202011268781.4A 2020-11-13 2020-11-13 信息抽取方法、装置、设备及存储介质 Active CN112269884B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011268781.4A CN112269884B (zh) 2020-11-13 2020-11-13 信息抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011268781.4A CN112269884B (zh) 2020-11-13 2020-11-13 信息抽取方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN112269884A CN112269884A (zh) 2021-01-26
CN112269884B true CN112269884B (zh) 2024-03-05

Family

ID=74340005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011268781.4A Active CN112269884B (zh) 2020-11-13 2020-11-13 信息抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112269884B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114266258B (zh) * 2021-12-30 2023-06-23 北京百度网讯科技有限公司 一种语义关系提取方法、装置、电子设备及存储介质
CN116484870B (zh) * 2022-09-09 2024-01-05 北京百度网讯科技有限公司 提取文本信息的方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155999A (zh) * 2015-04-09 2016-11-23 科大讯飞股份有限公司 自然语言语义理解方法及系统
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法
CN111160030A (zh) * 2019-12-11 2020-05-15 北京明略软件系统有限公司 一种信息抽取方法、装置、及存储介质
WO2020119075A1 (zh) * 2018-12-10 2020-06-18 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质
CN111324699A (zh) * 2020-02-20 2020-06-23 广州腾讯科技有限公司 语义匹配的方法、装置、电子设备及存储介质
CN111666771A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 文书的语义标签抽取、装置、电子设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155999A (zh) * 2015-04-09 2016-11-23 科大讯飞股份有限公司 自然语言语义理解方法及系统
CN108363816A (zh) * 2018-03-21 2018-08-03 北京理工大学 基于句义结构模型的开放式实体关系抽取方法
WO2020119075A1 (zh) * 2018-12-10 2020-06-18 平安科技(深圳)有限公司 通用文本信息提取方法、装置、计算机设备和存储介质
CN111160030A (zh) * 2019-12-11 2020-05-15 北京明略软件系统有限公司 一种信息抽取方法、装置、及存储介质
CN111324699A (zh) * 2020-02-20 2020-06-23 广州腾讯科技有限公司 语义匹配的方法、装置、电子设备及存储介质
CN111666771A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 文书的语义标签抽取、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN112269884A (zh) 2021-01-26

Similar Documents

Publication Publication Date Title
JP7481251B2 (ja) テキスト中のイベント抽出方法、装置、電子機器及び記憶媒体
JP7223785B2 (ja) 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体
JP7228662B2 (ja) イベント抽出方法、装置、電子機器及び記憶媒体
AU2008312423B2 (en) NLP-based content recommender
CN113220836B (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
JP7264866B2 (ja) イベント関係の生成方法、装置、電子機器及び記憶媒体
EP3971761A1 (en) Method and apparatus for generating summary, electronic device and storage medium thereof
JP2021184255A (ja) 語義表現モデルの生成方法、語義表現モデルの生成装置、電子機器、記憶媒体及びコンピュータプログラム
JP2021099890A (ja) 因果関係の判別方法、装置、電子機器及び記憶媒体
CN112269884B (zh) 信息抽取方法、装置、设备及存储介质
Ell et al. SPARQL query verbalization for explaining semantic search engine queries
US7401016B2 (en) Communication support system, communication support method, and computer program
Kumar et al. Static UML model generator from analysis of requirements (SUGAR)
CN113553411B (zh) 查询语句的生成方法、装置、电子设备和存储介质
Sravanthi et al. A dialogue system for telugu, a resource-poor language
CN115062609B (zh) 一种汉语增强依存句法的方法及装置
Ustalov A text-to-picture system for russian language
Bajwa et al. UCD-generator-A LESSA application for use case design
CN109828775B (zh) 一种多语言翻译文本内容的web管理系统及方法
CN116484870B (zh) 提取文本信息的方法、装置、设备及介质
Xue et al. Constructing Controlled English for Both Human Usage and Machine Processing.
CN111859981B (zh) 语言模型获取及中文语义理解方法、装置及存储介质
Sharma et al. Multimodal Semantographic Metalanguage (MSM): A novel methodology for digital enablement of semi-literates
CN114117189A (zh) 一种问题解析方法、装置、电子设备及存储介质
CN116166819A (zh) 一种事件图谱构建方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant