CN111581358A - 信息抽取方法、装置及电子设备 - Google Patents

信息抽取方法、装置及电子设备 Download PDF

Info

Publication number
CN111581358A
CN111581358A CN202010270458.4A CN202010270458A CN111581358A CN 111581358 A CN111581358 A CN 111581358A CN 202010270458 A CN202010270458 A CN 202010270458A CN 111581358 A CN111581358 A CN 111581358A
Authority
CN
China
Prior art keywords
sentence
candidate
candidate sentence
sentences
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010270458.4A
Other languages
English (en)
Other versions
CN111581358B (zh
Inventor
张真
张亦鹏
王乐义
刘明浩
郭江亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010270458.4A priority Critical patent/CN111581358B/zh
Publication of CN111581358A publication Critical patent/CN111581358A/zh
Application granted granted Critical
Publication of CN111581358B publication Critical patent/CN111581358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息抽取方法、装置及电子设备,涉及自然语言处理技术领域。其中,该方法包括:对文档进行切分以形成多个句子;根据目标词规则集合对多个句子进行筛选,以生成候选句子集合,其中,候选句子集合之中包括多个候选句子;获取每个候选句子的文本特征;根据每个候选句子的文本特征,生成每个候选句子为目标信息的概率;从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。由此,通过这种信息抽取方法,通过目标词规则集合进行了初步筛选,降低了信息抽取的数据处理量,从而降低了信息抽取时长,提高了信息抽取的准确性。

Description

信息抽取方法、装置及电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及自然语言处理技术领域,提出一种信息抽取方法、装置及电子设备。
背景技术
随着互联网技术的不断发展,网络信息正在爆炸性增长,但这些网络信息中常常夹杂着大量的冗余信息,造成数据重复和浪费空间等,因此,如何快速对数据中关键信息进行有效抽取成为研究的焦点之一。
相关技术中,通常通过深度学习的方式从文档中抽取关键信息。但是,由于深度学习模型复杂,在文档规模较大时,信息抽取的时间开销较大。
发明内容
提供了一种信息抽取方法、装置、电子设备及存储介质。
根据第一方面,提供了一种信息抽取方法,包括:对文档进行切分以形成多个句子;根据目标词规则集合对所述多个句子进行筛选,以生成候选句子集合,其中,所述候选句子集合之中包括多个候选句子;获取所述每个候选句子的文本特征;根据所述每个候选句子的文本特征,生成所述每个候选句子为目标信息的概率;以及从所述候选句子集合中抽取所述概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。
根据第二方面,提供了一种信息抽取装置,包括:切分模块,用于对文档进行切分以形成多个句子;筛选模块,用于根据目标词规则集合对所述多个句子进行筛选,以生成候选句子集合,其中,所述候选句子集合之中包括多个候选句子;第一获取模块,用于获取所述每个候选句子的文本特征;生成模块,用于根据所述每个候选句子的文本特征,生成所述每个候选句子为目标信息的概率;以及抽取模块,用于从所述候选句子集合中抽取所述概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前所述的信息抽取方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如前所述的信息抽取方法。
根据本申请实施例的技术方案,通过将文档切分成多个句子,并根据目标词规则集合对多个句子进行筛选,以生成包括多个候选句子的候选句子集合,之后根据获取到的每个候选句子的文本特征,生成每个候选句子为目标信息的概率,进而从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。由此,通过目标词规则集合进行了初步筛选,降低了信息抽取的数据处理量,从而降低了信息抽取时长,提高了信息抽取的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例所提供的一种信息抽取方法的流程示意图;
图2为本申请实施例所提供的另一种信息抽取方法的流程示意图;
图3为本申请实施例所提供的再一种信息抽取方法的流程示意图;
图4为本申请实施例所提供的一种基于CNN的二分类模型的结构示意图;
图5为通过图4所示的基于CNN的二分类模型对候选句子进行处理的流程示意图;
图6本申请实施例所提供的又一种信息抽取方法的流程示意图;
图7为通过图4所示的二分类模型对候选句子进行处理的另一种流程示意图;
图8为本申请实施例提供的一种信息抽取装置的结构示意图;
图9为本申请实施例提供的电子设备的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本申请实施例针对相关技术中,通过深度学习的方式从文档中抽取关键信息,在文档规模较大时,信息抽取的时间开销较大的问题,提出一种信息抽取方法。
下面参考附图对本申请提供的信息抽取方法、装置、电子设备及存储介质进行详细描述。
图1为本申请实施例所提供的一种应用程序的下载方法的流程示意图。
如图1所示,该信息抽取方法,包括:
步骤101,对文档进行切分以形成多个句子。
需要说明的是,实际使用时,本申请实施例的信息抽取方法可以由本申请实施例的信息抽取装置执行。本申请实施例的信息抽取装置,可以配置在任意电子设备(如手机、个人电脑、服务器、个人数字助理、可穿戴式设备等)中,以执行本申请实施例的信息抽取方法。
在本申请实施例中,可以在获取到需要进行信息抽取的文档之后,案子预先设定的切分规则进行切分,以生成文档包括的多个句子。作为一种可能的实现方式,可以按照文档中包括的标点符号对文档进行切分。
可选的,在按照文档中包括的标点符号对文档进行切分时,可以根据文档中所有标点符号的位置对文档进行切分。也就是说,可以将文档开头至第一个标点符号之前的内容确定为一个句子,以及将文档中任意两个相邻标点符号之间的内容,确定为一个句子,从而生成文档包括的多个句子。
可选的,在按照文档中包括的标点符号对文档进行切分时,为保证形成的每个句子的语义完整性,还可以将表示句子结尾的标点符号预设为目标标点符号,比如,目标标点符号可以为句号、感叹号、问号等,进而根据文档中包括的目标标点符号的位置对文档进行切分。也就是说,可以将文档开头至第一个目标标点符号之前的内容确定为一个句子,以及将文档中任意两个相邻目标标点符号之间的内容,确定为一个句子,从而生成文档包括的多个句子。
举例来说,文档为“借款公司存在停产行为,有可能逾期还款。整理土地涉及大量的拆迁安置,为我行的零售业务创造了契机。”,若预设的切分规则为“按照文档中所有标点符号的位置进行切分”,则对文档进行切分形成的多个句子为:“借款公司存在停产行为”、“有可能逾期还款”、“整理土地涉及大量的拆迁安置”与“为我行的零售业务创造了契机”。若预设的切分规则为“按照文档中包括的目标标点符号的位置进行切分,其中,目标标点符号为句号”则对对文档进行切分形成的多个句子为:“借款公司存在停产行为,有可能逾期还款”与“整理土地涉及大量的拆迁安置,为我行的零售业务创造了契机”。
需要说明的是,对文档进行切分的方式可以包括但不限于以上列举的情形。实际使用时,可以根据实际需要选择对文档进行切分的方式,本申请实施例对此不做限定。
步骤102,根据目标词规则集合对多个句子进行筛选,以生成候选句子集合,其中,候选句子集合之中包括多个候选句子。
其中,目标词,是指用于筛选句子的关键词。
其中,目标词规则集合,可以包括目标词集合、目标词需要满足的句法模板、句法规则中的一个或多个,本申请实施例对此不做限定。
其中,候选句子,是指包括的词语满足目标词规则集合的句子,或者句法满足目标词规则集合的句子。
在本申请实施例中,对文档进行切分形成多个句子之后,可以根据目标词规则集合对多个句子进行初步筛选,以确定出可能为目标信息的候选句子。具体的,若一个句子与目标词规则集合中的任意一个规则匹配,则可以确定该句子为候选句子,进而利用筛选出的所有候选句子构成候选句子集合。
作为一种可能的实现方式,由于目标信息的特征与具体的应用场景有关,因此可以根据具体的应用场景,构建目标词规则集合,以使筛选出的候选句子符合目标信息的基本特征。
举例来说,本申请实施例的信息抽取方法应用在银行贷款风险评估场景时,银行更倾向于关注经营状况出现问题的企业,即目标信息可以为显示企业经营出现问题的信息,则与目标信息相关的关键词可以为停产、停业、破产、诉讼等,从而构建的目标词规则集合可以为{停产,停业,破产,诉讼}。
需要说明的是,本申请实施例是通过目标词规则集合对文档中的多个句子进行初步筛选,以降低后续处理过程的数据处理量,因此,对筛选出的候选句子精确性要求不高,从而构建的目标词规则集合不必过于复杂,可以适当拓宽规则范围,以降低目标词规则集合的构建难度,提高目标词规则集合的可移植性。
步骤103,获取每个候选句子的文本特征。
其中,候选句子的文本特征,是指根据候选句子包括的各分词生成的特征。需要说明的是,候选句子的文本特征可以通过矩阵形式进行表示。
在本申请实施例中,可以预先设定候选句子的文本特征的生成规则,进而利用文本特征的生成规则对每个候选句子进行处理,以生成每个互相句子对应的文本特征。
作为一种可能的实现方式,文本特征的生成规则可以为通过候选句子中包括的各分词对应的词向量,生成候选的文本特征。具体的,可以首先对候选句子进行分词处理,以确定候选句子中包括的各分词,进而对候选句子中包括的每个分词进行词向量映射,以确定每个分词对应的词向量。之后可以将候选句子中包括的各分词对应的词向量的均值,确定为候选句子的文本特征;或者,还可以对候选句子中包括的各分词对应的词向量进行拼接处理,以生成候选句子对应的词向量序列,进而将候选句子对应的词向量序列确定为候选句子的文本特征。
作为另一种可能的实现方式,文本特征的生成规则可以为通过候选句子中包括的各分词对应的词向量及词性特征,生成候选的文本特征。具体的,可以首先对候选句子进行分词处理,以确定候选句子中包括的各分词,进而对候选句子中包括的每个分词进行词向量映射,以确定每个分词对应的词向量;以及对候选句子中包括的每个分词进行词性识别,以确定每个分词对应的词性特征,并根据每个分词对应的词性特征生成候选句子对应的词性序列。之后,对候选句子中包括的各分词对应的词向量进行拼接处理,以生成候选句子对应的词向量序列,进而将候选句子对应的词向量序列与词性序列进行拼接处理,生成候选句子的文本特征。
需要说明的是,候选句子的文本特征的生成方式,可以包括但不限于以上列举的情形。实际使用时,可以根据实际需要确定候选句子的文本特征中包括的内容及生成方式,本申请实施例对此不做限定。
步骤104,根据每个候选句子的文本特征,生成每个候选句子为目标信息的概率。
在本申请实施例中,由于候选句子的文本特征中包括了候选句子丰富的语义信息,因此对每个候选句子的文本特征进行分析,可以准确理解每个候选句子的语义,从而生成每个候选句子为目标信息的概率。
作为一种可能的实现方式,可以将每个候选句子的文本特征分别输入预先训练的深度学习模型,以利用预先训练的深度学习模型对分别对每个候选句子的文本特征进行识别处理,并输出候选句子为目标信息的概率。
步骤105,从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。
其中,目标信息,是指概率大于或等于预设概率阈值的候选句子。
在本申请实施例中,由于候选句子为目标信息的概率越大,则说明该候选句子为目标信息的可能性越大,从而可以将概率较大的候选句子确定为目标信息。因此,可以预先设定概率阈值,并将概率大于或等于预设概率阈值的候选句子确定为目标信息,并从候选句子集合中抽取出目标信息,构成目标信息集合。
需要说明的是,实际使用时,可以根据实际需要确定预设概率阈值的具体取值,本申请实施例对此不做限定。比如,预设概率阈值可以为0.5。
根据本申请实施例的技术方案,通过将文档切分成多个句子,并根据目标词规则集合对多个句子进行筛选,以生成包括多个候选句子的候选句子集合,之后根据获取到的每个候选句子的文本特征,生成每个候选句子为目标信息的概率,进而从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。由此,通过目标词规则集合进行了初步筛选,降低了信息抽取的数据处理量,从而降低了信息抽取时长,提高了信息抽取的准确性。
在本申请一种可能的实现形式中,可以通过目标词匹配的方式,对文档中的多个句子进行初步筛选,以在降低信息抽取数据处理量的同时,降低规则定义难度,提升算法可移植性。
下面结合图2,对本申请实施例提供的信息抽取方法进行进一步说明。
图2为本申请实施例所提供的另一种信息抽取方法的流程示意图。
如图2所示,该信息抽取方法,包括以下步骤:
步骤201,对文档进行切分以形成多个句子。
上述步骤201的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤202,如果句子中包括目标词规则集合中的任一个目标词,则将句子作为候选句子加入候选句子集合。
其中,目标词,是指用于筛选句子的关键词。
作为一种可能的实现方式,目标词规则集合中可以包括多个目标词,进而分别判断文档中的各句子中是否包括目标词规则集合中的任一个目标词,以确定各句子是否为候选句子。
具体的,若句子中不包括目标词规则集合中的任一个目标词,则可以确定该句子与需要抽取的信息不相关,从而可以将该句子过滤,无需在后续处理过程中对该句子进行处理;若句子中包括目标词规则集合中的任一个目标词,则可以确定该句子可能与需要抽取的信息具有一定的关联性,从而可以将该句子确定为候选句子,并加入候选句子集合,以进一步判断该句子是否为需要抽取的目标信息。
举例来说,目标词规则集合为:{停产,停业,破产,诉讼},文档总的多个句子为:“借款公司存在停产行为,有可能逾期还款”、“整理土地涉及大量的拆迁安置,为我行的零售业务创造了契机”;则筛选后的候选句子分别为:“借款公司存在停产行为,有可能逾期还款”,所以,候选句子集合即为{借款公司存在停产行为,有可能逾期还款}。
需要说明的是,上述举例仅为示例性的,旨在便于理解本申请的方案,不能视为对本申请的限制。实际使用时,目标词规则集合中通常包括大量目标词,对文档进行切分后通常可以形成较多数量的句子,从而确定的候选句子集合中通常包括多个候选句子。
步骤203,获取每个候选句子的文本特征。
步骤204,根据每个候选句子的文本特征,生成每个候选句子为目标信息的概率。
步骤205,从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。
上述步骤203-205的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
根据本申请实施例的技术方案,通过将文档切分成多个句子,并在句子中包括目标词规则集合中的任一个目标词时,将句子作为候选句子加入候选句子集合,之后根据获取到的每个候选句子的文本特征,生成每个候选句子为目标信息的概率,进而从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。由此,通过目标词匹配的方式,对文档中的多个句子进行初步筛选,从而不仅降低了信息抽取的数据处理量,降低了信息抽取时长,而且降低了规则定义难度,提升了算法的可移植性。
在本申请一种可能的实现形式中,还可以在确定候选句子为目标信息的概率时,融合候选句子的文本特征和标题特征,以提高对候选句子语义信息表示的准确性,进而进一步提升信息抽取的准确性。
下面结合图3,对本申请实施例提供的信息抽取方法进行进一步说明。
图3为本申请实施例所提供的再一种信息抽取方法的流程示意图。
如图3所示,该信息抽取方法,包括以下步骤:
步骤301,对文档进行切分以形成多个句子。
步骤302,根据目标词规则集合对多个句子进行筛选,以生成候选句子集合,其中,候选句子集合之中包括多个候选句子。
上述步骤301-302的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤303,获取每个候选句子的文本特征。
其中,文本特征,可以包括词向量特征、词性特征、命名实体特征和位置特征,但不仅限于此。
需要说明的是,文本特征、词向量特征、词性特征、命名实体特征和位置特征都可以通过矩阵进行表示。候选句子的词向量特征,是指根据候选句子包括的各分词对应的词向量生成的特征。比如,候选句子的词向量特征可以是候选句子包括的各分词对应的词向量的均值;或者,还可以是将候选句子包括的各分词对应的词向量进行拼接,生成的词向量序列。
候选句子的词性特征,是指根据候选句子包括的各分词的词性生成的特征。具体的,可以首先对候选句子进行分词处理,以确定候选句子中包括的各分词,进而对各分词进行词性分析,确定各分词的词性,进而对各分词的词性进行编码,生成候选句子的词性编码序列,进而将候选句子的词性编码序列确定为候选句子的词性特征。
作为一种可能的实现方式,可以通过一位有效编码(one-hot编码)生成候选句子的词性编码序列。其中,one-hot编码主要是采用N位状态寄存器来对N个状态进行编码,每个状态都有他独立的寄存器位,并且在任意时候只有一位有效。在通过one-hot编码生成候选句子的词性编码序列时,可以首先将预设各词性对应的编码。比如,共有四个词性,则可以通过4位寄存器对各词性进行编码,名词对应的编码为:0001,动词对应的编码为:0010,等等。进而,在确定出分词的词性之后,将该分词的词性对应的编码作为该分词在词性编码序列中对应位置的元素值。比如,候选句子中的第一个分词的词性为名词,名词对应的编码为0001,则可以将0001确定为词性编码序列中第一个元素的取值。
候选句子的命名实体特征,是指根据候选句子中包括的各分词是否为命名实体确定的特征。具体的,可以首先对候选句子进行分词处理,以确定候选句子中包括的各分词,进而对各分词进行命名实体分析,确定各分词是否为命名实体,以生成候选句子的命名实体编码序列,进而将候选句子的命名实体编码序列确定为候选句子的命名实体特征。
作为一种可能的实现方式,可以在确定分词为命名实体时,将“1”确定为该分词在命名实体编码序列中对应位置的元素取值;在确定分词不是命名实体时,将“0”确定为该分词在命名实体编码序列中对应位置的元素取值,从而确定出候选句子的命名实体编码序列。
作为另一可能的实现方式,还可以通过one-hot编码确定候选句子的命名实体编码序列。比如,可以通过两位寄存器对对命名实体类别进行编码,在确定出分词的命名实体类别之后,将该分词的命名实体类别对应的编码作为该分词在命名实体编码序列中对应位置的元素值。比如,候选句子中的第一个分词不是命名实体,不是命名实体对应的编码为01,则可以将01确定为命名实体编码序列中第一个元素的取值;候选句子中的第二个分词是命名实体,是命名实体对应的编码为10,则可以将10确定为命名实体编码序列中第二个元素的取值。
候选句子的位置特征,是指根据候选句子包括的各分词在候选句子中的位置确定的特征。
作为一种可能的实现方式,可以对候选句子进行分词处理之后,根据各分词在候选句子中的顺序,确定候选句子的位置序列,进而将候选句子的位置序列确定为候选句子的位置特征。比如,候选句子中包括4个分词,则生成的候选句子的位置序列为[1 2 3 4]。
作为另一种可能的实现方式,还可以根据候选句子中各分词与候选句子中目标词之间的距离,确定候选句子的位置序列。比如,候选句子中包括4个分词,第三个分词为目标词,则可以确定候选句子的位置序列为[2 1 0 1]。
在本申请实施例中,在确定出候选句子的词向量特征、词性特征、命名实体特征及位置特征之后,可以将候选句子的词向量特征、词性特征、命名实体特征及位置特征进行拼接处理,以生成候选句子的文本特征。
步骤304,获取每个候选句子的标题特征。
其中,候选句子的标题特征,是指根据候选句子的标题内容生成的特征。需要说明的是,标题特征也可以通过矩阵形式进行表示。
作为一种可能的实现方式,由于候选句子对应的标题可以对候选句子中包括的主要内容或关键信息进行概括描述,因此,将候选句子的文本特征与标题特征进行融合,能更加准确的表示候选句子的语义信息和关键内容。从而,在本申请实施例中,可以在获取候选句子的文本特征之后,还可以获取候选句子的标题特征,以进一步提升信息提取的准确性。
进一步的,由于在结构复杂的文档中,候选句子可能具有多个标题,从而可以根据候选句子对应的多个标题的文本特征,生成候选句子的标题特征。即在本申请实施例一种可能的实现形式中,上述步骤304,可以包括:
获取候选句子对应的至少一个标题。
获取候选句子对应的至少一个标题的文本特征。
根据至少一个标题的文本特征,生成候选句子的标题特征。
在本申请实施例中,可以根据候选句子所在文档的大纲级别与序号,确定候选句子的标题。比如,候选句子位于文档中的第一章的第一节,则可以确定候选句有两个对应的标题,即一级标题“第一章XX”与二级标题“第一节YY”。在确定出候选句子对应的所有标题之后,可以利用与步骤303中相同的方式,确定出候选句子对应的每个标题的文本特征,进而根据候选句子对应的每个标题的文本特征,生成候选句子的标题特征。
需要说明的是,标题的文本特征中也可以包括标题的词向量特征、词性特征、命名实体特征和位置特征等,具体的实现过程与步骤303中确定候选句子的文本特征的方式相同,此处不再赘述。
可选的,在候选句子对应的标题有多个时,可以将候选句子对应的各标题的文本特征的均值,确定为候选句子的标题特征。
可选的,在在候选句子对应的标题有多个时,还可以将候选句子对应的各标题的文本特征进行拼接处理,以生成候选句子的标题特征。
步骤305,根据每个候选句子的文本特征与标题特征,生成每个候选句子为目标信息的概率。
在本申请实施例中,由于候选句子的文本特征与标题特征中包括了候选句子丰富的语义信息,因此对每个候选句子的文本特征与标题特征进行分析,可以准确理解每个候选句子的语义,从而生成每个候选句子为目标信息的概率。
作为一种可能的实现方式,可以将候选句子的文本特征与标题特征进行拼接,以生成候选句子的特征矩阵,进而将候选句子的特征矩阵输入预先训练的深度学习模型,以利用预先训练的深度学习模型对候选句子的特征矩阵进行识别处理,输出候选句子为目标信息的概率。
作为另一种可能的实现方式,本申请实施例使用的深度学习模型可以为基于CNN(Convolutional Neural Networks,卷积神经网络)的二分类模型。如图4所示,为本申请实施例所提供的一种基于CNN的二分类模型的结构示意图,包括嵌入层、卷积层、激活层、池化层、级联层1、级联层2与全连接层。
具体的,如图5所示,为通过图4所示的基于CNN的二分类模型对候选句子进行处理的流程示意图。其中,将候选句子的文本特征与标题特征分别以n×m矩阵的形式输入模型的嵌入层(若文本特征和/或标题特征的维度超过n行,则可以对文本特征和/或标题特征进行截断处理),并通过卷积层对文本特征进行卷积处理。需要说明的是,卷积层中可以包括多个不同尺寸的卷积核对文本特征进行卷积处理,以更好的表达候选句子的上下文信息。比如,如图5所示,在卷积层中可以分别利用2×m、3×m与4×m的卷积核,滑动窗口为1,对候选句子的文本特征进行卷积处理。
之后,激活层(如利用ReLU(The Rectified Linear Unit,修正线性单元)激活函数)对文本特征的卷积处理结果进行激活处理,以生成每个卷积核对文本特征的卷积结果对应的特征向量。进而,利用池化层对各卷积结果对应的特征向量进行最大值池化处理,以对特征向量进行降维,抽取出信息量最大的特征向量。最后,通过级联层1将各卷积核对应的最大值池化结果进行拼接,生成候选句子处理后的文本特征100。
相应的,对候选句子的标题特征进行处理的过程与对候选句子的文本特征进行处理的过程相同,此处不再赘述,在通过上述相同的过程生成候选句子处理后的标题特征200之后,可以通过级联层2对处理后的文本特征100和处理后的标题特征200进行拼接,生成候选句子的句子表示400。最后,通过全连接层对候选句子的句子表示400进行识别处理,生成候选句子为目标信息的概率。候选句子为目标信息的概率可以通过公式(1)表示。
pk=softmax(wkx+bk) (1)
其中,pk为候选句子为目标信息的概率,softmax为模型的全连接层的函数表示,x为候选句子的句子表示,wk、bk为模型参数。
步骤306,从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。
上述步骤306的具体实现过程及原理可以参照上述实施例的详细描述,此处不再赘述。
根据本申请实施例的技术方案,通过将文档切分成多个句子,并根据目标词规则集合对多个句子进行筛选,以生成包括多个候选句子的候选句子集合,之后根据获取到的每个候选句子的文本特征与标题特征,生成每个候选句子为目标信息的概率,进而从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。由此,通过融合候选句子的文本特征和标题特征表示候选句子的语义信息,以提高对候选句子语义信息表示的准确性,从而不仅降低了信息抽取的数据处理量,降低了信息抽取时长,而且进一步提升了信息抽取的准确性。
在本申请一种可能的实现形式中,还可以在确定候选句子为目标信息的概率时,融合候选句子的文本特征、标题特征与句子统计特征,以提高对候选句子语义信息表示的准确性,进而进一步提升信息抽取的准确性。
下面结合图6,对本申请实施例提供的信息抽取方法进行进一步说明。
图6为本申请实施例所提供的又一种信息抽取方法的流程示意图。
如图6所示,该信息抽取方法,包括以下步骤:
步骤401,对文档进行切分以形成多个句子。
步骤402,根据目标词规则集合对多个句子进行筛选,以生成候选句子集合,其中,候选句子集合之中包括多个候选句子。
步骤403,获取每个候选句子的文本特征。
步骤404,获取每个候选句子的标题特征。
上述步骤401-404的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
步骤405,获取每个候选句子的句子统计特征。
作为一种可能的实现方式,候选句子的句子统计特征可以包括候选句子的序号特征、否定词特征、目标词特征等。即在本申请实施例一种可能的实现形式中,上述步骤405,可以包括:
获取候选句子的序号特征;
获取候选句子中包含的否定词特征;
获取候选句子中的目标词特征;
根据序号特征、否定词特征和目标词特征,生成候选句子的句子统计特征。
其中,候选句子的序号特征,是根据候选句子第一个分词之前的相邻位置是否包含数字确定的;候选句子的否定词特征是根据候选句子中是否包含否定词确定的;候选句子的目标词特征,是根据候选句子中包括的目标词的数量确定的。
需要说明的是,由于包含序号的句子通常为文档中的重要信息,句子中是否包含否定词可以用于帮助理解句子的真实意思,句子中目标词的数量可以表征句子与目标信息的关联程度,从而融合候选句子的句子统计特征对候选句子的语义信息进行表示,可以提升句子语义信息表示的准确性。
作为一种可能的实现方式,可以将候选句子的序号特征、否定词特征及目标词特征进行拼接,生成候选句子的句子统计特征。可选的,若候选句子的第一个分词之前的相邻位置,即候选句子的句首为数字,则可以确定该候选句子中包含序号,而包含序号的句子通常为文档中的重要信息,因此可以将候选句子的序号特征确定为“1”;若候选句子的第一个分词之前的相邻位置不是数字,则可以确定该候选句子中未包含序号,从而可以将该候选句子的序号特征确定为“0”。若候选句子中未包含否定词(如不是、未、否,等等),则可以将该候选句子的否定词特征确定为“0”;若候选句子中包含否定词,则可以将该候选句子的否定词特征确定为“1”。相应的,将候选句子中包含的目标词的数量确定为候选句子的目标词特征。
举例来说,候选句子为“借款公司存在停产行为,有可能逾期还款”,可见,候选句子在文档中未包含序号,未包含否定词,包含的目标词为“停产”,从而可以确定候选句子的句子统计特征为[0 0 1]。
步骤406,根据每个候选句子的文本特征、标题特征及句子统计特征,生成每个候选句子为目标信息的概率。
在本申请实施例中,由于候选句子的文本特征、标题特征与句子统计特征中包括了候选句子丰富的语义信息,因此对每个候选句子的文本特征、标题特征及句子统计特征进行分析,可以准确理解每个候选句子的语义,从而生成每个候选句子为目标信息的概率。
作为一种可能的实现方式,可以将候选句子的文本特征、标题特征与句子统计特征进行拼接,以生成候选句子的特征矩阵,进而将候选句子的特征矩阵输入预先训练的深度学习模型,以利用预先训练的深度学习模型对候选句子的特征矩阵进行识别处理,输出候选句子为目标信息的概率。
作为另一种可能的实现方式,本申请实施例使用的深度学习模型可以为基于CNN的二分类模型。即在本申请实施例一种可能的实现形式中,上述步骤406,可以包括:
根据每个候选句子的文本特征、标题特征及句子统计特征,生成每个候选句子的句子表示;
将每个候选句子的句子表示输入二分类模型,以生成每个候选句子为目标信息的概率。
可选的,可以通过如图4所示的模型对候选句子的文本特征、标题特征及句子统计特征进行识别处理,输出候选句子为目标信息的概率。
具体的,如图7所示,为通过图4所示的二分类模型对候选句子进行处理的另一种流程示意图。其中,将候选句子的文本特征与标题特征分别以n×m矩阵的形式输入模型的嵌入层(若文本特征和/或标题特征的维度超过n行,则可以对文本特征和/或标题特征进行截断处理),并通过卷积层对文本特征进行卷积处理。需要说明的是,卷积层中可以包括多个不同尺寸的卷积核对文本特征进行卷积处理,以更好的表达候选句子的上下文信息。比如,如图5所示,在卷积层中可以分别利用2×m、3×m与4×m的卷积核,滑动窗口为1,对候选句子的文本特征进行卷积处理。
之后,激活层对文本特征的卷积处理结果进行激活处理,以生成每个卷积核对文本特征的卷积结果对应的特征向量。进而,利用池化层对各卷积结果对应的特征向量进行最大值池化处理,以对特征向量进行降维,抽取出信息量最大的特征向量。最后,通过级联层1将各卷积核对应的最大值池化结果进行拼接,生成候选句子处理后的文本特征100。
相应的,对候选句子的标题特征进行处理的过程与对候选句子的文本特征进行处理的过程相同,此处不再赘述,在通过上述相同的过程生成候选句子处理后的标题特征200之后,可以通过级联层2对处理后的文本特征100、处理后的标题特征200与候选句子的句子统计特征300进行拼接,生成候选句子的句子表示400。最后,通过全连接层对候选句子的句子表示400进行识别处理,生成候选句子为目标信息的概率。
步骤407,从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。
上述步骤407的具体实现过程及原理,可以参照上述实施例的详细描述,此处不再赘述。
根据本申请实施例的技术方案,通过将文档切分成多个句子,并根据目标词规则集合对多个句子进行筛选,以生成包括多个候选句子的候选句子集合,之后根据获取到的每个候选句子的文本特征、标题特征与句子统计特征,生成每个候选句子为目标信息的概率,进而从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。由此,通过融合候选句子的文本特征、标题特征与句子统计特征表示候选句子的语义信息,以提高对候选句子语义信息表示的准确性,从而不仅降低了信息抽取的数据处理量,降低了信息抽取时长,而且进一步提升了信息抽取的准确性。
为了实现上述实施例,本申请还提出一种信息抽取装置。
图8为本申请实施例提供的一种信息抽取装置的结构示意图。
如图8所示,该信息抽取装置50,包括:
切分模块51,用于对文档进行切分以形成多个句子;
筛选模块52,用于根据目标词规则集合对多个句子进行筛选,以生成候选句子集合,其中,候选句子集合之中包括多个候选句子;
第一获取模块53,用于获取每个候选句子的文本特征;
生成模块54,用于根据每个候选句子的文本特征,生成每个候选句子为目标信息的概率;以及
抽取模块55,用于从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。
在实际使用时,本申请实施例提供的信息抽取装置,可以被配置在任意电子设备中,以执行前述信息抽取方法。
根据本申请实施例的技术方案,通过将文档切分成多个句子,并根据目标词规则集合对多个句子进行筛选,以生成包括多个候选句子的候选句子集合,之后根据获取到的每个候选句子的文本特征,生成每个候选句子为目标信息的概率,进而从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。由此,通过目标词规则集合进行了初步筛选,降低了信息抽取的数据处理量,从而降低了信息抽取时长,提高了信息抽取的准确性。
在本申请一种可能的实现形式中,上述信息抽取装置50,还包括:
第二获取模块,用于获取每个候选句子的标题特征;
相应的,上述生成模块54,包括:
第一生成单元,用于根据每个候选句子的文本特征与标题特征,生成每个候选句子为目标信息的概率。
进一步的,在本申请另一种可能的实现形式中,上述信息抽取装置50,还包括:
第三获取模块,用于获取每个候选句子的句子统计特征;
相应的,上述生成模块54,包括:
第二生成单元,用于根据每个候选句子的文本特征、标题特征及句子统计特征,生成每个候选句子为目标信息的概率。
进一步的,在本申请再一种可能的实现形式中,上述第三获取模块,包括:
第一获取单元,用于获取候选句子的序号特征;
第二获取单元,用于获取候选句子中包含的否定词特征;
第三获取单元,用于获取候选句子中的目标词特征;
第三生成单元,用于根据序号特征、否定词特征和目标词特征,生成候选句子的句子统计特征。
进一步的,在本申请又一种可能的实现形式中,上述第二获取模块,包括:
第四获取单元,用于获取候选句子对应的至少一个标题;
第五获取单元,用于获取候选句子对应的至少一个标题的文本特征;
第四生成单元,用于根据至少一个标题的文本特征,生成候选句子的标题特征。
进一步的,在本申请又一种可能的实现形式中,上述文本特征包括词向量特征、词性特征、命名实体特征和位置特征。
进一步的,在本申请另一种可能的实现形式中,上述第二生成单元,包括:
第一生成子单元,用于根据每个候选句子的文本特征、标题特征及句子统计特征,生成每个候选句子的句子表示;
第二生成子单元,用于将每个候选句子的句子表示输入二分类模型,以生成每个候选句子为目标信息的概率。
进一步的,在本申请再一种可能的实现形式中,上述筛选模块52,包括:
加入单元,用于在句子中包括目标词规则集合中的任一个目标词时,将句子作为候选句子加入候选句子集合。
需要说明的是,前述对图1、图2、图3、图6所示的信息抽取方法实施例的解释说明也适用于该实施例的信息抽取装置50,此处不再赘述。
根据本申请实施例的技术方案,通过将文档切分成多个句子,并根据目标词规则集合对多个句子进行筛选,以生成包括多个候选句子的候选句子集合,之后根据获取到的每个候选句子的文本特征、标题特征与句子统计特征,生成每个候选句子为目标信息的概率,进而从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。由此,通过融合候选句子的文本特征、标题特征与句子统计特征表示候选句子的语义信息,以提高对候选句子语义信息表示的准确性,从而不仅降低了信息抽取的数据处理量,降低了信息抽取时长,而且进一步提升了信息抽取的准确性。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图9所示,是根据本申请实施例的信息抽取方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图9所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个电子设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的信息抽取方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的信息抽取方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的信息抽取方法对应的程序指令/模块(例如,附图8所示的切分模块51、筛选模块52、第一获取模块53、生成模块54及抽取模块55)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的信息抽取方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据信息抽取方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至信息抽取方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
信息抽取方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与信息抽取方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,通过将文档切分成多个句子,并根据目标词规则集合对多个句子进行筛选,以生成包括多个候选句子的候选句子集合,之后根据获取到的每个候选句子的文本特征,生成每个候选句子为目标信息的概率,进而从候选句子集合中抽取概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。由此,通过目标词规则集合进行了初步筛选,降低了信息抽取的数据处理量,从而降低了信息抽取时长,提高了信息抽取的准确性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (18)

1.一种信息抽取方法,其特征在于,包括:
对文档进行切分以形成多个句子;
根据目标词规则集合对所述多个句子进行筛选,以生成候选句子集合,其中,所述候选句子集合之中包括多个候选句子;
获取所述每个候选句子的文本特征;
根据所述每个候选句子的文本特征,生成所述每个候选句子为目标信息的概率;以及
从所述候选句子集合中抽取所述概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。
2.如权利要求1所述的方法,其特征在于,所述获取所述每个候选句子的文本特征之后,还包括:
获取所述每个候选句子的标题特征;
所述根据所述每个候选句子的文本特征,生成所述每个候选句子为目标信息的概率,包括:
根据所述每个候选句子的文本特征与标题特征,生成所述每个候选句子为目标信息的概率。
3.如权利要求2所述的方法,其特征在于,所述获取所述每个候选句子的标题特征之后,还包括:
获取所述每个候选句子的句子统计特征;
所述根据所述每个候选句子的文本特征,生成所述每个候选句子为目标信息的概率,包括:
根据所述每个候选句子的文本特征、标题特征及句子统计特征,生成所述每个候选句子为目标信息的概率。
4.如权利要求3所述的方法,其特征在于,所述获取所述候选句子的句子统计特征,包括:
获取所述候选句子的序号特征;
获取所述候选句子中包含的否定词特征;
获取所述候选句子中的目标词特征;
根据所述序号特征、所述否定词特征和所述目标词特征,生成所述候选句子的句子统计特征。
5.如权利要求2-4任一所述的方法,其特征在于,所述获取所述候选句子的标题特征,包括:
获取所述候选句子对应的至少一个标题;
获取所述候选句子对应的至少一个标题的文本特征;
根据所述至少一个标题的文本特征,生成所述候选句子的标题特征。
6.如权利要求2-4任一所述的方法,其特征在于,所述文本特征包括词向量特征、词性特征、命名实体特征和位置特征。
7.如权利要求3所述的方法,其特征在于,所述根据所述候选句子的文本特征、所述标题特征和所述句子统计特征,生成所述每个候选句子为目标信息的概率,包括:
根据所述每个候选句子的文本特征、所述标题特征及所述句子统计特征,生成所述每个候选句子的句子表示;
将所述每个候选句子的句子表示输入二分类模型,以生成所述每个候选句子为目标信息的概率。
8.如权利要求1-4任一项所述的方法,其特征在于,所述根据目标词规则集合对所述多个句子进行筛选,以生成候选句子集合,包括:
如果所述句子中包括所述目标词规则集合中的任一个目标词,则将所述句子作为候选句子加入所述候选句子集合。
9.一种信息抽取装置,其特征在于,包括:
切分模块,用于对文档进行切分以形成多个句子;
筛选模块,用于根据目标词规则集合对所述多个句子进行筛选,以生成候选句子集合,其中,所述候选句子集合之中包括多个候选句子;
第一获取模块,用于获取所述每个候选句子的文本特征;
生成模块,用于根据所述每个候选句子的文本特征,生成所述每个候选句子为目标信息的概率;以及
抽取模块,用于从所述候选句子集合中抽取所述概率大于或等于预设概率阈值的候选句子,以构成目标信息集合。
10.如权利要求9所述的装置,其特征在于,还包括:
第二获取模块,用于获取所述每个候选句子的标题特征;
所述生成模块,包括:
第一生成单元,用于根据所述每个候选句子的文本特征与标题特征,生成所述每个候选句子为目标信息的概率。
11.如权利要求10所述的装置,其特征在于,还包括:
第三获取模块,用于获取所述每个候选句子的句子统计特征;
所述生成模块,包括:
第二生成单元,用于根据所述每个候选句子的文本特征、标题特征及句子统计特征,生成所述每个候选句子为目标信息的概率。
12.如权利要求11所述的装置,其特征在于,所述第三获取模块,包括:
第一获取单元,用于获取所述候选句子的序号特征;
第二获取单元,用于获取所述候选句子中包含的否定词特征;
第三获取单元,用于获取所述候选句子中的目标词特征;
第三生成单元,用于根据所述序号特征、所述否定词特征和所述目标词特征,生成所述候选句子的句子统计特征。
13.如权利要求10-12任一所述的装置,其特征在于,所述第二获取模块,包括:
第四获取单元,用于获取所述候选句子对应的至少一个标题;
第五获取单元,用于获取所述候选句子对应的至少一个标题的文本特征;
第四生成单元,用于根据所述至少一个标题的文本特征,生成所述候选句子的标题特征。
14.如权利要求10-12任一所述的装置,其特征在于,所述文本特征包括词向量特征、词性特征、命名实体特征和位置特征。
15.如权利要求11所述的装置,其特征在于,所述第二生成单元,包括:
第一生成子单元,用于根据所述每个候选句子的文本特征、所述标题特征及所述句子统计特征,生成所述每个候选句子的句子表示;
第二生成子单元,用于将所述每个候选句子的句子表示输入二分类模型,以生成所述每个候选句子为目标信息的概率。
16.如权利要求9-12任一项所述的装置,其特征在于,所述筛选模块,包括:
加入单元,用于在所述句子中包括所述目标词规则集合中的任一个目标词时,将所述句子作为候选句子加入所述候选句子集合。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
18.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
CN202010270458.4A 2020-04-08 2020-04-08 信息抽取方法、装置及电子设备 Active CN111581358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010270458.4A CN111581358B (zh) 2020-04-08 2020-04-08 信息抽取方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010270458.4A CN111581358B (zh) 2020-04-08 2020-04-08 信息抽取方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111581358A true CN111581358A (zh) 2020-08-25
CN111581358B CN111581358B (zh) 2023-08-18

Family

ID=72112961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010270458.4A Active CN111581358B (zh) 2020-04-08 2020-04-08 信息抽取方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111581358B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069794A (zh) * 2020-08-28 2020-12-11 北京百度网讯科技有限公司 文本预测方法、装置、设备以及存储介质
CN112989042A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 热点话题的提取方法、装置、计算机设备及存储介质
CN113971216A (zh) * 2021-10-22 2022-01-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN114519105A (zh) * 2021-12-24 2022-05-20 北京达佳互联信息技术有限公司 一种概念词语确定方法、装置、电子设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257791A (ja) * 2010-06-04 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置、その方法及びプログラム
CN104598535A (zh) * 2014-12-29 2015-05-06 中国科学院计算机网络信息中心 一种基于最大熵的事件抽取方法
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN106598997A (zh) * 2015-10-19 2017-04-26 北京国双科技有限公司 一种计算文本主题归属度的方法及装置
CN106844326A (zh) * 2015-12-04 2017-06-13 北京国双科技有限公司 一种获取词语的方法及装置
CN106933800A (zh) * 2016-11-29 2017-07-07 首都师范大学 一种金融领域的事件句抽取方法
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109597886A (zh) * 2018-10-23 2019-04-09 中国科学院自动化研究所 抽取生成混合型摘要生成方法
CN109657054A (zh) * 2018-12-13 2019-04-19 北京百度网讯科技有限公司 摘要生成方法、装置、服务器及存储介质
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN110674286A (zh) * 2019-09-29 2020-01-10 出门问问信息科技有限公司 一种文本摘要抽取方法、装置及存储设备
CN110941692A (zh) * 2019-09-28 2020-03-31 西南电子技术研究所(中国电子科技集团公司第十研究所) 互联网政治外交类新闻事件抽取方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257791A (ja) * 2010-06-04 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置、その方法及びプログラム
CN104598535A (zh) * 2014-12-29 2015-05-06 中国科学院计算机网络信息中心 一种基于最大熵的事件抽取方法
CN106598997A (zh) * 2015-10-19 2017-04-26 北京国双科技有限公司 一种计算文本主题归属度的方法及装置
CN106844326A (zh) * 2015-12-04 2017-06-13 北京国双科技有限公司 一种获取词语的方法及装置
CN105760439A (zh) * 2016-02-02 2016-07-13 西安交通大学 一种基于特定行为共现网络的人物共现关系图谱构建方法
CN106933800A (zh) * 2016-11-29 2017-07-07 首都师范大学 一种金融领域的事件句抽取方法
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN109165385A (zh) * 2018-08-29 2019-01-08 中国人民解放军国防科技大学 一种基于实体关系联合抽取模型的多三元组抽取方法
CN109597886A (zh) * 2018-10-23 2019-04-09 中国科学院自动化研究所 抽取生成混合型摘要生成方法
CN109657054A (zh) * 2018-12-13 2019-04-19 北京百度网讯科技有限公司 摘要生成方法、装置、服务器及存储介质
CN109857990A (zh) * 2018-12-18 2019-06-07 重庆邮电大学 一种基于文档结构与深度学习的金融类公告信息抽取方法
CN110941692A (zh) * 2019-09-28 2020-03-31 西南电子技术研究所(中国电子科技集团公司第十研究所) 互联网政治外交类新闻事件抽取方法
CN110674286A (zh) * 2019-09-29 2020-01-10 出门问问信息科技有限公司 一种文本摘要抽取方法、装置及存储设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YAN Y等: ""Unsupervised relation extraction by mining wikipedia texts using information from the web"" *
张素香: "\"信息抽取中关键技术的研究\"" *
李娜娜;刘培玉;刘文锋;刘伟童;: "基于TextRank的自动摘要优化算法", 计算机应用研究, no. 04 *
艾金勇;: "结合语义知识的藏文网页主题句抽取算法研究", 图书馆理论与实践, no. 08 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069794A (zh) * 2020-08-28 2020-12-11 北京百度网讯科技有限公司 文本预测方法、装置、设备以及存储介质
CN112069794B (zh) * 2020-08-28 2024-04-30 北京百度网讯科技有限公司 文本预测方法、装置、设备以及存储介质
CN112989042A (zh) * 2021-03-15 2021-06-18 平安科技(深圳)有限公司 热点话题的提取方法、装置、计算机设备及存储介质
CN112989042B (zh) * 2021-03-15 2024-03-15 平安科技(深圳)有限公司 热点话题的提取方法、装置、计算机设备及存储介质
CN113971216A (zh) * 2021-10-22 2022-01-25 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN113971216B (zh) * 2021-10-22 2023-02-03 北京百度网讯科技有限公司 数据处理方法、装置、电子设备和存储器
CN114519105A (zh) * 2021-12-24 2022-05-20 北京达佳互联信息技术有限公司 一种概念词语确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111581358B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
US11625539B2 (en) Extracting trigger words and arguments from text to obtain an event extraction result
EP4027268A1 (en) Training method for classification model, sample classification method and apparatus, and device
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
CN111581358B (zh) 信息抽取方法、装置及电子设备
CN111241832B (zh) 核心实体标注方法、装置及电子设备
CN111859951B (zh) 语言模型的训练方法、装置、电子设备及可读存储介质
CN111143561B (zh) 意图识别模型训练方法、装置及电子设备
CN111967262A (zh) 实体标签的确定方法和装置
CN108804423B (zh) 医疗文本特征提取与自动匹配方法和系统
CN111753914A (zh) 模型优化方法和装置、电子设备及存储介质
CN111680145A (zh) 知识表示学习方法、装置、设备以及存储介质
EP3846069A1 (en) Pre-training method for sentiment analysis model, and electronic device
CN112507702B (zh) 文本信息的抽取方法、装置、电子设备及存储介质
CN111539209B (zh) 用于实体分类的方法和装置
CN111950291A (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
CN111858905B (zh) 模型训练方法、信息识别方法、装置、电子设备及存储介质
CN111078878A (zh) 文本处理方法、装置、设备及计算机可读存储介质
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN111831814A (zh) 摘要生成模型的预训练方法、装置、电子设备和存储介质
CN112330455A (zh) 用于推送信息的方法、装置、设备以及存储介质
CN113360751A (zh) 意图识别方法、装置、设备和介质
CN112232089B (zh) 语义表示模型的预训练方法、设备和存储介质
CN113312451B (zh) 文本标签确定方法和装置
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
US11893977B2 (en) Method for recognizing Chinese-English mixed speech, electronic device, and storage medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant