CN113010593A - 非结构化文本的事件抽取方法、系统及装置 - Google Patents
非结构化文本的事件抽取方法、系统及装置 Download PDFInfo
- Publication number
- CN113010593A CN113010593A CN202110363162.1A CN202110363162A CN113010593A CN 113010593 A CN113010593 A CN 113010593A CN 202110363162 A CN202110363162 A CN 202110363162A CN 113010593 A CN113010593 A CN 113010593A
- Authority
- CN
- China
- Prior art keywords
- event
- role
- dictionary
- dictionary library
- unstructured text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000013135 deep learning Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000005065 mining Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 5
- 238000012423 maintenance Methods 0.000 abstract description 2
- 238000002372 labelling Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Abstract
本发明公开了一种非结构化文本的事件抽取方法、系统及装置,所述方法包括:基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别事件的事件类型,并基于预先构建好的事件角色字典库,对事件中的角色要素进行识别;根据事件类型和角色要素,对事件进行结构化存储。本发明通过配置字典的形式,使得问句中事件的解析更灵活,便于维护,易于扩展,避免了深度学习需要收集相关语料、标注、训练等复杂的工序。
Description
技术领域
本发明涉及人工智能自然语言处理技术领域,尤其是涉及一种非结构化文本的事件抽取方法、系统及装置。
背景技术
在现有技术中,事件抽取是把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘、自动问答、信息检索等领域有着广泛的应用。事件抽取技术的核心价值,是可以把半结构化、非结构化数据转换为对事件的结构化描述,进而支持丰富的下游应用。
目前的实体识别主要采取机器学习、深度学习,但是都存在不足之处:
(1)基于深度学习、机器学习的方法,首先需要收集前期的训练语料,然后进行标注,然而,对于金融、保险、石化等垂直领域,所需的标注语料是非常稀缺的,从而增加了该技术方案落地的困难性;同时,深度学习的效果存在很大的不稳定因素,准确率难以把控;
(2)基于深度学习、机器学习的方法,对于事件类型的增加则比较繁琐,需要从新训练,效率低下。
因此目前亟需一种新的非结构化文本事件抽取方法。
发明内容
本发明的目的在于提供一种非结构化文本的事件抽取方法、系统及装置,旨在解决现有技术中的上述问题。
本发明提供一种非结构化文本的事件抽取方法,包括:
基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别事件的事件类型,并基于预先构建好的事件角色字典库,对事件中的角色要素进行识别;
根据事件类型和角色要素,对事件进行结构化存储。
本发明提供一种非结构化文本的事件抽取系统,包括:
解析层,用于基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别事件的事件类型,并基于预先构建好的事件角色字典库,对事件中的角色要素进行识别;
应用层,用于根据事件类型和角色要素,对事件进行结构化存储。
本发明实施例还提供一种非结构化文本的事件抽取装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现上述非结构化文本的事件抽取方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有信息传递的实现程序,程序被处理器执行时实现上述非结构化文本的事件抽取方法的步骤。
采用本发明实施例,在特定领域中性能较好,知识表示简洁,便于理解和后续应用;本发明实施例通过配置字典的形式,使得问句中事件的解析更灵活,便于维护,易于扩展,避免了深度学习需要收集相关语料、标注、训练等复杂的工序。此外,本发明实施例基于规则的方式,在领域内能够实现较高的事件识别准确率,避免了基于深度学习的不稳定性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的非结构化文本的事件抽取方法的示意图;
图2是本发明实施例的非结构化文本的事件抽取方法详细处理的示意图;
图3是本发明实施例的非结构化文本的事件抽取系统的示意图;
图4是本发明实施例的非结构化文本的事件抽取装置的示意图。
具体实施方式
本发明实施例的技术方案意在通过规则和字典相结合的方法,实现非结构化文本中事件的抽取。通过事件意图字典,识别出文本是否含具有表述事件的意图;对于事件中具体角色的识别则是通过定义相对对应的角色字典,通过角色字典识别事件的各个角色。在本发明实施例中,基于规则和字典的事件抽取解析方法总共分为三个部分,数据层、解析层以及应用层。数据层主要为梳理相关的事件类型,以及各个事件类型的事件角色;然后通过文本数据,整理出各个事件类型的规则字典,构成事件意图字典库;同时,由业务专家给出各个事件下的业务领域内关注的事件角色要素,构成事件角色字典库;解析层主要是利用整理好的规则字典库,对文本中的事件进行抽取。意图字典库识别出文本中的事件类型,然后通过事件角色字典库识别出事件的各个角色要素。应用层主要对抽取的事件进行结构化存储,以便于上层应用的使用。
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。此外,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
方法实施例
根据本发明实施例,提供了一种非结构化文本的事件抽取方法,图1是本发明实施例的非结构化文本的事件抽取方法的流程图,在执行如图1所示的处理步骤之前,首先需要进行如下准备处理:构建事件意图字典库和事件角色字典库,具体包括:
根据业务需要定义从非结构化文本中抽取的事件类型以及与各个事件类型对应的角色元素;
根据定义的事件类型,从非结构化文本整理出对应的事件类型规则,根据事件类型和事件类型规则构建事件意图字典库;
根据定义的与各个事件类型对应的角色元素,整理业务领域内的事件角色实例,根据角色元素和事件角色实例构建事件角色字典库,其中,事件角色字典库与相应的事件类型相对应,具体包括:人物字典、人物职务字典、和/或地点字典。
在本发明实施例中,在事件意图字典库和事件角色字典库运行一段时间且积累了足够的语料之后,利用得到的结构化数据进行语料标注,并利用深度学习的方法对新的事件类型规则和事件角色实例进行深度挖掘,更新事件意图字典库和事件角色字典库。
如图1所示,根据本发明实施例的非结构化文本的事件抽取方法具体包括:
步骤101,基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别事件的事件类型,并基于预先构建好的事件角色字典库,对事件中的角色要素进行识别;步骤101具体包括如下处理:
对非结构化文本进行预处理;
对预处理后的非结构化文本进行分句;
基于预先构建好的事件意图字典库进行逐句识别,根据事件类型规则判断每个句子中蕴含的事件类型;
基于与事件类型对应的事件角色字典库,识别出事件中的事件角色实例。
步骤102,根据事件类型和角色要素,对事件进行结构化存储。
以下结合附图,对本发明实施例的上述技术方案进行详细说明。
根据本发明实施例的方法具体包括如下处理:
步骤1,规则字典库的构建:
1、数据的准备:准备需要抽取的非结构化文本,定义业务上要抽取的事件类型以及各个事件类型要抽取的角色元素。例如,要抽取的事件类型为人物的观点,该事件类型的角色元素为发表观点的人物,人物的职务,人物所在的机构,发表观点的时间,以及观点的内容。每一种事件类型,都对应一套角色实例字典。
2、规则字典的梳理:
(1)事件类型字典的梳理:
定义好事件的类型及角色元素之后,需要梳理事件类型的规则及角色元素字典。通过梳理部分的非结构化文本,整理出一部分相关的事件类型规则,如表1所示:
表1
事件类型规则 | 事件类型 |
.*建议.* | 观点 |
.*说:.* | 观点 |
.*介绍.* | 观点 |
.*提出.* | 观点 |
(2)角色实例字典的梳理:整理出业务领域类常用的事件角色实例。对于业务领域类的事件角色,由于垂直领域类比较关注的角色相对有限,通过一定的梳理可以很好的得到相应的数据,这种做法比较容易在垂直领域落地,而对于通用领域,该方法可操作性不强。例如,对应“观点”这一事件类型,所对应的角色实例字典有人物字典、人物职务字典、地点字典等,在整理出领域内比较关注的人物名称、职务名称等后,就可以构建相应的字典。
3、字典的补充:在经过上述的字典构建之后,通过字典库运行一段时间,积累了足够的语料之后,可以利用得到的结构化数据进行语料标注,然后利用深度学习的方法对其进行深度挖掘,补充字典中没有的角色实例和事件类型,从而实现闭环的事件加工。
步骤2,事件解析应用:图2是本发明实施例的非结构化文本的事件抽取方法详细处理的流程图,如图2所示,在准备好事件类型字典和角色实例之后,事件解析应用流程如下:
1、输入非结构化文本:输入要加工的非结构化的文本数据,进行相应的预处理,比如大小写转换、特殊字符剔除、停用词的去除等。
2、根据标点符号进行文本的拆分,进行分句:由于对于篇章和段落的分析效果比较差,因为篇章和句子中可能含有多个事件类型,每个事件类型又包含多个事件角色,这样事件类型和角色的对应就是一个难点。通过分析得出,大多数事件的角色元素及事件要领可在一句化表述清楚,因此,本发明实施例采用以句子为分析单位。
3、通过事件类型字典逐句识别,判断句子中蕴含的事件类型:对于分句的文本,通过事件类型字典中定义的事件类型的规则识别出文本中所蕴含的事件类型。
4、判断出事件类型之后,通过角色实例字典识别出事件中的角色实例:识别出句子文本中蕴含的事件类型之后,再通过事件类型所对应的角色实例字典,识别出事件类型所对应的各个角色。例如,对应“观点”这一事件类型,所对应的角色实例字典有人物字典、人物职务字典、地点字典等。
综上所述,本发明实施例的基于规则字典匹配的技术方案在特定领域中性能较好,知识表示简洁,便于理解和后续应用。本发明实施例通过配置字典的形式,使得问句中事件的解析更灵活,便于维护,易于扩展,例如,有新的事件类型的加入,直接通过配置字典即可增加新的事件类型,避免了深度学习需要收集相关语料、标注、训练等复杂的工序。此外,本发明实施例基于规则的方式,在领域内能够实现较高的事件识别准确率,避免了基于深度学习的不稳定性。
系统实施例
根据本发明实施例,提供了一种非结构化文本的事件抽取系统,图3是本发明实施例的非结构化文本的事件抽取系统的示意图,如图3所示,根据本发明实施例的非结构化文本的事件抽取系统具体包括:
数据层30,用于构建事件意图字典库和事件角色字典库;
数据层30具体用于:
根据业务需要定义从非结构化文本中抽取的事件类型以及与各个事件类型对应的角色元素;
根据定义的事件类型,从非结构化文本整理出对应的事件类型规则,根据事件类型和事件类型规则构建事件意图字典库;
根据定义的与各个事件类型对应的角色元素,整理业务领域内的事件角色实例,根据角色元素和事件角色实例构建事件角色字典库,其中,事件角色字典库与相应的事件类型相对应,具体包括:人物字典、人物职务字典、和/或地点字典;
在事件意图字典库和事件角色字典库运行一段时间且积累了足够的语料之后,利用得到的结构化数据进行语料标注,并利用深度学习的方法对新的事件类型规则和事件角色实例进行深度挖掘,更新事件意图字典库和事件角色字典库。
解析层32,用于基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别事件的事件类型,并基于预先构建好的事件角色字典库,对事件中的角色要素进行识别;解析层32具体用于:
对非结构化文本进行预处理;
对预处理后的非结构化文本进行分句;
基于预先构建好的事件意图字典库进行逐句识别,根据事件类型规则判断每个句子中蕴含的事件类型;
基于与事件类型对应的事件角色字典库,识别出事件中的事件角色实例。
应用层34,用于根据事件类型和角色要素,对事件进行结构化存储。
本发明实施例是与上述方法实施例对应的系统实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
装置实施例一
本发明实施例提供一种非结构化文本的事件抽取装置,如图4所示,包括:存储器40、处理器42及存储在所述存储器40上并可在所述处理42上运行的计算机程序,所述计算机程序被所述处理器42执行时实现如方法实施例中所述的步骤。
装置实施例二
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有信息传输的实现程序,所述程序被处理器42执行时实现如方法实施例中所述的步骤。
本实施例所述计算机可读存储介质包括但不限于为:ROM、RAM、磁盘或光盘等。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种非结构化文本的事件抽取方法,其特征在于,包括:
基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别所述事件的事件类型,并基于预先构建好的事件角色字典库,对所述事件中的角色要素进行识别;
根据所述事件类型和所述角色要素,对所述事件进行结构化存储。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
构建所述事件意图字典库和所述事件角色字典库,具体包括:
根据业务需要定义从非结构化文本中抽取的事件类型以及与各个事件类型对应的角色元素;
根据定义的所述事件类型,从非结构化文本整理出对应的事件类型规则,根据所述事件类型和所述事件类型规则构建所述事件意图字典库;
根据定义的与各个事件类型对应的角色元素,整理业务领域内的事件角色实例,根据所述角色元素和所述事件角色实例构建所述事件角色字典库,其中,所述事件角色字典库与相应的事件类型相对应,具体包括:人物字典、人物职务字典、和/或地点字典。
3.根据权利要求2所述的方法,其特征在于,构建所述事件意图字典库和所述事件角色字典库进一步包括:
在所述事件意图字典库和所述事件角色字典库运行一段时间且积累了足够的语料之后,利用得到的结构化数据进行语料标注,并利用深度学习的方法对新的事件类型规则和事件角色实例进行深度挖掘,更新所述事件意图字典库和所述事件角色字典库。
4.根据权利要求2或3所述的方法,其特征在于,基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别所述事件的事件类型,并基于预先构建好的事件角色字典库,对所述事件中的角色要素进行识别具体包括:
对非结构化文本进行预处理;
对预处理后的所述非结构化文本进行分句;
基于预先构建好的事件意图字典库进行逐句识别,根据所述事件类型规则判断每个句子中蕴含的事件类型;
基于与所述事件类型对应的事件角色字典库,识别出事件中的事件角色实例。
5.一种非结构化文本的事件抽取系统,其特征在于,包括:
解析层,用于基于预先构建好的事件意图字典库对非结构化文本中的事件进行抽取,识别所述事件的事件类型,并基于预先构建好的事件角色字典库,对所述事件中的角色要素进行识别;
应用层,用于根据所述事件类型和所述角色要素,对所述事件进行结构化存储。
6.根据权利要求5所述的系统,其特征在于,所述系统进一步包括:
数据层,用于构建所述事件意图字典库和所述事件角色字典库;
所述数据层具体用于:
根据业务需要定义从非结构化文本中抽取的事件类型以及与各个事件类型对应的角色元素;
根据定义的所述事件类型,从非结构化文本整理出对应的事件类型规则,根据所述事件类型和所述事件类型规则构建所述事件意图字典库;
根据定义的与各个事件类型对应的角色元素,整理业务领域内的事件角色实例,根据所述角色元素和所述事件角色实例构建所述事件角色字典库,其中,所述事件角色字典库与相应的事件类型相对应,具体包括:人物字典、人物职务字典、和/或地点字典。
7.根据权利要求6所述的系统,其特征在于,所述数据层进一步用于:
在所述事件意图字典库和所述事件角色字典库运行一段时间且积累了足够的语料之后,利用得到的结构化数据进行语料标注,并利用深度学习的方法对新的事件类型规则和事件角色实例进行深度挖掘,更新所述事件意图字典库和所述事件角色字典库。
8.根据权利要求6或7所述的系统,其特征在于,所述解析层具体用于:
对非结构化文本进行预处理;
对预处理后的所述非结构化文本进行分句;
基于预先构建好的事件意图字典库进行逐句识别,根据所述事件类型规则判断每个句子中蕴含的事件类型;
基于与所述事件类型对应的事件角色字典库,识别出事件中的事件角色实例。
9.一种非结构化文本的事件抽取装置,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至4中任一项所述的非结构化文本的事件抽取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信息传递的实现程序,所述程序被处理器执行时实现如权利要求1至15中任一项所述的非结构化文本的事件抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110363162.1A CN113010593B (zh) | 2021-04-02 | 2021-04-02 | 非结构化文本的事件抽取方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110363162.1A CN113010593B (zh) | 2021-04-02 | 2021-04-02 | 非结构化文本的事件抽取方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113010593A true CN113010593A (zh) | 2021-06-22 |
CN113010593B CN113010593B (zh) | 2024-02-13 |
Family
ID=76387990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110363162.1A Active CN113010593B (zh) | 2021-04-02 | 2021-04-02 | 非结构化文本的事件抽取方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010593B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641816A (zh) * | 2021-08-20 | 2021-11-12 | 安徽淘云科技股份有限公司 | 一种信息显示方法、装置、存储介质及设备 |
CN116596496A (zh) * | 2023-07-18 | 2023-08-15 | 金现代信息产业股份有限公司 | 一种基于标签化的人岗匹配方法、系统、介质及设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572958A (zh) * | 2014-12-29 | 2015-04-29 | 中国科学院计算机网络信息中心 | 一种基于事件抽取的敏感信息监控方法 |
CN104598535A (zh) * | 2014-12-29 | 2015-05-06 | 中国科学院计算机网络信息中心 | 一种基于最大熵的事件抽取方法 |
CN105354183A (zh) * | 2015-10-19 | 2016-02-24 | Tcl集团股份有限公司 | 一种家电产品互联网评论的分析方法、装置及系统 |
CN108920447A (zh) * | 2018-05-07 | 2018-11-30 | 国家计算机网络与信息安全管理中心 | 一种面向特定领域的中文事件抽取方法 |
CN109408806A (zh) * | 2018-09-11 | 2019-03-01 | 中国电子科技集团公司第二十八研究所 | 一种基于英文语法规则的事件提取方法 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN111104803A (zh) * | 2019-12-31 | 2020-05-05 | 科大讯飞股份有限公司 | 语义理解处理方法、装置、设备及可读存储介质 |
CN111209412A (zh) * | 2020-02-10 | 2020-05-29 | 同方知网(北京)技术有限公司 | 一种循环更新迭代的期刊文献知识图谱构建方法 |
US20200192778A1 (en) * | 2018-12-12 | 2020-06-18 | International Business Machines Corporation | Real-time collaboration dynamic logging level control |
CN111611799A (zh) * | 2020-05-07 | 2020-09-01 | 北京智通云联科技有限公司 | 基于字典和序列标注模型实体属性抽取方法、系统及设备 |
CN112364660A (zh) * | 2020-10-27 | 2021-02-12 | 中国平安人寿保险股份有限公司 | 语料文本处理方法、装置、计算机设备及存储介质 |
CN112384907A (zh) * | 2018-07-18 | 2021-02-19 | 国际商业机器公司 | 与文本挖掘集成的规范编辑系统 |
-
2021
- 2021-04-02 CN CN202110363162.1A patent/CN113010593B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104572958A (zh) * | 2014-12-29 | 2015-04-29 | 中国科学院计算机网络信息中心 | 一种基于事件抽取的敏感信息监控方法 |
CN104598535A (zh) * | 2014-12-29 | 2015-05-06 | 中国科学院计算机网络信息中心 | 一种基于最大熵的事件抽取方法 |
CN105354183A (zh) * | 2015-10-19 | 2016-02-24 | Tcl集团股份有限公司 | 一种家电产品互联网评论的分析方法、装置及系统 |
CN108920447A (zh) * | 2018-05-07 | 2018-11-30 | 国家计算机网络与信息安全管理中心 | 一种面向特定领域的中文事件抽取方法 |
CN110633409A (zh) * | 2018-06-20 | 2019-12-31 | 上海财经大学 | 一种融合规则与深度学习的汽车新闻事件抽取方法 |
CN112384907A (zh) * | 2018-07-18 | 2021-02-19 | 国际商业机器公司 | 与文本挖掘集成的规范编辑系统 |
CN109408806A (zh) * | 2018-09-11 | 2019-03-01 | 中国电子科技集团公司第二十八研究所 | 一种基于英文语法规则的事件提取方法 |
US20200192778A1 (en) * | 2018-12-12 | 2020-06-18 | International Business Machines Corporation | Real-time collaboration dynamic logging level control |
CN111104803A (zh) * | 2019-12-31 | 2020-05-05 | 科大讯飞股份有限公司 | 语义理解处理方法、装置、设备及可读存储介质 |
CN111209412A (zh) * | 2020-02-10 | 2020-05-29 | 同方知网(北京)技术有限公司 | 一种循环更新迭代的期刊文献知识图谱构建方法 |
CN111611799A (zh) * | 2020-05-07 | 2020-09-01 | 北京智通云联科技有限公司 | 基于字典和序列标注模型实体属性抽取方法、系统及设备 |
CN112364660A (zh) * | 2020-10-27 | 2021-02-12 | 中国平安人寿保险股份有限公司 | 语料文本处理方法、装置、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
CE LI 等: "Cluster-based dictionary learning and locality-constrained sparse reconstruction for trajectory classification", 2016 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), pages 1248 - 1252 * |
邹馨仪: "基于深度学习的金融事件抽取技术研究", 中国优秀硕士学位论文全文数据库 (信息科技辑), pages 138 - 1456 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113641816A (zh) * | 2021-08-20 | 2021-11-12 | 安徽淘云科技股份有限公司 | 一种信息显示方法、装置、存储介质及设备 |
CN116596496A (zh) * | 2023-07-18 | 2023-08-15 | 金现代信息产业股份有限公司 | 一种基于标签化的人岗匹配方法、系统、介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113010593B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7469251B2 (en) | Extraction of information from documents | |
CN101079024B (zh) | 一种专业词表动态生成系统和方法 | |
CN113010593A (zh) | 非结构化文本的事件抽取方法、系统及装置 | |
CN111310470A (zh) | 一种融合字词特征的中文命名实体识别方法 | |
CN109933796A (zh) | 一种公告文本关键信息提取方法及设备 | |
CN112380864B (zh) | 一种基于回译的文本三元组标注样本增强方法 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN112287664B (zh) | 文本指标数据解析方法、系统及相应设备和存储介质 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
CN107577713B (zh) | 基于电力词典的文本处理方法 | |
CN110795932B (zh) | 基于地质本体的地质报告文本信息提取方法 | |
Yan et al. | Chemical name extraction based on automatic training data generation and rich feature set | |
CN111597302B (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
CN109902299B (zh) | 一种文本处理方法及装置 | |
CN102184170A (zh) | 一种语素级临床汉语言解析的方法 | |
CN115618883A (zh) | 一种业务语义识别方法及装置 | |
CN109657207B (zh) | 条款的格式化处理方法和处理装置 | |
CN115357697A (zh) | 数据处理方法、装置、终端设备以及存储介质 | |
CN109325225B (zh) | 一种通用的基于关联的词性标注方法 | |
CN113868389A (zh) | 基于自然语言文本的数据查询方法、装置及计算机设备 | |
CN109960720B (zh) | 针对半结构化文本的信息抽取方法 | |
CN110069780B (zh) | 一种基于特定领域文本的情感词识别方法 | |
Cui | Converting taxonomic descriptions to new digital formats | |
CN114169317B (zh) | 一种基于规则的人物属性提取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |