CN110597976A - 一种关键句提取方法及装置 - Google Patents
一种关键句提取方法及装置 Download PDFInfo
- Publication number
- CN110597976A CN110597976A CN201910870111.0A CN201910870111A CN110597976A CN 110597976 A CN110597976 A CN 110597976A CN 201910870111 A CN201910870111 A CN 201910870111A CN 110597976 A CN110597976 A CN 110597976A
- Authority
- CN
- China
- Prior art keywords
- element information
- information set
- event element
- event
- target sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种关键句提取方法及装置。其中,所述方法包括:获取至少一个目标句单元;将每一个目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集;将匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集;将目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句。本申请提供的方法及装置可以提高事件要素信息提取的准确性及完整性,进而提高关键句提取的准确性和完整性,避免提取过程中事件要素信息及关键句的遗漏。
Description
技术领域
本申请涉及互联网技术领域,特别涉及一种关键句提取方法及装置、计算设备及计算机可读存储介质。
背景技术
随着互联网的高速发展,越来越多的信息以电子文本的形式呈现给用户。为了帮助用户在海量信息中快速找到所需要的信息,提出了信息抽取的概念。信息抽取是指从自然语言文本中抽取事实信息,并且以结构化的形式描述信息。事件抽取是信息抽取中的一个重要研究方向,主要是指从含有事件信息的文本数据中抽取出感兴趣的事件信息,并且将用自然语言表达事件以结构化的形式呈现,比如,什么人、什么地方、什么时间、做了什么事。
目前,事件抽取中的关键句提取主要采用人工提取法、关键词筛选法或深度学习法。但是人工抽取法需耗费大量人工,且信息实时性差,效果不稳定,关键词筛选法准确度较低,且关键词也无法实时更新,深度学习法需要生成大量标注数据,成本大,且无法保证抽取的完整性。
发明内容
有鉴于此,本申请实施例提供了一种关键句提取方法及装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种关键句提取方法,包括:
获取至少一个目标句单元;
将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集;
将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集;
将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句。
进一步地,所述获取至少一个目标句单元,包括:
获取目标文本;
对所述目标文本进行分句处理,得到至少一个句单元;
通过滑动窗口沿预设的滑动路径,以预设的滑动步长滑动,并提取滑动过程中所述滑动窗口内的句单元,得到目标句单元。
进一步地,所述将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集,包括:
在预设数据库中匹配与所述目标句单元相对应的已存储事件要素信息集,在匹配到与所述目标句单元相对应的已存储事件要素信息集的情况下,将所述已存储事件要素信息集作为匹配事件要素信息集,在未匹配到与所述目标句单元相对应的已存储事件要素信息集的情况下,匹配事件要素信息集为空集;
基于预设的规则模板在所述目标句单元中提取事件要素信息,生成模板事件要素信息集;
将所述目标句单元输入至识别模型中提取事件要素信息,生成模型事件要素信息集。
进一步地,所述将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集,包括:
将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行合并,生成所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集的并集,并将所述并集作为融合事件要素信息集。
进一步地,所述将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集,包括:
分别为所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集配置权重值;
基于所述匹配事件要素信息集的权重值、所述模板事件要素信息集的权重值和所述模型事件要素信息集的权重值将所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集进行合并,生成融合事件要素信息集。
进一步地,所述将所述目标句单元的融合事件要素信息集分别与预设数据库及预设事件要素进行对比,基于对比结果确定并提取关键句,包括:
将所述目标句单元的融合事件要素信息集与预设数据库中的已存储事件要素信息集进行对比,确定所述目标句单元的准确度;
将所述目标句单元的融合事件要素信息集与预设事件要素进行对比,确定所述目标句单元的完整度;
确定完整度大于预设完整度阈值且准确度大于预设准确度阈值的目标句单元为关键句,并提取所述关键句。
进一步地,所述关键句提取方法,还包括:
将作为关键句的所述目标句单元的融合事件要素信息集存储至所述预设数据库中,并对所述预设数据库进行更新。
本申请实施例还公开了一种关键句提取装置,包括:
获取模块,被配置为获取至少一个目标句单元;
处理模块,被配置为将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集;
融合模块,被配置为将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集;
提取模块,被配置为将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句。
本申请实施例还公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述关键句提取方法的步骤。
本申请实施例还公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述关键句提取方法的步骤。
本申请提供的关键句提取方法及装置,通过将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集,再将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集,并将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句,可以提高事件要素信息提取的准确性及完整性,进而提高关键句提取的准确性和完整性,避免提取过程中事件要素信息及关键句的遗漏。
附图说明
图1是本申请实施例的计算设备的结构示意图;
图2是本申请实施例的关键句提取方法的步骤流程示意图;
图3是本申请实施例的关键句提取方法的步骤流程示意图;
图4是本申请实施例的关键句提取方法的步骤流程示意图;
图5是本申请实施例的关键句提取方法的步骤流程示意图;
图6是本申请实施例的关键句提取方法的步骤流程示意图;
图7是本申请实施例的关键句提取装置的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
正则表达式:是对一类字符串共性描述的规则,提供了一种从字符集合中搜寻特定字行串的机制。
马尔可夫模型(Markov Model,HMM):是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。
条件随机场(CRF):由Lafferty等人于2001年提出,结合了最大熵模型和隐马尔可夫模型的特点,是一种无向图模型,近年来在分词、词性标注和命名实体识别等序列标注任务中取得了很好的效果。条件随机场是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。
专名识别(NER):是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。
在本申请中,提供了一种关键句提取方法及装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本申请一实施例的关键句提取方法的示意性流程图,包括步骤S210至步骤S240。
S210、获取至少一个目标句单元。
具体地,如图3所示,所述步骤S210包括步骤S211至步骤S213。
S211、获取目标文本。
其中,目标文本是需要进行关键句提取的原始文本,可以是一句话、一段文字、多段文字、一篇文章等各种篇幅长度的文本,也可以是中文文本、英文文本等各种语言的文本,本申请对此不做限制。
S212、对所述目标文本进行分句处理,得到至少一个句单元。
具体地,以句号、问号、叹号等可以表示句子终结的标点符号作为分句标志,将目标文本进行分句处理,得到至少一个句单元。
例如,假设目标文本包括“一闪一闪亮晶晶,满天都是小星星。”对上述目标文本进行分句处理,该句中仅存在一个代表句子终结的标点符号即句号,则该目标文本整体即作为一个句单元。
假设目标文本包括“圣诞老人为小朋友们准备了糖果、巧克力和薯片。小朋友们会不会喜欢呢?我想一定会的。”对上述目标文本进行分句处理,该句中存在两个句号、一个问号,共三个代表句子终结的标点符号,即得到三个句单元,分别为“圣诞老人为小朋友们准备了糖果、巧克力和薯片”、“小朋友们会不会喜欢呢”和“我想一定会的”。
S213、通过滑动窗口沿预设的滑动路径,以预设的滑动步长滑动,并提取滑动过程中所述滑动窗口内的句单元,得到目标句单元。
其中,滑动窗口是一种用于提取句单元的范围选择工具,滑动窗口的大小决定了一次性提取目标句单元数量的多少,一次提取的目标句单元的数量可以为一个也可以为多个。例如,假设滑动窗口的大小为3,则表示该滑动窗口可以一次性提取目标文本中连续的三句话即连续的三个句单元作为目标句单元,假设滑动窗口的大小为1,则表示该滑动窗口一次性仅可以提取目标文本中的一句话即一个句单元作为目标句单元,其他情况可依次类推,对于滑动窗口的大小可视具体情况而定,本申请对此不做限制。
滑动路径是指滑动窗口自目标文本中的起始提取位置开始、终止提取位置为止进行句单元提取的路径。目标文本中的起始提取位置和终止提取位置既可以是整个目标文本的首尾句、也可以位于整个目标文本的中间部分,本申请对此不做限制。预设的滑动路径决定了目标文本中句单元提取的范围。例如,在起始提取位置为整个目标文本的首句、终止提取位置为整个目标文本的尾句的情况下,句单元提取的范围即为整个目标文本,在起始提取位置为目标文本中第a句、终止提取位置为目标文本中第b句的情况下(b≥a≥1,且a、b为整数),句单元提取的范围即为目标文本中第a句至第b句,其他情况可依次类推,不再赘述。
滑动步长是指滑动窗口一次性滑动的距离,此处的距离以滑动窗口相邻两次提取位置之间相隔句单元的数量为单位。例如,假设滑动步长为1,则滑动窗口每次提取完毕,向后滑动一个句单元,并继续开始下一次提取。
需要说明的是,滑动步长与滑动窗口的大小无关,滑动步长既可以与滑动窗口的大小相等,也可以大于或小于滑动窗口的大小,可视具体情况而定,本申请对此不做限制。
下面结合具体例子对利用滑动窗口提取句单元做进一步说明。
例如,假设目标文本包括“圣诞老人为小朋友们准备了糖果、巧克力和薯片。小朋友们会不会喜欢呢?我想一定会的”共三句内容,其中,滑动窗口的大小为1,预设滑动步长为1,该目标文本的起始提取位置为第2句,终止提取位置为第3句,则滑动窗口沿预设的滑动路径“第2句-第3句”进行滑动并提取句单元。
滑动窗口以起始提取位置为起点,提取得到目标句单元“小朋友们会不会喜欢呢”,提取完毕,滑动窗口向后滑动一个句单元的距离,再次进行提取,得到目标句单元“我想一定会的”。滑动窗口到达终止提取位置,完成整个滑动提取过程。
采用滑动窗口提取目标文本中的目标句单元,操作简单方便,且可以大大提高句单元提取的效率、灵活性以及丰富度。
S220、将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集。
具体地,所述步骤S220包括下述步骤S221至步骤S223,且步骤S221至步骤S223为并列步骤,无先后执行关系。
S221、在预设数据库中匹配与所述目标句单元相对应的已存储事件要素信息集。
在匹配到与所述目标句单元相对应的已存储事件要素信息集的情况下,将所述已存储事件要素信息集作为匹配事件要素信息集,在未匹配到与所述目标句单元相对应的已存储事件要素信息集的情况下,匹配事件要素信息集为空集。
其中,预设数据库是一种存储有大量事件要素信息集数据且其中数据不断进行更新的动态数据集合。已存储事件要素信息集是时间信息、触发词信息、人物信息、地点信息、事件信息以及其他诸如此类的各种事件要素信息的任意组合。
时间信息既可以精确到年、月、日,也可以精确到时、分、秒,如时间信息可以是2019年、2019年1月、2019年1月1日、1月1日、1月1日10时、1月1日10时22分、1月1日10时22份15秒等,本申请对此不做限制。
触发词又称事件关键词,一般为句子中的核心动词,比如“发生”、“举办”、“参加”等。以“圣诞老人为小朋友们准备了糖果、巧克力和薯片”为例,该句中的触发词即为“准备”。
人物信息是事件所涉及的全部人物信息,可以是一个,也可以是多个,可以是如“张三”、“李四”等的具体人名,也可以包括“张三的妈妈”、“李四的爸爸”等代称,本申请对此不做限制。
地点信息是事件所涉及的全部地点信息,可以是一个,也可以是多个,可以是国家、省、市、区等,也可以是具体地点如某公司、某社区、某名胜古迹、某地铁站等,也可以是上述的任意组合,如可以是中国、北京市、北京市东城区,还可以是第一小学、历史博物馆、前门地铁站等等,本申请对此不做限制。
事件信息是对事件具体内容的叙述,以“圣诞老人为小朋友们准备了糖果、巧克力和薯片”为例,事件信息即为“准备糖果、巧克力和薯片”。
在预设数据库中匹配与所述目标句单元相对应的已存储事件要素信息集,即在预设数据库中查找是否存在一个已存储事件要素信息集,该已存储事件要素信息集中的全部信息均出现在目标句单元中,若存在,那么该事件已存储事件要素信息集即为目标句单元的匹配信息集,若不存在,则目标句单元的匹配信息集为空集。
例如,假设预设数据库中包括两条已存储事件要素信息集,分别为已存储事件要素信息集A“时间:圣诞节,触发词:举办,人物:圣诞老人,地点:游乐园,事件:举办圣诞音乐会”和已存储事件要素信息集B“时间:2019年12月,触发词:准备,人物:圣诞老人、小朋友们,事件:准备糖果、巧克力和薯片”,目标句单元包括“圣诞老人为小朋友们准备了糖果、巧克力和薯片”,在预设数据库中进行匹配,其中,已存储事件要素信息集A仅有人物信息出现在目标句单元中,则已存储事件要素信息集A与目标句单元不匹配,已存储事件要素信息集B中的触发词信息、人物信息和事件信息均出现在目标句单元中,但目标句单元中并未提及时间信息,则存储事件要素信息集B与目标句单元不匹配,目标句单元的匹配信息集为空集。
S222、基于预设的规则模板在所述目标句单元中提取事件要素信息,生成模板事件要素信息集。
规则模板是用于提取事件信息的工具模板,可以根据所需信息类型的不同进行调整,比如若提取时间信息,可以使用正则表达式的方法从目标句单元中获取,并规划为统一格式,其他内容也可以视表述形式编辑正则规则进行提取。或使用其他规则模板进行提取均可,本申请对此不做限制。
其中,模板事件要素信息集中可以包括时间信息、触发词信息、人物信息、地点信息、事件信息以及其他诸如此类的各种信息的任意组合,可视具体情况而定,本申请对此不做限制。
基于预设的规则模板对事件信息进行提取,是一种有明确域的信息抽取方式,通过人工建立模板从非结构化的文本中抽取信息,不受文本语言的限制,即使文本中存在语法错误,依然不会影响信息的抽取,且可以提高信息抽取的效率。
S223、将所述目标句单元输入至识别模型中提取事件要素信息,生成模型事件要素信息集。
具体地,识别模型可以是HMM、CRF或NER等实体标注模型。可以将目标句单元输入至HMM、CRF或NER等实体标注模型中进行识别提取,生成模型事件要素信息集。
其中,模型事件要素信息集中可以包括时间信息、触发词信息、人物信息、地点信息、事件信息以及其他诸如此类的各种信息的任意组合,可视具体情况而定,本申请对此不做限制。
利用识别模型进行事件信息的提取,可以提高事件信息提取的效率和准确性,还可以提高信息提取的全面性,避免提取过程中部分信息的遗漏。
S230、将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集。
具体地,可以将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行合并,生成所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集的并集,并将所述并集作为融合事件要素信息集。
例如,假设目标句单元的匹配事件要素信息集包括:“触发词:准备,人物:圣诞老人、小朋友们,事件:准备糖果、巧克力和薯片”,模板事件要素信息集包括:“触发词:准备,人物:圣诞老人,事件:准备糖果、巧克力和薯片”,模型事件要素信息集包括:“时间:圣诞节,触发词:准备,人物:圣诞老人、小朋友们,事件:准备糖果、巧克力和薯片”,取上述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集的并集,得到该目标句单元的融合事件要素信息集“时间:圣诞节,触发词:准备,人物:圣诞老人、小朋友们,事件:准备糖果、巧克力和薯片”。
具体地,如图4所示,所述步骤S230包括步骤S231至步骤S232。
S231、分别为所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集配置权重值。
S232、基于所述匹配事件要素信息集的权重值、所述模板事件要素信息集的权重值和所述模型事件要素信息集的权重值将所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集进行合并,生成融合事件要素信息集。
其中,匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集的权重值可以基于具体情况确定,本申请对此不做限制。在上述三种事件要素信息集抽取到的事件信息不一致的情况下,可以基于每一个事件要素信息集的权重值,确定融合事件要素信息集中的事件信息。若其中任意一个事件要素信息集中包含另外两个事件要素信息集中均不存在的事件要素信息,则不需要确定权重值,直接将该事件要素信息添加至融合事件要素信息集中。
例如,假设目标句单元的匹配事件要素信息集包括:“触发词:准备,人物:圣诞老人、小朋友们,事件:准备糖果、巧克力和薯片”且权重值为0.5,模板事件要素信息集包括:“触发词:准备,人物:圣诞老人,事件:准备糖果、巧克力和薯片”且权重值为0.3,模型事件要素信息集包括:“时间:圣诞节,触发词:准备,人物:圣诞老人、小朋友们,事件:准备糖果、巧克力和薯片”且权重值为0.2。其中,匹配事件要素信息集与模板事件要素信息集之间的人物信息不同,且匹配事件要素信息集的权重值大于模板事件要素信息集的权重值,则以匹配事件要素信息集中的人物信息为准,经过融合处理后,得到该目标句单元的融合事件要素信息集“时间:圣诞节,触发词:准备,人物:圣诞老人、小朋友们,事件:准备糖果、巧克力和薯片”。
或是以其他方式生成融合事件要素信息集均可,本申请对此不做限制。
将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集,可以有效提高融合事件要素信息集的完整度和精准度,避免事件信息的遗漏和错误提取。
S240、将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句。
具体地,如图5所示,所述步骤S240包括步骤S241至步骤S243。
S241、将所述目标句单元的融合事件要素信息集与预设数据库中的已存储事件要素信息集进行对比,确定所述目标句单元的准确度。
具体地,可以将融合事件要素信息集与预设数据库中的事件要素信息进行对比,检查融合事件要素信息集中的事件信息与预设数据库中已存储事件要素信息集中的事件信息是否存在矛盾,若存在矛盾,则确定该融合事件要素信息集即该目标句单元是不准确的,并可以基于矛盾程度赋予该融合事件要素信息集即目标句单元相应的准确度数值,若不矛盾,则确定该融合事件要素信息集即该目标句单元是准确的。
例如,假设融合事件要素信息集包括:“时间:2019年1月1日,触发词:举办,地点:鸟巢,事件:举办长跑比赛”,预设数据库中包括已存储事件要素信息集“时间:2019年1月1日,触发词:举办,地点:鸟巢,事件:举办演唱会”与融合事件要素信息集之间存在矛盾,则该融合事件要素信息集不准确,即该目标句单元不准确。
S242、将所述目标句单元的融合事件要素信息集与预设事件要素进行对比,确定所述目标句单元的完整度。
具体地,预设事件要素可以包括一个或多个,可以是时间、人物、地点、触发词、事件以及其他诸如此类的其他要素的任意组合,本申请对此不做限制。可以将融合事件要素信息集中的事件信息与预设事件要素进行一一对比,在融合事件要素信息集中包括所有预设事件要素的情况下,确定该融合事件要素信息集即该目标句单元是完整的,在融合事件要素信息集中并未包括所有预设事件要素的情况下,确定该融合事件要素信息集即该目标句单元是不完整的,并可以基于其完整程度为其赋予完整度数值。
例如,假设融合事件要素信息集包括:“时间:2019年1月1日,触发词:举办,地点:鸟巢,事件:举办长跑比赛”,预设事件要素包括“时间、触发词、地点、事件、人物”,经过对比发现融合事件要素信息集中缺少人物信息,则该融合事件要素信息集是不完整的。
S243、确定完整度大于预设完整度阈值且准确度大于预设准确度阈值的目标句单元为关键句,并提取所述关键句。
其中,预设完整度阈值和预设准确度阈值是判断目标句单元是否完整和准确的标准,其具体数值可视情况而定,本申请对此不做限制。
具体地,目标句单元的完整度和准确度均可以只有两个数值,如在目标句单元完整的情况下,其完整度为1,在目标句单元不完整的情况下,其完整度为0,在目标句单元准确的情况下,其准确度为1,在目标句单元不准确的情况下,其准确度为0。预设完整度阈值和预设准确度阈值可以是0至1之间的任意值,如0.5,此时,在目标句单元的完整度和准确度均等于1的情况下,判断该目标句单元为关键句,并提取该目标句单元。
对于目标句单元融合事件要素信息及完整度及准确度的检测审核,既可以基于上述规则采用机器自动审核,也可以采用人工审核的方式,或机器自动审核与人工审核相结合进行检测均可,本申请对此不做限制。
在采用机器自动审核和人工审核中的任意一种方式进行完整度及准确度的审核判断的情况下,若判断目标句单元不完整或存在矛盾,则确定该目标句单元不是关键句,若判断目标句单元完整且不存在矛盾,则确定该目标句单元是关键句,并继续后续步骤的处理。
在采用机器自动审核和人工审核相结合的方法进行完整度及准确度的审核判断的情况下,若机器自动审核与人工审核结果不一致,则以人工审核的结果作为最终结果,经过人工审核判断该目标句单元完整,则该目标句单元完整,经过人工审核判断该目标句单元准确,则该目标句单元准确,其他情况可以此类推。
例如,假设目标句单元的融合事件要素信息集包括:“人物:陈某某,时间:2019年2月1日,触发词:参观,地点:成都,事件:参观艺术展览”,预设数据库中包括已存储事件要素信息集M“人物:陈某某,时间:2019年2月1日,触发词:参观,地点:四川,事件:参观画展”在内的万余个已存储事件要素信息集,预设事件要素包括“人物、时间、地点、触发词和事件”。
通过机器自动审核的方式对目标句单元的融合事件要素信息集进行完整度及准确度的审核判断。完整度方面,机器判断预设事件要素已全部包括在目标句单元的融合事件要素信息集中,故该目标句单元完整。准确度方面,机器判断同一个人物在同一个时间不同地点做了不同事件,故目标句单元的融合事件要素信息集与预设数据库中的已存储事件要素信息集M相矛盾,该目标句单元不准确。
通过人工审核的方式对目标句单元的融合事件要素信息集进行完整度及准确度的审核判断。完整度方面,相关技术人员判断预设事件要素已全部包括在目标句单元的融合事件要素信息集中,故该目标句单元完整。准确度方面,虽然融合事件信息集M与预设数据库中的已存储事件信息集M之间,在人物信息触发词信息和时间信息相同的情况下,地点信息及事件信息不同,但经过相关技术人员的判断,成都市属于四川省,故地点信息“成都”与“四川”并不矛盾,且于2019年2月1日在成都举办的艺术展览即为画展,故事件信息“参观艺术展览”与“参观画展”并不矛盾,故目标句单元的融合事件要素信息集与预设数据库中的已存储事件要素信息集并不矛盾,该目标句单元准确。
由于上述机器审核结果与人工审核结果不一致,故采用人工审核结果作为目标句单元准确度和完整度判断的最终结果,即目标句单元准确且完整,该目标句单元为关键句。
将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,可以实现对目标句单元融合事件要素信息集的检查,避免提取的事件信息的不完整或矛盾,提高事件信息提取及关键句提取的准确率。
下面结合具体的例子对本实施例所述的关键句提取方法进行进一步说明。
例如,获取目标文本“2018年10月18日,张三来到北京,参加某公司培训。在培训过程中,张三展示了自己部门的工作业绩。大家从中学习到了很多知识。之后,……”
对上述目标文本进行分句处理,得到n个句单元,如“2018年10月18日,张三来到北京,参加某公司培训”、“在培训过程中,张三展示了自己部门的工作业绩”、“大家从中学习到了很多知识”等等。
预先设置滑动窗口大小为3,滑动路径为目标文本的第一句至最后一句,滑动步长为3。通过滑动窗口按照预设的滑动路径和滑动步长进行提取,得到目标句单元“2018年10月18日,张三来到北京,参加某公司培训。在培训过程中,张三展示了自己部门的工作业绩。大家从中学习到了很多知识”、“之后……”等等。
后续步骤以提取到的目标句单元“2018年10月18日,张三来到北京,参加某公司培训。在培训过程中,张三展示了自己部门的工作业绩。大家从中学习到了很多知识”为例进行说明。
将上述目标句单元进行匹配提取处理,在预设数据库中未匹配到相对应的已存储事件要素信息集,故该目标句单元的匹配事件要素信息集为空集。
将上述目标句单元进行模板提取处理,生成模板事件要素信息集“时间:2018年10月18日,地点:北京,人物:张三,触发词:展示,事件:展示自己部门的工作业绩”。
将上述目标句单元输入至识别模型中进行提取处理,生成模型事件要素信息集“时间:2018年10月18日,地点:北京某公司,人物:张三,触发词:展示,事件:展示自己部门的工作业绩”。
取上述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集的并集,生成融合事件要素信息集“时间:2018年10月18日,地点:北京某公司,人物:张三,触发词:展示,事件:展示自己部门的工作业绩”。
利用人工审核辅助机器自动检测的方法将上述融合事件要素信息集分别与预设数据库、预设事件要素进行对比,检测融合事件要素信息集的完整度和准确度。其中,在预设数据库中未查找到与融合事件要素信息集存在矛盾的事件信息,该融合事件要素信息集是完整的,假设预设事件要素包括“时间、地点、人物和事件”,融合事件要素信息集中全部包括,该融合事件要素信息集是准确的。
目标句单元的三个句子中,最后一句“大家从中学习到了很多知识”不包含任何一个上述的事件信息,所以目标句单元“大家从中学习到了很多知识”不是关键句,目标句单元“2018年10月18日,张三来到北京,参加某公司培训”和“在培训过程中,张三展示了自己部门的工作业绩”为关键句,提取上述关键句并将融合事件要素信息集添加至预设数据库中,完成一次关键句的提取。滑动窗口向后滑动,继续重复上述过程,可以此类推,在此不再赘述。
本申请提供的关键句提取方法,通过将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集,再将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集,并将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句,可以提高事件要素信息提取的准确性及完整性,进而提高关键句提取的准确性和完整性,避免提取过程中事件要素信息及关键句的遗漏。
如图6所示,本申请还公开了一种关键句提取方法,包括步骤S610至S650。
S610、获取至少一个目标句单元。
S620、将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集。
S630、将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集。
S640、将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句。
具体地,上述步骤S610至步骤S640的详细内容可参见上述实施例,在此不再赘述。
S650、将作为关键句的所述目标句单元的融合事件要素信息集存储至所述预设数据库中,并对所述预设数据库进行更新。
例如,假设目标句单元“2019年2月1日,陈某某去成都参观了艺术展览”被判断为关键句,则将该目标句单元的融合事件要素信息集“人物:陈某某,时间:2019年2月1日,触发词:参观,地点:成都,事件:参观艺术展览”加入至预设数据库中,对预设数据库进行更新并将其作为新的已存储事件要素信息集。
本实施例所述的关键句提取方法,将关键句的融合事件要素信息集存储至预设数据库中,生成新的已存储事件要素信息集。融合事件要素信息集的存储可以实现预设数据库的实时更新,以提高预设数据库中的信息丰富度、保证预设数据库中的信息时效性。
如图7所示,本申请一实施例公开了一种关键句提取装置,包括:
获取模块710,被配置为获取至少一个目标句单元。
处理模块720,被配置为将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集。
融合模块730,被配置为将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集。
提取模块740,被配置为将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句。
可选地,所述获取模块710,进一步地配置为:
获取目标文本。
对所述目标文本进行分句处理,得到至少一个句单元。
通过滑动窗口沿预设的滑动路径,以预设的滑动步长滑动,并提取滑动过程中所述滑动窗口内的句单元,得到目标句单元。
可选地,所述处理模块720,进一步地被配置为:
在预设数据库中匹配与所述目标句单元相对应的已存储事件要素信息集,在匹配到与所述目标句单元相对应的已存储事件要素信息集的情况下,将所述已存储事件要素信息集作为匹配事件要素信息集,在未匹配到与所述目标句单元相对应的已存储事件要素信息集的情况下,匹配事件要素信息集为空集。
基于预设的规则模板在所述目标句单元中提取事件信息,生成模板事件要素信息集。
将所述目标句单元输入至识别模型中提取事件信息,生成模型事件要素信息集。
可选地,所述融合模块730,进一步地被配置为:
将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行合并,生成所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集的并集,并将所述并集作为融合事件要素信息集。
可选地,所述融合模块730,进一步地被配置为:
分别为所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集配置权重值。
基于所述匹配事件要素信息集的权重值、所述模板事件要素信息集的权重值和所述模型事件要素信息集的权重值将所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集进行合并,生成融合事件要素信息集。
可选地,所述提取模块740,进一步地被配置为:
将所述目标句单元的融合事件要素信息集与预设数据库中的事件信息进行对比,确定所述目标句单元的准确度。
将所述目标句单元的融合事件要素信息集与预设时间要素进行对比,确定所述目标句单元的完整度。
确定完整度大于预设完整度阈值且准确度大于预设准确度阈值的目标句单元为关键句,并提取所述关键句。
可选地,所述关键句提取装置,还包括:
更新模块,被配置为将作为关键句的所述目标句单元的融合事件要素信息集存储至所述预设数据库中,并对所述预设数据库进行更新。
本申请提供的关键句提取装置,通过将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集,再将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集,并将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句,可以提高事件要素信息提取的准确性及完整性,进而提高关键句提取的准确性和完整性,避免提取过程中事件要素信息及关键句的遗漏。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
获取至少一个目标句单元。
将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集。
将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集。
将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述关键句提取方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的关键句提取方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述关键句提取方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。
Claims (10)
1.一种关键句提取方法,其特征在于,包括:
获取至少一个目标句单元;
将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集;
将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集;
将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句。
2.根据权利要求1所述的关键句提取方法,其特征在于,所述获取至少一个目标句单元,包括:
获取目标文本;
对所述目标文本进行分句处理,得到至少一个句单元;
通过滑动窗口沿预设的滑动路径,以预设的滑动步长滑动,并提取滑动过程中所述滑动窗口内的句单元,得到目标句单元。
3.根据权利要求1所述的关键句提取方法,其特征在于,所述将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集,包括:
在预设数据库中匹配与所述目标句单元相对应的已存储事件要素信息集,在匹配到与所述目标句单元相对应的已存储事件要素信息集的情况下,将所述已存储事件要素信息集作为匹配事件要素信息集,在未匹配到与所述目标句单元相对应的已存储事件要素信息集的情况下,匹配事件要素信息集为空集;
基于预设的规则模板在所述目标句单元中提取事件信息,生成模板事件要素信息集;
将所述目标句单元输入至识别模型中提取事件信息,生成模型事件要素信息集。
4.根据权利要求1所述的关键句提取方法,其特征在于,所述将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集,包括:
将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行合并,生成所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集的并集,并将所述并集作为融合事件要素信息集。
5.根据权利要求1所述的关键句提取方法,其特征在于,所述将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集,包括:
分别为所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集配置权重值;
基于所述匹配事件要素信息集的权重值、所述模板事件要素信息集的权重值和所述模型事件要素信息集的权重值将所述匹配事件要素信息集、所述模板事件要素信息集和所述模型事件要素信息集进行合并,生成融合事件要素信息集。
6.根据权利要求1所述的关键句提取方法,其特征在于,所述将所述目标句单元的融合事件要素信息集分别与预设数据库及预设事件要素进行对比,基于对比结果确定并提取关键句,包括:
将所述目标句单元的融合事件要素信息集与预设数据库中的已存储事件要素信息集进行对比,确定所述目标句单元的准确度;
将所述目标句单元的融合事件要素信息集与预设事件要素进行对比,确定所述目标句单元的完整度;
确定完整度大于预设完整度阈值且准确度大于预设准确度阈值的目标句单元为关键句,并提取所述关键句。
7.根据权利要求1所述的关键句提取方法,其特征在于,还包括:
将作为关键句的所述目标句单元的融合事件要素信息集存储至所述预设数据库中,并对所述预设数据库进行更新。
8.一种关键句提取装置,其特征在于,包括:
获取模块,被配置为获取至少一个目标句单元;
处理模块,被配置为将每一个所述目标句单元分别进行匹配提取处理、模板提取处理和模型提取处理,生成匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集;
融合模块,被配置为将所述匹配事件要素信息集、模板事件要素信息集和模型事件要素信息集进行融合处理,生成融合事件要素信息集;
提取模块,被配置为将所述目标句单元的融合事件要素信息集分别与预设数据库以及预设事件要素进行对比,基于对比结果确定并提取关键句。
9.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-7任意一项所述方法的步骤。
10.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910870111.0A CN110597976B (zh) | 2019-09-16 | 2019-09-16 | 一种关键句提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910870111.0A CN110597976B (zh) | 2019-09-16 | 2019-09-16 | 一种关键句提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110597976A true CN110597976A (zh) | 2019-12-20 |
CN110597976B CN110597976B (zh) | 2022-11-15 |
Family
ID=68859740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910870111.0A Active CN110597976B (zh) | 2019-09-16 | 2019-09-16 | 一种关键句提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110597976B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414482A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111581975A (zh) * | 2020-05-09 | 2020-08-25 | 北京明朝万达科技股份有限公司 | 案件的笔录文本的处理方法、装置、存储介质和处理器 |
CN112464675A (zh) * | 2020-12-02 | 2021-03-09 | 科大讯飞股份有限公司 | 一种言辞矛盾检测方法、装置、设备及存储介质 |
CN113779961A (zh) * | 2020-06-09 | 2021-12-10 | 国家计算机网络与信息安全管理中心 | 一种自然语言文本的惯用句式提取方法及电子装置 |
CN114330354A (zh) * | 2022-03-02 | 2022-04-12 | 杭州海康威视数字技术股份有限公司 | 一种基于词汇增强的事件抽取方法、装置及存储介质 |
CN117765170A (zh) * | 2023-12-13 | 2024-03-26 | 重庆中法供水有限公司 | 一种三维可视化的管理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243053A (zh) * | 2015-09-15 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 提取文档关键句的方法及装置 |
US20180081871A1 (en) * | 2016-09-16 | 2018-03-22 | Iqintell, Inc. | System and method of attribute, entity, and action organization of a data corpora |
CN108549636A (zh) * | 2018-04-09 | 2018-09-18 | 北京信息科技大学 | 一种赛事文字直播关键句抽取方法 |
CN109344393A (zh) * | 2018-08-29 | 2019-02-15 | 北京云知声信息技术有限公司 | 一种主干语句的提取方法及系统 |
-
2019
- 2019-09-16 CN CN201910870111.0A patent/CN110597976B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105243053A (zh) * | 2015-09-15 | 2016-01-13 | 百度在线网络技术(北京)有限公司 | 提取文档关键句的方法及装置 |
US20180081871A1 (en) * | 2016-09-16 | 2018-03-22 | Iqintell, Inc. | System and method of attribute, entity, and action organization of a data corpora |
CN108549636A (zh) * | 2018-04-09 | 2018-09-18 | 北京信息科技大学 | 一种赛事文字直播关键句抽取方法 |
CN109344393A (zh) * | 2018-08-29 | 2019-02-15 | 北京云知声信息技术有限公司 | 一种主干语句的提取方法及系统 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414482A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
US11880397B2 (en) | 2020-03-20 | 2024-01-23 | Beijing Baidu Netcom Science Technology Co., Ltd. | Event argument extraction method, event argument extraction apparatus and electronic device |
CN111414482B (zh) * | 2020-03-20 | 2024-02-20 | 北京百度网讯科技有限公司 | 一种事件论元抽取方法、装置以及电子设备 |
CN111581975A (zh) * | 2020-05-09 | 2020-08-25 | 北京明朝万达科技股份有限公司 | 案件的笔录文本的处理方法、装置、存储介质和处理器 |
CN113779961A (zh) * | 2020-06-09 | 2021-12-10 | 国家计算机网络与信息安全管理中心 | 一种自然语言文本的惯用句式提取方法及电子装置 |
CN112464675A (zh) * | 2020-12-02 | 2021-03-09 | 科大讯飞股份有限公司 | 一种言辞矛盾检测方法、装置、设备及存储介质 |
CN112464675B (zh) * | 2020-12-02 | 2024-04-16 | 科大讯飞股份有限公司 | 一种言辞矛盾检测方法、装置、设备及存储介质 |
CN114330354A (zh) * | 2022-03-02 | 2022-04-12 | 杭州海康威视数字技术股份有限公司 | 一种基于词汇增强的事件抽取方法、装置及存储介质 |
CN114330354B (zh) * | 2022-03-02 | 2022-12-23 | 杭州海康威视数字技术股份有限公司 | 一种基于词汇增强的事件抽取方法、装置及存储介质 |
CN117765170A (zh) * | 2023-12-13 | 2024-03-26 | 重庆中法供水有限公司 | 一种三维可视化的管理方法及系统 |
CN117765170B (zh) * | 2023-12-13 | 2024-06-18 | 重庆中法供水有限公司 | 一种三维可视化的管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110597976B (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597976B (zh) | 一种关键句提取方法及装置 | |
CN108287858B (zh) | 自然语言的语义提取方法及装置 | |
CN114020862B (zh) | 一种面向煤矿安全规程的检索式智能问答系统及方法 | |
CN109960728B (zh) | 一种开放域会议信息命名实体识别方法及系统 | |
CN110781663B (zh) | 文本分析模型的训练方法及装置、文本分析方法及装置 | |
CN110688857B (zh) | 一种文章生成的方法和装置 | |
CN111259631A (zh) | 一种裁判文书结构化方法及装置 | |
CN109949799B (zh) | 一种语义解析方法及系统 | |
CN107798123A (zh) | 知识库及其建立、修改、智能问答方法、装置及设备 | |
CN111738002A (zh) | 基于Lattice LSTM的古文领域命名实体识别方法和系统 | |
CN104778256A (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 | |
CN107590119B (zh) | 人物属性信息抽取方法及装置 | |
CN112447172B (zh) | 一种语音识别文本的质量提升方法和装置 | |
CN111160027A (zh) | 基于语义注意力的循环神经网络事件时序关系识别方法 | |
CN115392259A (zh) | 一种基于对抗训练融合bert的微博文本情感分析方法及系统 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN116821377A (zh) | 基于知识图谱和大模型的小学语文自动评测系统 | |
Kambarami et al. | Computational modeling of agglutinative languages: the challenge for southern bantu languages | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
CN112069818A (zh) | 三元组预测模型生成方法、关系三元组提取方法和装置 | |
CN114048335A (zh) | 一种基于知识库的用户交互方法及装置 | |
CN111966839B (zh) | 数据处理方法、装置、电子设备及计算机存储介质 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
JP6942759B2 (ja) | 情報処理装置、プログラム及び情報処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |