CN106959944A - 一种基于中文语法规则的事件提取方法和系统 - Google Patents

一种基于中文语法规则的事件提取方法和系统 Download PDF

Info

Publication number
CN106959944A
CN106959944A CN201710078221.4A CN201710078221A CN106959944A CN 106959944 A CN106959944 A CN 106959944A CN 201710078221 A CN201710078221 A CN 201710078221A CN 106959944 A CN106959944 A CN 106959944A
Authority
CN
China
Prior art keywords
event
chinese
module
text
web page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710078221.4A
Other languages
English (en)
Inventor
徐琳
王犇
贺成龙
葛唯益
宗士强
姜晓夏
王羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201710078221.4A priority Critical patent/CN106959944A/zh
Publication of CN106959944A publication Critical patent/CN106959944A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明公开了一种基于中文语法规则的事件提取方法和系统,包括存储模块、用于通过http请求获取网页内容,并将半结构化的网页文本数据存入存储模块的数据获取模块、用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型的文本预处理模块、用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库,提取事件五要素并存入存储模块的语法解析事件提取模块以及用于与其他模块交互数据的接口模块。本发明能将非结构化的文本事件转化成结构化的事件信息,能用于新闻网页事件提取分析,事件提取结果能直接应用于事件舆情分析、事件热度分析等。

Description

一种基于中文语法规则的事件提取方法和系统
技术领域
本发明涉及自然语言处理领域,尤其是一种基于中文语法规则的事件提取方法和系统。
背景技术
随着互联网的迅猛发展,大量的信息以电子文本的形式出现在人们面前。为了应对信息爆炸带来的挑战,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息。信息抽取(Information Extraction,IE)研究正是在这种背景下产生的。信息抽取的主要目的是将无结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查询以及进一步分析利用。比如,从新闻报道中抽取出恐怖事件的详细情况:时间、地点、作案者、受害者、袭击目标、使用的武器等;从军事新闻中抽取出军事活动的情况:军事活动的事件类型、军事活动的发生地、军事活动的时间、军事活动的事件发起者、承受者等。一般来说,信息抽取系统的处理对象是自然语言文本尤其是非结构化文本。但广义上讲,除了电子文本以外,信息抽取系统的处理对象还可以是语音、图像、视频等其他媒体类型的数据。本专利只讨论狭义上的信息抽取研究,即针对自然语言文本的信息抽取。自然语言文本的信息抽取是指从一个给定的文档集合中自动识别出预先设定的实体、关系和事件等类型信息,并将这些信息结构化存储的过程。比如:我们可以从文档中识别出人名、地名、机构名、数字、时间等类别的实体,这类工作称之为命名实体识别;从文档中识别出实体之间或实体及其属性之间的关系,称之为关系信息抽取;从文档中识别出某个事件发生的时间、地点、事件的参与者等信息,称之为事件信息抽取。其中,事件信息抽取是本专利的发明内容。
发明内容
发明目的:针对上述现有技术的不足,本发明旨在提供一种针对中文通过进行中文语法规则标注搜集,进行中文事件要素提取的方法,具有通用性,能够针对中文文本基于中文语法规则以及中文实体字典库进行事件抽取,能灵活的应用于各种类型的事件信息提取工具中。
技术方案:本发明提供的一种基于中文语法规则的事件提取方法,包括如下步骤:
(1)获取网页内容,得到半结构化的网页文本数据;
(2)对半结构化文本数据进行文本预处理,得到噪声相对较小的半结构化网页文本;
(3)对预处理之后的文本进行词法解析,对分词结果进行词性标注;
(4)进行中文语法分析,得到中文语法树;
(5)标注中文语法,输出中文语法正则表达式;
(6)对步骤(4)得到的中文语法树进行主从句解析,得到事件五要素;
(7)对照事件类型定义,对事件类型进行识别;
(8)输出事件五要素,将结构化信息存入数据库中。
进一步的,所述获取网页内容具体是基于用户干预的页面解析方法,即系统通过学习生成基于Xpath的抽取规则,利用生成的抽取规则实现对相似结构新闻页面的信息抽取。
进一步的,步骤(2)中所述预处理具体包括如下子步骤:
(2.1)对获取的半结构化的网页文本进行空白页面过滤、无效网页过滤;
(2.2)利用分词工具进行分词处理;
(2.3)对分词处理完的结果进行去停用词处理。
进一步的,步骤(3)中所述词法解析具体包括命名实体识别和关键词抽取。
进一步的,步骤(4)所述中文语法分析是利用斯坦福中文语法分析工具进行的中文语法分析。
进一步的,所述步骤(6)具体为:根据句子的短语句法分析树或依存关系树的结构,以及词或短语的词法、语法、语义特征,识别并标识出词的语法成分,结合中文语法规则库,生成中文事件链。
一种基于中文语法规则的事件提取系统,包括存储模块、用于通过http请求获取网页内容,并将半结构化的网页文本数据存入存储模块的数据获取模块、用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型的文本预处理模块、用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库,提取事件五要素并存入存储模块的语法解析事件提取模块以及用于与其他模块交互数据的接口模块。
进一步的,所述文本预处理模块包括用于文本降噪和实体识别的实体解析模块和用于分词、词性标注、去除停用词和句法解析的词性解析模块。
进一步的,所述存储模块采用轻量级的结构化数据库。
有益效果:与现有技术相比,本发明具有以下优点,
(1)针对文本预处理中的分词和词性标注进行了深入的对比研究,基于维基类别-链接的词语相似度计算为基础,构建新闻篇章词汇链的方法。
(2)通过研究语言学和事件语义学,定义了中文语法正则表达式的结构,并通过对汉语中多种不同句式的分析,探索出了与之相对应的主谓宾表达式的定义规则,并给出了构建方法。
(3)先对实体词典进行优化,在此基础上通过计算每个句子中与所选谓词有关联的强词汇链的个数多少,来确定其在表达主旨的贡献程度,取贡献最大者作为事件触发词,并以该谓词的谓词-论元表达式来表示事件,最后将主干事件串联,构成了篇章的主干事件链。
(4)结构数据源获取以及数据库存储技术,开发了一种基于中文语法规则的时间提取系统,该系统能直接应用于文本事件获取,以及能作为事件提取工具用于与大数据分析计算系统中,作为其他数据分析模块的数据输入工具。
附图说明
图1为本发明基于中文语法规则的事件提取的系统的总体框图。
图2为本发明模块数据流图。
图3为本发明系统流程图。
图4为本发明网络信息获取流程图。
具体实施方式:
下面结合附图和具体实施方式对本发明做更进一步的具体说明。
本发明基于自然语言处理开源工具,构建中文语法树,结合中文语法规则,构建基于中文语法规则的中文事件提取系统RBCEES(Rule-Based Chinese Event ExtractSystem),提取事件五要素,即:事件发生时间、事件发生地点、事件发起者、事件承受者、事件内容。信息抽取的主要目的是将无结构化的文本转化成机构化或者半结构化的信息,并以数据库的方式存储,便于用户查询和进一步事件分析和利用。事件抽取是信息抽取的一个重要分支,本发明能将非结构化的文本事件转化成结构化的事件信息,本发明能用于新闻网页事件提取分析,事件提取结果能直接应用于事件舆情分析、事件热度分析等。
一种基于中文语法规则的事件提取系统,包括存储模块、数据获取模块、文本预处理模块、语法解析事件提取模块以及接口模块。
数据获取模块用于通过http请求获取网页内容,并将半结构化的网页文本数据存入存储模块;数据获取模块将指定的网站的网页文本内容通过http请求的方式获取,获取的网页内容包括文本以及文本内包含的图片,内容获取之后,保存本地源文件并将半结构化的网页文本数据存入数据库中,数据库即存储模块中的数据库,其他模块可以通过通用的数据访问结构获取网页内容。
文本预处理模块用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型;文本预处理是自然语言处理的第一个阶段,是上层处理的基础。文本预处理模块包括用于文本降噪和实体识别的实体解析模块和用于分词、词性标注、去除停用词和句法解析的词性解析模块。文本预处理之后需要对预处理后的语料进行命名实体识别和关键词抽取。
语法解析事件提取模块用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库,提取事件五要素并存入存储模块;语法解析事件提取模块根据中文句法语法规则生成中文语法树,根据句子的短语句法分析树或依存关系树的结构,以及词或短语的词法、语法、语义特征,来识别并标识出词的语法成分,结合中文语法规则库,生成中文事件链。
接口模块用于与其他模块交互数据;存储模块以及其他数据分析模块可调用接口模块的接口,利用轻量级的结构化数据库,支持列的长度可扩展可缩减,支持字符串、整型、图片等多种存储格式。
图1中,本发明基于中文语法规则的事件提取系统的总体框图,数据获取模块(即图中的网络模块)提供新闻文本获取工具,通过自动获取的方式实现文本数据的下载。新闻网页是半结构化的页面中不但包含了主要的新闻信息,比如标题、关键词、新闻正文、正文包含的图片、新闻发表的时间、新闻的作者。除了上述有价值的信息之外,新闻网页还包含了许多噪音信息,比如页面框架、格式、广告等。因此,需要对获取的页面进行解析,以便过滤掉噪音信息,同时将抽取得到的新闻信息进行半结构化处理以便得到进一步处理。由于新闻源的页面格式大不相同,需要设计相应有效的页面解析方法。本发明设计了一种基于用户干预的页面解析方案,系统通过学习生成基于Xpath的抽取规则,利用生成的抽取规则实现对相似结构新闻页面的信息抽取。抽取过程如图4所示。
图2展示了系统数据流图。获取网页原始文本之后,经过文本预处理工具得到半结构化的网页文本。半结构化文本经过词法分析工具得到带词性标注的分词结果,通过命名实体识别工具,识别出国家、组织、地点、关键人物等实体,命名实体识别之后,对输入的句子进行句法分析,遵从主从句、主谓句等中文句法结构,输出句法解析结果。对得到的实体、带词性标注的分词、分析完结构的句子,进行中文语法分析,输出中文语法树。输入中文语法正则表达式,分析事件类型,得到事件五元组结构化信息。本系统人工标注中文语法规则约300条,命名实体3万个。
图3详细地图示了事件信息抽取的详细系统流程图,包括如下步骤:
(1)通过用户参与的主动学习的爬虫工具,获取网页内容,得到半结构化的网页文本数据;获取网页内容具体是基于用户干预的页面解析方法,即系统通过学习生成基于Xpath的抽取规则,利用生成的抽取规则实现对相似结构新闻页面的信息抽取。其步骤参见图4。
(2)对半结构化文本数据进行文本预处理,得到噪声相对较小的半结构化网页文本;此步骤主要是为了保证后续步骤的准确性,降低由于网页文本的噪音带来的分析误差;预处理具体包括如下子步骤:
(2.1)对获取的半结构化的网页文本进行空白页面过滤、无效网页过滤;
(2.2)利用分词工具进行分词处理;
(2.3)对分词处理完的结果进行去停用词处理。
(3)对预处理之后的文本进行词法解析,对分词结果进行词性标注;词法解析具体包括命名实体识别和关键词抽取。
(4)利用斯坦福中文语法分析工具进行的中文语法分析得到中文语法树。
(5)标注中文语法,输出中文语法正则表达式;本实施例中人工标注中文语法约300多条,输出中文语法正则表达式,例如:“-对+*国事访问[036]”。
(6)以步骤(4)和步骤(5)为输入,对步骤(4)得到的中文语法树进行主从句解析,得到事件五要素;具体为:根据句子的短语句法分析树或依存关系树的结构,以及词或短语的词法、语法、语义特征,识别并标识出词的语法成分,结合中文语法规则库,生成中文事件链。
(7)对照事件类型定义,对事件类型进行识别;
(8)输出事件五要素,将结构化信息存入数据库中。
图4为新闻网页抽取流程展示。本专利中使用基于Dom树的抽取技术根据网页的树形层次结构特征来实现html网页中的数据抽取,抽取的原网页数据包括:新闻发表时间,新闻标题,新闻作者,新闻正文内容,新闻图片链接等。图四包含以下步骤:
(a)将html网页按照其结构中的html标签解析成基于Dom树的层次结构;
(b)自动或半自动的方法校正相应的规则表达式的抽取规则;
(c)将要抽取的数据定位至Dom树的某一层次上;
(d)利用规则表达式的抽取规则将数据从网页中抽取出来。
(e)对抽取结果进行人工校验,优化规则表达式,进行迭代式检验抽取,直到规则表达式可用,抽取结果正确率不低于90%。
本发明可应用于网页信息采集、网页信息提取,能有效的提高事件提取的准确性。通过不断的丰富命名实体字典和中文语法规则字典,本系统能识别的事件类别会越来越丰富。本方法可扩展性强,通过用户参与的网页结构学习,能获取的多种结构类型的网页信息,并且通过编写通用的中文语法正则表达式,本方法可用于多种领域的事件信息抽取,如军事、政治、教育等。本系统各个模块均能根据不同的需要进行优化,每个模块均能作为一个单独的工具进行应用。本系统的输出结果能直接进行自然语言处理其他分析,例如舆情分析、事件热度分析、事件摘要抽取等,应用前景广阔,能带来切实的经济效益和政治效益。
本发明提供了一种基于中文语法规则的事件提取的方法及系统,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干算法改进和性能提升,这些改进也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (9)

1.一种基于中文语法规则的事件提取方法,其特征在于,包括如下步骤:
(1)获取网页内容,得到半结构化的网页文本数据;
(2)对半结构化文本数据进行文本预处理,得到噪声相对较小的半结构化网页文本;
(3)对预处理之后的文本进行词法解析,对分词结果进行词性标注;
(4)进行中文语法分析,得到中文语法树;
(5)标注中文语法,输出中文语法正则表达式;
(6)对步骤(4)得到的中文语法树进行主从句解析,得到事件五要素;
(7)对照事件类型定义,对事件类型进行识别;
(8)输出事件五要素,将结构化信息存入数据库中。
2.根据权利要求1所述的一种基于中文语法规则的事件提取方法,其特征在于,所述获取网页内容具体是基于用户干预的页面解析方法,即系统通过学习生成基于Xpath的抽取规则,利用生成的抽取规则实现对相似结构新闻页面的信息抽取。
3.根据权利要求1所述的一种基于中文语法规则的事件提取方法,其特征在于,步骤(2)中所述预处理具体包括如下子步骤:
(2.1)对获取的半结构化的网页文本进行空白页面过滤、无效网页过滤;
(2.2)利用分词工具进行分词处理;
(2.3)对分词处理完的结果进行去停用词处理。
4.根据权利要求1所述的一种基于中文语法规则的事件提取方法,其特征在于,步骤(3)中所述词法解析具体包括命名实体识别和关键词抽取。
5.根据权利要求1所述的一种基于中文语法规则的事件提取系统,其特征在于,步骤(4)所述中文语法分析是利用斯坦福中文语法分析工具进行的中文语法分析。
6.根据权利要求1所述的一种基于中文语法规则的事件提取方法,其特征在于,所述步骤(5)-(6)具体为:根据句子的短语句法分析树或依存关系树的结构,以及词或短语的词法、语法、语义特征,识别并标识出词的语法成分,结合中文语法规则库,生成中文事件链。
7.一种基于中文语法规则的事件提取系统,其特征在于,包括存储模块、用于通过http请求获取网页内容,并将半结构化的网页文本数据存入存储模块的数据获取模块、用于将数据获取模块获取的半结构化的网页文本数据采用自然语言处理开源工具处理成特定的数学模型的文本预处理模块、用于对文本预处理模块处理过的文本通过构建中文语法树结合中文语法规则库,提取事件五要素并存入存储模块的语法解析事件提取模块以及用于与其他模块交互数据的接口模块。
8.根据权利要求7所述的一种基于中文语法规则的事件提取系统,其特征在于,所述文本预处理模块包括用于文本降噪和实体识别的实体解析模块和用于分词、词性标注、去除停用词和句法解析的词性解析模块。
9.根据权利要求7所述的一种基于中文语法规则的事件提取系统,其特征在于,所述存储模块采用轻量级的结构化数据库。
CN201710078221.4A 2017-02-14 2017-02-14 一种基于中文语法规则的事件提取方法和系统 Pending CN106959944A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710078221.4A CN106959944A (zh) 2017-02-14 2017-02-14 一种基于中文语法规则的事件提取方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710078221.4A CN106959944A (zh) 2017-02-14 2017-02-14 一种基于中文语法规则的事件提取方法和系统

Publications (1)

Publication Number Publication Date
CN106959944A true CN106959944A (zh) 2017-07-18

Family

ID=59481581

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710078221.4A Pending CN106959944A (zh) 2017-02-14 2017-02-14 一种基于中文语法规则的事件提取方法和系统

Country Status (1)

Country Link
CN (1) CN106959944A (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818141A (zh) * 2017-10-10 2018-03-20 大连理工大学 融入结构化要素识别的生物医学事件抽取方法
CN108268443A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 确定话题点转移以及获取回复文本的方法、装置
CN108268602A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 分析文本话题点的方法、装置、设备和计算机存储介质
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN108881365A (zh) * 2018-03-15 2018-11-23 兴业数字金融服务(上海)股份有限公司 一种基于事件链的区块链存证溯源方法及系统
CN108920447A (zh) * 2018-05-07 2018-11-30 国家计算机网络与信息安全管理中心 一种面向特定领域的中文事件抽取方法
CN109086064A (zh) * 2018-08-01 2018-12-25 南京茂毓通软件科技有限公司 基于自定义标签语言的http协议要素通用抽取方法
CN109408806A (zh) * 2018-09-11 2019-03-01 中国电子科技集团公司第二十八研究所 一种基于英文语法规则的事件提取方法
CN109446513A (zh) * 2018-09-18 2019-03-08 中国电子科技集团公司第二十八研究所 一种基于自然语言理解的文本中事件的抽取方法
CN109582954A (zh) * 2018-01-24 2019-04-05 广州数知科技有限公司 用于输出信息的方法和装置
CN109657102A (zh) * 2018-12-14 2019-04-19 城云科技(中国)有限公司 商品信息结构化数据建立方法及系统
CN109697225A (zh) * 2017-10-23 2019-04-30 贵州双龙数联科技有限公司 基于神经网络半监督学习的互联网大数据文本精准挖掘引擎
CN109753642A (zh) * 2017-11-06 2019-05-14 节金旗 中文语法标注
CN110147544A (zh) * 2018-05-24 2019-08-20 清华大学 一种基于自然语言的指令生成方法、装置以及相关设备
CN110162651A (zh) * 2019-04-23 2019-08-23 南京邮电大学 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法
CN110321432A (zh) * 2019-06-24 2019-10-11 拓尔思信息技术股份有限公司 文本事件信息提取方法、电子装置和非易失性存储介质
CN110597959A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 文本信息抽取方法、装置以及电子设备
CN111026885A (zh) * 2019-12-23 2020-04-17 公安部第三研究所 一种基于文本语料的涉恐事件实体属性抽取系统及方法
CN111078947A (zh) * 2019-11-19 2020-04-28 太极计算机股份有限公司 基于xml的领域要素提取配置语言系统
CN111415747A (zh) * 2019-01-07 2020-07-14 阿里巴巴集团控股有限公司 电子病历的构建方法及装置
CN111581480A (zh) * 2020-05-12 2020-08-25 杭州风远科技有限公司 新闻资讯聚合分析方法及系统、终端、存储介质
CN111597302A (zh) * 2020-04-28 2020-08-28 北京中科智加科技有限公司 文本事件的获取方法、装置、电子设备及存储介质
CN111797241A (zh) * 2020-06-17 2020-10-20 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN112347249A (zh) * 2020-10-30 2021-02-09 中科曙光南京研究院有限公司 一种警情要素提取系统及其提取方法
CN113449508A (zh) * 2021-07-15 2021-09-28 上海理工大学 一种基于事件链的网络舆情关联推演预测分析方法
CN111414531B (zh) * 2020-03-20 2023-08-08 北京百度网讯科技有限公司 事件的搜索方法、装置和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105389354A (zh) * 2015-11-02 2016-03-09 东南大学 面向社交媒体文本的无监督的事件抽取和分类方法
US20160275073A1 (en) * 2015-03-20 2016-09-22 Microsoft Technology Licensing, Llc Semantic parsing for complex knowledge extraction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160275073A1 (en) * 2015-03-20 2016-09-22 Microsoft Technology Licensing, Llc Semantic parsing for complex knowledge extraction
CN105389354A (zh) * 2015-11-02 2016-03-09 东南大学 面向社交媒体文本的无监督的事件抽取和分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘耀华: "基于句法分析的中文事件抽取方法研究", 《万方学位论文》 *
马刚: "《基于语义的Web数据挖掘》", 31 January 2014, 东北财经大学出版社 *

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107818141B (zh) * 2017-10-10 2020-07-14 大连理工大学 融入结构化要素识别的生物医学事件抽取方法
CN107818141A (zh) * 2017-10-10 2018-03-20 大连理工大学 融入结构化要素识别的生物医学事件抽取方法
CN109697225A (zh) * 2017-10-23 2019-04-30 贵州双龙数联科技有限公司 基于神经网络半监督学习的互联网大数据文本精准挖掘引擎
CN109753642A (zh) * 2017-11-06 2019-05-14 节金旗 中文语法标注
CN108268443A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 确定话题点转移以及获取回复文本的方法、装置
CN108268602A (zh) * 2017-12-21 2018-07-10 北京百度网讯科技有限公司 分析文本话题点的方法、装置、设备和计算机存储介质
CN109582954A (zh) * 2018-01-24 2019-04-05 广州数知科技有限公司 用于输出信息的方法和装置
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN108280064B (zh) * 2018-02-28 2020-09-11 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN108881365A (zh) * 2018-03-15 2018-11-23 兴业数字金融服务(上海)股份有限公司 一种基于事件链的区块链存证溯源方法及系统
CN108920447A (zh) * 2018-05-07 2018-11-30 国家计算机网络与信息安全管理中心 一种面向特定领域的中文事件抽取方法
CN110147544A (zh) * 2018-05-24 2019-08-20 清华大学 一种基于自然语言的指令生成方法、装置以及相关设备
CN109086064A (zh) * 2018-08-01 2018-12-25 南京茂毓通软件科技有限公司 基于自定义标签语言的http协议要素通用抽取方法
CN109086064B (zh) * 2018-08-01 2022-01-14 南京茂毓通软件科技有限公司 基于自定义标签语言的http协议要素通用抽取方法
CN109408806A (zh) * 2018-09-11 2019-03-01 中国电子科技集团公司第二十八研究所 一种基于英文语法规则的事件提取方法
CN109446513A (zh) * 2018-09-18 2019-03-08 中国电子科技集团公司第二十八研究所 一种基于自然语言理解的文本中事件的抽取方法
CN109446513B (zh) * 2018-09-18 2023-06-20 中国电子科技集团公司第二十八研究所 一种基于自然语言理解的文本中事件的抽取方法
CN109657102A (zh) * 2018-12-14 2019-04-19 城云科技(中国)有限公司 商品信息结构化数据建立方法及系统
CN111415747B (zh) * 2019-01-07 2023-04-25 阿里巴巴集团控股有限公司 电子病历的构建方法及装置
CN111415747A (zh) * 2019-01-07 2020-07-14 阿里巴巴集团控股有限公司 电子病历的构建方法及装置
CN110162651B (zh) * 2019-04-23 2023-07-14 南京邮电大学 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法
CN110162651A (zh) * 2019-04-23 2019-08-23 南京邮电大学 基于语义内容摘要的新闻内容图文不符鉴别系统及鉴别方法
CN110321432B (zh) * 2019-06-24 2021-11-23 拓尔思信息技术股份有限公司 文本事件信息提取方法、电子装置和非易失性存储介质
CN110321432A (zh) * 2019-06-24 2019-10-11 拓尔思信息技术股份有限公司 文本事件信息提取方法、电子装置和非易失性存储介质
CN110597959A (zh) * 2019-09-17 2019-12-20 北京百度网讯科技有限公司 文本信息抽取方法、装置以及电子设备
CN110597959B (zh) * 2019-09-17 2023-05-02 北京百度网讯科技有限公司 文本信息抽取方法、装置以及电子设备
CN111078947A (zh) * 2019-11-19 2020-04-28 太极计算机股份有限公司 基于xml的领域要素提取配置语言系统
CN111078947B (zh) * 2019-11-19 2023-06-02 太极计算机股份有限公司 基于xml的领域要素提取配置语言系统
CN111026885B (zh) * 2019-12-23 2023-09-01 公安部第三研究所 一种基于文本语料的涉恐事件实体属性抽取系统及方法
CN111026885A (zh) * 2019-12-23 2020-04-17 公安部第三研究所 一种基于文本语料的涉恐事件实体属性抽取系统及方法
CN111414531B (zh) * 2020-03-20 2023-08-08 北京百度网讯科技有限公司 事件的搜索方法、装置和电子设备
CN111597302A (zh) * 2020-04-28 2020-08-28 北京中科智加科技有限公司 文本事件的获取方法、装置、电子设备及存储介质
CN111581480A (zh) * 2020-05-12 2020-08-25 杭州风远科技有限公司 新闻资讯聚合分析方法及系统、终端、存储介质
CN111581480B (zh) * 2020-05-12 2023-09-08 杭州风远科技有限公司 新闻资讯聚合分析方法及系统、终端、存储介质
CN111797241B (zh) * 2020-06-17 2023-08-22 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN111797241A (zh) * 2020-06-17 2020-10-20 北京北大软件工程股份有限公司 基于强化学习的事件论元抽取方法及装置
CN112347249A (zh) * 2020-10-30 2021-02-09 中科曙光南京研究院有限公司 一种警情要素提取系统及其提取方法
CN112347249B (zh) * 2020-10-30 2024-02-27 中科曙光南京研究院有限公司 一种警情要素提取系统及其提取方法
CN113449508A (zh) * 2021-07-15 2021-09-28 上海理工大学 一种基于事件链的网络舆情关联推演预测分析方法

Similar Documents

Publication Publication Date Title
CN106959944A (zh) 一种基于中文语法规则的事件提取方法和系统
Surdeanu Overview of the TAC2013 Knowledge Base Population Evaluation: English Slot Filling and Temporal Slot Filling.
JP4467184B2 (ja) 知識創造可能性を有するドキュメントの意味論的分析及び選択
Trampuš et al. Internals of an aggregated web news feed
CN110609983B (zh) 一种政策文件结构化分解方法
CN106570171A (zh) 一种基于语义的科技情报处理方法及系统
KR101724398B1 (ko) 지식베이스를 이용한 개체명 인식 코퍼스 생성 시스템 및 방법
CN109857956A (zh) 基于标签和分块特征的新闻网页关键信息自动抽取方法
Das et al. A novel system for generating simple sentences from complex and compound sentences
CN102654873A (zh) 基于中文分词的旅游信息抽取与聚合方法
Ferschke et al. A survey of nlp methods and resources for analyzing the collaborative writing process in wikipedia
Vadapalli et al. Twitterosint: automated cybersecurity threat intelligence collection and analysis using twitter data
Sangati et al. Multiword expression identification with recurring tree fragments and association measures
CN112380848A (zh) 文本生成方法、装置、设备及存储介质
Sirsat et al. Pattern matching for extraction of core contents from news web pages
Yafooz et al. Challenges and issues on online news management
CN1776673A (zh) 一种pdf文档到xml文档转换的方法
CN115204393A (zh) 一种基于知识图谱的智慧城市知识本体库构建方法和装置
Ogrodniczuk et al. Lexical correction of polish twitter political data
Rosyiq et al. Information extraction from Twitter using DBpedia ontology: Indonesia tourism places
Nuzzolese et al. MACJa: metadata and citations jailbreaker
Lehmberg Web table integration and profiling for knowledge base augmentation
CN111859887A (zh) 一种基于深度学习的科技新闻自动写作系统
Safeena et al. Quranic computation: A review of research and application
Karkaletsis et al. Populating ontologies in biomedicine and presenting their content using multilingual generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170718

RJ01 Rejection of invention patent application after publication