CN109885662A - 一种判断事件时态的方法 - Google Patents

一种判断事件时态的方法 Download PDF

Info

Publication number
CN109885662A
CN109885662A CN201910154188.8A CN201910154188A CN109885662A CN 109885662 A CN109885662 A CN 109885662A CN 201910154188 A CN201910154188 A CN 201910154188A CN 109885662 A CN109885662 A CN 109885662A
Authority
CN
China
Prior art keywords
event
tense
word
dictionary
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910154188.8A
Other languages
English (en)
Other versions
CN109885662B (zh
Inventor
陈包容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201910154188.8A priority Critical patent/CN109885662B/zh
Publication of CN109885662A publication Critical patent/CN109885662A/zh
Application granted granted Critical
Publication of CN109885662B publication Critical patent/CN109885662B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及人工智能自然语言处理领域,且公开了一种判断事件时态的方法,所述判断事件时态的方法包括以下步骤:第一步,创建专用数据库群;第二步,从文本中抽取事件;第三步,判断事件的时态,依据数据库群的数据,检测事件文本的时态词,对事件的时态做出判断。该判断事件时态的方法,通过建立包含事件前、中、后时态词库的数据库群,并进行分类,以便计算机或机器判断文本事件的时态时,依据相应的时态词库判断事件的时态,从而提高了计算机或机器判断文本事件时态的准确度,并通过建立及物动词库、事件词库以及其他词库的数据库群,以便计算机或机器快速找出隐含的时态词,提高了复杂文本事件时态判断的准确性和效率。

Description

一种判断事件时态的方法
技术领域
本发明涉及人工智能自然语言处理领域,具体为一种判断事件时态的方法。
背景技术
众所周知,随着计算机和互联网的高速发展,基于计算机和互联网的人工智能技术研究已然成为主流。人工智能通过对人的意识、思维的信息过程进行学习模拟,赋予机器像人那样思考,使得机器能够胜任一些通常需要人类智能才能完成的复杂工作。
对我国来说,人工智能技术的一大难点就是自然语言处理,其中,在对文本事件的时态判断中,由于中文语义复杂,难以深入理解,使得计算机或机器对文本事件的时态做出准确的判断很难,容易导致计算机或机器做出错误学习模拟。
发明内容
本发明提供了一种判断事件时态的方法,具备提高计算机或机器判断文本事件时态的准确度的优点,解决了背景技术中提到的问题。
本发明提供如下技术方案:一种判断事件时态的方法,所述判断事件时态的方法包括以下步骤:
第一步,创建专用数据库群,所述专用数据库群可自定义增减数据;
第二步,从文本中抽取事件,所述文本为电子格式的面向计算机信息处理的中文文字组合;
第三步,判断事件的时态,依据数据库群的数据,检测事件文本的时态词,对事件的时态做出判断。
优选的,所述专用数据库群包括时态词库、时间名词库、及物动词库、事件词库以及其他词库。
优选的,所述时态词库包括未发生时态词库、正发生时态词库和已发生时态词库,所述未发生时态词库包括事件前未发生时态词库、事件中未发生时态词库、事件后未发生时态词库和未发生的时间词库,所述正发生时态词库包括事件前正发生时态词库、事件中正发生时态词库、事件后正发生时态词库和正发生的时间词库,所述已发生时态词库包括事件前已发生时态词库、事件中已发生时态词库、事件后已发生时态词库和已发生的时间词库。
优选的,所述其他词库包括介词库、量词库、名词库、代词库、非及物动词库、形容词库、数词库、副词库、连词库、助词库、叹词库以及拟声词库。
优选的,所述判断事件的时态的流程如下:
S1,提取所述抽取事件所在的单句,抽取及物动词往左和往右的第一个标点符号或空格之间的文本内容,作为提取的单句;
S2,在所述提取的单句中,去掉所述事件文本的左侧相邻事件及其左侧的所有文本,以及去掉所述事件文本的右侧相邻事件及其右侧的所有文本;
S3,根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测所述事件文本的左侧和右侧是否有直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步,如果无,则根据预先创建的专用数据库群中的词库,在剩余文本中,去掉剩余事件文本中的动词相邻左侧和右侧的其他词库中的字词及其任意组合,再根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测所述事件文本的左侧和右侧有无直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步;
S4,根据S3的检测结果,依据时态词库检测事件文本的左侧是否有时态词,如有事件前未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件前已发生时态词、已发生的时间词或其任意组合,则判断事件为已发生事件,如有事件前正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如果事件文本的左侧没有时态词,进入下一步;
S5,根据S3的检测结果,检测事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧是否有时态词,如有事件中未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件中已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件中正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,进入下一步;
S6、根据第三步的检测结果,检测事件文本右侧是否有时态词,如有事件后未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件后已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件后正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,终止计算。
本发明具备以下有益效果:
1、该判断事件时态的方法,通过建立包含事件前、中、后时态词库的数据库群,并进行分类,以便计算机或机器判断文本事件的时态时,依据相应的时态词库判断事件的时态,从而提高了计算机或机器判断文本事件时态的准确度,确保计算机或机器做出正确的学习模拟。
2、该判断事件时态的方法,通过建立包含及物动词库、事件词库以及其他词库的数据库群,以便计算机或机器在判断文本事件的时态时,根据及物动词库、事件词库以及其他词库,对复杂文本事件中的无关字词进行相应删除,以便快速找出隐含的时态词,不仅提高了复杂文本事件时态判断的准确性,还提高了复杂文本事件时态判断的效率。
附图说明
图1为本发明文本事件时态判断流程图;
图2为本发明专用数据库群示意图;
图3为本发明时态词库示意图;
图4为本发明判断抽取事件时态流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4,一种判断事件时态的方法,判断事件时态的方法包括以下步骤:
第一步,创建专用数据库群,专用数据库群可自定义增减数据,专用数据库群包括时态词库、时间名词库、及物动词库、事件词库以及其他词库,时态词库包括未发生时态词库、正发生时态词库和已发生时态词库,未发生时态词库包括事件前未发生时态词库、事件中未发生时态词库、事件后未发生时态词库和未发生的时间词库,事件前未发生时态词库包括“没有、未、没、想、等一下、计划等”在同一单句中位于事件文本左侧的未发生时态字、词以及短语,事件中未发生时态词库包括“下、一下、一个等”在同一单句中位于事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧的未发生时态字词以及短语,事件后未发生时态词库包括“的计划、的想法、的准备、去、的设想等”在同一单句中位于事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧的未发生时态字词以及短语,未发生的时间词库包括“过/等+量词+时间名词及其任意组合(例:计划过一小时看电影)”的短语组合,还包括“下个/下次/未来+时间名词及其任意组合(例:计划下个月装修房子)”的时间段与组合,还包括“量词+时间名词及其任意组合+以后/之后(例:计划一天后打电话给你)”的时间短语组合,正发生时态词库包括事件前正发生时态词库、事件中正发生时态词库、事件后正发生时态词库和正发生的时间词库,事件前正发生时态词库包括“在、正在等”在同一单句中位于事件文本左侧的正发生时态字词,事件中正发生时态词库包括“着、这等”在同一单句中位于事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧的正发生时态字词,事件后正发生时态词库包括“呢、中、开始等”在同一单句中位于事件文本右侧的正发生时态字词,正发生的时间词库包括“此时、此刻、现在、实时等”,已发生时态词库包括事件前已发生时态词库、事件中已发生时态词库、事件后已发生时态词库和已发生的时间词库,事件前已发生时态词库包括“之前、曾经、已经等”在同一单句中位于事件文本左侧的已发生时态字词,事件中已发生时态词库包括“了、完、毕、过等”在同一单句中位于事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧的已发生时态字词,事件后已发生时态词库包括“结束、之后、完毕等”在同一单句中位于事件文本右侧的已发生时态字词,已发生的时间词库包括“上一个/上个+时间名词及其任意组合(例:上个月装修房子完毕)”的时间短语组合,还包括“量词+时间名词及其任意组合+之前/前(例:计划一天前打电话给你)”的时间短语组合,其他词库包括介词库、量词库、名词库、代词库、非及物动词库、形容词库、数词库、副词库、连词库、助词库、叹词库以及拟声词库;
第二步,从文本中抽取事件(例:先预先创建文本专用数据库群,获取文本,根据文本专用数据库群中的数据库,检索文本中匹配数据库中的词数据,并依次进行汇总,根据数据库群和汇总数据集推测该文本是否形成文本事件,并获取文本事件),文本为电子格式的面向计算机信息处理的中文文字组合,文本包括电子文档文本、WEB页面文本、通讯消息内容文本、通讯录联系内容文本;
第三步,判断事件的时态,依据数据库群的数据,检测事件文本的时态词,对事件的时态做出判断。
判断事件的时态的流程如下:
S1,提取抽取事件所在的单句,抽取及物动词往左和往右的第一个标点符号或空格之间的文本内容,作为提取的单句;
S2,在提取的单句中,去掉事件文本的左侧相邻事件及其左侧的所有文本,以及去掉事件文本的右侧相邻事件及其右侧的所有文本;
S3,根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测事件文本的左侧和右侧是否有直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步,如果无,则根据预先创建的专用数据库群中的词库,在剩余文本中,去掉剩余事件文本中的动词相邻左侧和右侧的其他词库中的字词及其任意组合,再根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测事件文本的左侧和右侧有无直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步;
S4,根据S3的检测结果,依据时态词库检测事件文本的左侧是否有时态词,如有事件前未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件前已发生时态词、已发生的时间词或其任意组合,则判断事件为已发生事件,如有事件前正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如果事件文本的左侧没有时态词,进入下一步;
S5,根据S3的检测结果,检测事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧是否有时态词,如有事件中未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件中已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件中正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,进入下一步;
S6、根据第三步的检测结果,检测事件文本右侧是否有时态词,如有事件后未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件后已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件后正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,终止计算。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (5)

1.一种判断事件时态的方法,其特征在于:所述判断事件时态的方法包括以下步骤:
第一步,创建专用数据库群,所述专用数据库群可自定义增减数据;
第二步,从文本中抽取事件,所述文本为电子格式的面向计算机信息处理的中文文字组合;
第三步,判断事件的时态,依据数据库群的数据,检测事件文本的时态词,对事件的时态做出判断。
2.根据权利要求1所述的一种判断事件时态的方法,其特征在于:所述专用数据库群包括时态词库、时间名词库、及物动词库、事件词库以及其他词库。
3.根据权利要求2所述的一种判断事件时态的方法,其特征在于:所述时态词库包括未发生时态词库、正发生时态词库和已发生时态词库,所述未发生时态词库包括事件前未发生时态词库、事件中未发生时态词库、事件后未发生时态词库和未发生的时间词库,所述正发生时态词库包括事件前正发生时态词库、事件中正发生时态词库、事件后正发生时态词库和正发生的时间词库,所述已发生时态词库包括事件前已发生时态词库、事件中已发生时态词库、事件后已发生时态词库和已发生的时间词库。
4.根据权利要求2所述的一种判断事件时态的方法,其特征在于:所述其他词库包括介词库、量词库、名词库、代词库、非及物动词库、形容词库、数词库、副词库、连词库、助词库、叹词库以及拟声词库。
5.根据权利要求1所述的一种判断事件时态的方法,其特征在于:所述判断事件的时态的流程如下:
S1,提取所述抽取事件所在的单句,抽取及物动词往左和往右的第一个标点符号或空格之间的文本内容,作为提取的单句;
S2,在所述提取的单句中,去掉所述事件文本的左侧相邻事件及其左侧的所有文本,以及去掉所述事件文本的右侧相邻事件及其右侧的所有文本;
S3,根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测所述事件文本的左侧和右侧是否有直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步,如果无,则根据预先创建的专用数据库群中的词库,在剩余文本中,去掉剩余事件文本中的动词相邻左侧和右侧的其他词库中的字词及其任意组合,再根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测所述事件文本的左侧和右侧有无直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步;
S4,根据S3的检测结果,依据时态词库检测事件文本的左侧是否有时态词,如有事件前未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件前已发生时态词、已发生的时间词或其任意组合,则判断事件为已发生事件,如有事件前正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如果事件文本的左侧没有时态词,进入下一步;
S5,根据S3的检测结果,检测事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧是否有时态词,如有事件中未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件中已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件中正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,进入下一步;
S6、根据第三步的检测结果,检测事件文本右侧是否有时态词,如有事件后未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件后已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件后正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,终止计算。
CN201910154188.8A 2019-03-01 2019-03-01 一种判断事件时态的方法 Active CN109885662B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910154188.8A CN109885662B (zh) 2019-03-01 2019-03-01 一种判断事件时态的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910154188.8A CN109885662B (zh) 2019-03-01 2019-03-01 一种判断事件时态的方法

Publications (2)

Publication Number Publication Date
CN109885662A true CN109885662A (zh) 2019-06-14
CN109885662B CN109885662B (zh) 2023-04-07

Family

ID=66930093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910154188.8A Active CN109885662B (zh) 2019-03-01 2019-03-01 一种判断事件时态的方法

Country Status (1)

Country Link
CN (1) CN109885662B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395870A (zh) * 2020-11-30 2021-02-23 联想(北京)有限公司 一种文本处理方法及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844741A (ja) * 1994-05-25 1996-02-16 Nippon Telegr & Teleph Corp <Ntt> 日本語文時制解析装置及び日本語文時制解析方法
CN101957812A (zh) * 2010-09-21 2011-01-26 上海大学 基于事件本体的动词语义信息提取方法
CN105573977A (zh) * 2015-10-23 2016-05-11 苏州大学 一种中文事件时序关系识别方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0844741A (ja) * 1994-05-25 1996-02-16 Nippon Telegr & Teleph Corp <Ntt> 日本語文時制解析装置及び日本語文時制解析方法
CN101957812A (zh) * 2010-09-21 2011-01-26 上海大学 基于事件本体的动词语义信息提取方法
CN105573977A (zh) * 2015-10-23 2016-05-11 苏州大学 一种中文事件时序关系识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李君婵: ""汉语文本中的时间、事件及其属性识别"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 *
陈立民: ""汉语的时态和时态成分"", 《语言研究》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112395870A (zh) * 2020-11-30 2021-02-23 联想(北京)有限公司 一种文本处理方法及设备

Also Published As

Publication number Publication date
CN109885662B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN107608949B (zh) 一种基于语义模型的文本信息抽取方法及装置
Filippova Multi-sentence compression: Finding shortest paths in word graphs
CN104182535B (zh) 一种人物关系抽取方法和装置
EP2068514A1 (en) Method and device for filtering junk information based on network
CN105138514B (zh) 一种基于词典的正向逐次加一字最大匹配中文分词方法
CN100524293C (zh) 一种从双语句对获取词对译文的方法及系统
CN105068989A (zh) 地名地址提取方法及装置
CN109460552A (zh) 基于规则和语料库的汉语语病自动检测方法及设备
CN111966792A (zh) 一种文本处理方法、装置、电子设备及可读存储介质
Biran et al. Pdtb discourse parsing as a tagging task: The two taggers approach
WO2017012327A1 (zh) 句法分析的方法和装置
JP3735336B2 (ja) 文書要約方法及びシステム
Singh et al. Statistical tagger for Bhojpuri (employing support vector machine)
Piskorski et al. Exploring the usefulness of cross-lingual information fusion for refining real-time news event extraction: A preliminary study
CN109885662A (zh) 一种判断事件时态的方法
Surdeanu et al. Infrastructure for open-domain information extraction
Romaine Pidgins and creoles
Anju et al. Malayalam to English machine translation: An EBMT system
Boulaknadel et al. Amazighe Named Entity Recognition using a A rule based approach
Cherif et al. New rules-based algorithm to improve Arabic stemming accuracy
Jamison et al. Adjacency pair recognition in wikipedia discussions using lexical pairs
CN110162615A (zh) 一种智能问答方法、装置、电子设备和存储介质
CN109948156A (zh) 一种融合构件和字信息的藏文词向量表示方法
Ogrodniczuk et al. Rule-based coreference resolution module for Polish
US11475222B2 (en) Automatically extending a domain taxonomy to the level of granularity present in glossaries in documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant