CN109885662B - 一种判断事件时态的方法 - Google Patents
一种判断事件时态的方法 Download PDFInfo
- Publication number
- CN109885662B CN109885662B CN201910154188.8A CN201910154188A CN109885662B CN 109885662 B CN109885662 B CN 109885662B CN 201910154188 A CN201910154188 A CN 201910154188A CN 109885662 B CN109885662 B CN 109885662B
- Authority
- CN
- China
- Prior art keywords
- event
- word
- temporal
- library
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及人工智能自然语言处理领域,且公开了一种判断事件时态的方法,所述判断事件时态的方法包括以下步骤:第一步,创建专用数据库群;第二步,从文本中抽取事件;第三步,判断事件的时态,依据数据库群的数据,检测事件文本的时态词,对事件的时态做出判断。该判断事件时态的方法,通过建立包含事件前、中、后时态词库的数据库群,并进行分类,以便计算机或机器判断文本事件的时态时,依据相应的时态词库判断事件的时态,从而提高了计算机或机器判断文本事件时态的准确度,并通过建立及物动词库、事件词库以及其他词库的数据库群,以便计算机或机器快速找出隐含的时态词,提高了复杂文本事件时态判断的准确性和效率。
Description
技术领域
本发明涉及人工智能自然语言处理领域,具体为一种判断事件时态的方法。
背景技术
众所周知,随着计算机和互联网的高速发展,基于计算机和互联网的人工智能技术研究已然成为主流。人工智能通过对人的意识、思维的信息过程进行学习模拟,赋予机器像人那样思考,使得机器能够胜任一些通常需要人类智能才能完成的复杂工作。
对我国来说,人工智能技术的一大难点就是自然语言处理,其中,在对文本事件的时态判断中,由于中文语义复杂,难以深入理解,使得计算机或机器对文本事件的时态做出准确的判断很难,容易导致计算机或机器做出错误学习模拟。
发明内容
本发明提供了一种判断事件时态的方法,具备提高计算机或机器判断文本事件时态的准确度的优点,解决了背景技术中提到的问题。
本发明提供如下技术方案:一种判断事件时态的方法,所述判断事件时态的方法包括以下步骤:
第一步,创建专用数据库群,所述专用数据库群可自定义增减数据;
第二步,从文本中抽取事件,所述文本为电子格式的面向计算机信息处理的中文文字组合;
第三步,判断事件的时态,依据数据库群的数据,检测事件文本的时态词,对事件的时态做出判断。
优选的,所述专用数据库群包括时态词库、时间名词库、及物动词库、事件词库以及其他词库。
优选的,所述时态词库包括未发生时态词库、正发生时态词库和已发生时态词库,所述未发生时态词库包括事件前未发生时态词库、事件中未发生时态词库、事件后未发生时态词库和未发生的时间词库,所述正发生时态词库包括事件前正发生时态词库、事件中正发生时态词库、事件后正发生时态词库和正发生的时间词库,所述已发生时态词库包括事件前已发生时态词库、事件中已发生时态词库、事件后已发生时态词库和已发生的时间词库。
优选的,所述其他词库包括介词库、量词库、名词库、代词库、非及物动词库、形容词库、数词库、副词库、连词库、助词库、叹词库以及拟声词库。
优选的,所述判断事件的时态的流程如下:
S1,提取所述抽取事件所在的单句,抽取及物动词往左和往右的第一个标点符号或空格之间的文本内容,作为提取的单句;
S2,在所述提取的单句中,去掉所述事件文本的左侧相邻事件及其左侧的所有文本,以及去掉所述事件文本的右侧相邻事件及其右侧的所有文本;
S3,根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测所述事件文本的左侧和右侧是否有直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步,如果无,则根据预先创建的专用数据库群中的词库,在剩余文本中,去掉剩余事件文本中的动词相邻左侧和右侧的其他词库中的字词及其任意组合,再根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测所述事件文本的左侧和右侧有无直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步;
S4,根据S3的检测结果,依据时态词库检测事件文本的左侧是否有时态词,如有事件前未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件前已发生时态词、已发生的时间词或其任意组合,则判断事件为已发生事件,如有事件前正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如果事件文本的左侧没有时态词,进入下一步;
S5,根据S3的检测结果,检测事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧是否有时态词,如有事件中未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件中已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件中正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,进入下一步;
S6、根据第三步的检测结果,检测事件文本右侧是否有时态词,如有事件后未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件后已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件后正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,终止计算。
本发明具备以下有益效果:
1、该判断事件时态的方法,通过建立包含事件前、中、后时态词库的数据库群,并进行分类,以便计算机或机器判断文本事件的时态时,依据相应的时态词库判断事件的时态,从而提高了计算机或机器判断文本事件时态的准确度,确保计算机或机器做出正确的学习模拟。
2、该判断事件时态的方法,通过建立包含及物动词库、事件词库以及其他词库的数据库群,以便计算机或机器在判断文本事件的时态时,根据及物动词库、事件词库以及其他词库,对复杂文本事件中的无关字词进行相应删除,以便快速找出隐含的时态词,不仅提高了复杂文本事件时态判断的准确性,还提高了复杂文本事件时态判断的效率。
附图说明
图1为本发明文本事件时态判断流程图;
图2为本发明专用数据库群示意图;
图3为本发明时态词库示意图;
图4为本发明判断抽取事件时态流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4,一种判断事件时态的方法,判断事件时态的方法包括以下步骤:
第一步,创建专用数据库群,专用数据库群可自定义增减数据,专用数据库群包括时态词库、时间名词库、及物动词库、事件词库以及其他词库,时态词库包括未发生时态词库、正发生时态词库和已发生时态词库,未发生时态词库包括事件前未发生时态词库、事件中未发生时态词库、事件后未发生时态词库和未发生的时间词库,事件前未发生时态词库包括“没有、未、没、想、等一下、计划等”在同一单句中位于事件文本左侧的未发生时态字、词以及短语,事件中未发生时态词库包括“下、一下、一个等”在同一单句中位于事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧的未发生时态字词以及短语,事件后未发生时态词库包括“的计划、的想法、的准备、去、的设想等”在同一单句中位于事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧的未发生时态字词以及短语,未发生的时间词库包括“过/等+量词+时间名词及其任意组合(例:计划过一小时看电影)”的短语组合,还包括“下个/下次/未来+时间名词及其任意组合(例:计划下个月装修房子)”的时间段与组合,还包括“量词+时间名词及其任意组合+以后/之后(例:计划一天后打电话给你)”的时间短语组合,正发生时态词库包括事件前正发生时态词库、事件中正发生时态词库、事件后正发生时态词库和正发生的时间词库,事件前正发生时态词库包括“在、正在等”在同一单句中位于事件文本左侧的正发生时态字词,事件中正发生时态词库包括“着、这等”在同一单句中位于事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧的正发生时态字词,事件后正发生时态词库包括“呢、中、开始等”在同一单句中位于事件文本右侧的正发生时态字词,正发生的时间词库包括“此时、此刻、现在、实时等”,已发生时态词库包括事件前已发生时态词库、事件中已发生时态词库、事件后已发生时态词库和已发生的时间词库,事件前已发生时态词库包括“之前、曾经、已经等”在同一单句中位于事件文本左侧的已发生时态字词,事件中已发生时态词库包括“了、完、毕、过等”在同一单句中位于事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧的已发生时态字词,事件后已发生时态词库包括“结束、之后、完毕等”在同一单句中位于事件文本右侧的已发生时态字词,已发生的时间词库包括“上一个/上个+时间名词及其任意组合(例:上个月装修房子完毕)”的时间短语组合,还包括“量词+时间名词及其任意组合+之前/前(例:计划一天前打电话给你)”的时间短语组合,其他词库包括介词库、量词库、名词库、代词库、非及物动词库、形容词库、数词库、副词库、连词库、助词库、叹词库以及拟声词库;
第二步,从文本中抽取事件(例:先预先创建文本专用数据库群,获取文本,根据文本专用数据库群中的数据库,检索文本中匹配数据库中的词数据,并依次进行汇总,根据数据库群和汇总数据集推测该文本是否形成文本事件,并获取文本事件),文本为电子格式的面向计算机信息处理的中文文字组合,文本包括电子文档文本、WEB页面文本、通讯消息内容文本、通讯录联系内容文本;
第三步,判断事件的时态,依据数据库群的数据,检测事件文本的时态词,对事件的时态做出判断。
判断事件的时态的流程如下:
S1,提取抽取事件所在的单句,抽取及物动词往左和往右的第一个标点符号或空格之间的文本内容,作为提取的单句;
S2,在提取的单句中,去掉事件文本的左侧相邻事件及其左侧的所有文本,以及去掉事件文本的右侧相邻事件及其右侧的所有文本;
S3,根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测事件文本的左侧和右侧是否有直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步,如果无,则根据预先创建的专用数据库群中的词库,在剩余文本中,去掉剩余事件文本中的动词相邻左侧和右侧的其他词库中的字词及其任意组合,再根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测事件文本的左侧和右侧有无直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步;
S4,根据S3的检测结果,依据时态词库检测事件文本的左侧是否有时态词,如有事件前未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件前已发生时态词、已发生的时间词或其任意组合,则判断事件为已发生事件,如有事件前正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如果事件文本的左侧没有时态词,进入下一步;
S5,根据S3的检测结果,检测事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧是否有时态词,如有事件中未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件中已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件中正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,进入下一步;
S6、根据第三步的检测结果,检测事件文本右侧是否有时态词,如有事件后未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件后已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件后正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,终止计算。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (1)
1.一种判断事件时态的方法,其特征在于:所述判断事件时态的方法包括以下步骤:
第一步,创建专用数据库群,所述专用数据库群可自定义增减数据;
第二步,从文本中抽取事件,所述文本为电子格式的面向计算机信息处理的中文文字组合;
第三步,判断事件的时态,依据数据库群的数据,检测事件文本的时态词,对事件的时态做出判断;
所述专用数据库群包括时态词库、时间名词库、及物动词库、事件词库以及其他词库;
所述时态词库包括未发生时态词库、正发生时态词库和已发生时态词库,所述未发生时态词库包括事件前未发生时态词库、事件中未发生时态词库、事件后未发生时态词库和未发生的时间词库,所述正发生时态词库包括事件前正发生时态词库、事件中正发生时态词库、事件后正发生时态词库和正发生的时间词库,所述已发生时态词库包括事件前已发生时态词库、事件中已发生时态词库、事件后已发生时态词库和已发生的时间词库;
所述其他词库包括介词库、量词库、名词库、代词库、非及物动词库、形容词库、数词库、副词库、连词库、助词库、叹词库以及拟声词库;
所述判断事件的时态的流程如下:
S1,提取所述抽取事件所在的单句,抽取及物动词往左和往右的第一个标点符号或空格之间的文本内容,作为提取的单句;
S2,在所述提取的单句中,去掉所述事件文本的左侧相邻事件及其左侧的所有文本,以及去掉所述事件文本的右侧相邻事件及其右侧的所有文本;
S3,根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测所述事件文本的左侧和右侧是否有直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步,如果无,则根据预先创建的专用数据库群中的词库,在剩余文本中,去掉剩余事件文本中的动词相邻左侧和右侧的其他词库中的字词及其任意组合,再根据预先创建的专用数据库群中的时态词库,在剩余文本中,检测所述事件文本的左侧和右侧有无直接相邻的未发生时态词、已发生时态词、正发生时态词,如果有则进入下一步;
S4,根据S3的检测结果,依据时态词库检测事件文本的左侧是否有时态词,如有事件前未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件前已发生时态词、已发生的时间词或其任意组合,则判断事件为已发生事件,如有事件前正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如果事件文本的左侧没有时态词,进入下一步;
S5,根据S3的检测结果,检测事件文本中的及物动词的右侧,或事件词中的第一个文字的右侧是否有时态词,如有事件中未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件中已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件中正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,进入下一步;
S6、根据第三步的检测结果,检测事件文本右侧是否有时态词,如有事件后未发生时态词、未发生的时间词或其任意组合,则判断该事件为未发生事件,如有事件后已发生时态词、已发生的时间词或其任意组合,则判断该事件为已发生事件,如有事件后正发生时态词、正发生的时间词或其任意组合,则判断该事件为正发生事件,如无,终止计算。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910154188.8A CN109885662B (zh) | 2019-03-01 | 2019-03-01 | 一种判断事件时态的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910154188.8A CN109885662B (zh) | 2019-03-01 | 2019-03-01 | 一种判断事件时态的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109885662A CN109885662A (zh) | 2019-06-14 |
CN109885662B true CN109885662B (zh) | 2023-04-07 |
Family
ID=66930093
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910154188.8A Active CN109885662B (zh) | 2019-03-01 | 2019-03-01 | 一种判断事件时态的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109885662B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395870B (zh) * | 2020-11-30 | 2024-09-17 | 联想(北京)有限公司 | 一种文本处理方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844741A (ja) * | 1994-05-25 | 1996-02-16 | Nippon Telegr & Teleph Corp <Ntt> | 日本語文時制解析装置及び日本語文時制解析方法 |
CN101957812A (zh) * | 2010-09-21 | 2011-01-26 | 上海大学 | 基于事件本体的动词语义信息提取方法 |
CN105573977A (zh) * | 2015-10-23 | 2016-05-11 | 苏州大学 | 一种中文事件时序关系识别方法及系统 |
-
2019
- 2019-03-01 CN CN201910154188.8A patent/CN109885662B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0844741A (ja) * | 1994-05-25 | 1996-02-16 | Nippon Telegr & Teleph Corp <Ntt> | 日本語文時制解析装置及び日本語文時制解析方法 |
CN101957812A (zh) * | 2010-09-21 | 2011-01-26 | 上海大学 | 基于事件本体的动词语义信息提取方法 |
CN105573977A (zh) * | 2015-10-23 | 2016-05-11 | 苏州大学 | 一种中文事件时序关系识别方法及系统 |
Non-Patent Citations (2)
Title |
---|
"汉语文本中的时间、事件及其属性识别";李君婵;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20140115(第1期);全文 * |
"汉语的时态和时态成分";陈立民;《语言研究》;20020830(第3期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109885662A (zh) | 2019-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2664997B1 (en) | System and method for resolving named entity coreference | |
CN110188347B (zh) | 一种面向文本的知识主题间认知关系抽取方法 | |
US9009590B2 (en) | Semantic processor for recognition of cause-effect relations in natural language documents | |
US7584092B2 (en) | Unsupervised learning of paraphrase/translation alternations and selective application thereof | |
US20240143633A1 (en) | Generative event extraction method based on ontology guidance | |
Alkhatib et al. | Deep learning for Arabic error detection and correction | |
US9646512B2 (en) | System and method for automated teaching of languages based on frequency of syntactic models | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
Zhou et al. | English grammar error correction algorithm based on classification model | |
Alruily et al. | Crime profiling for the Arabic language using computational linguistic techniques | |
CN111966792A (zh) | 一种文本处理方法、装置、电子设备及可读存储介质 | |
Glass et al. | A naive salience-based method for speaker identification in fiction books | |
CN114091448A (zh) | 文本对抗样本生成方法、系统、计算机设备和存储介质 | |
Krstev et al. | Knowledge and rule-based diacritic restoration in Serbian | |
Azman | Root identification tool for Arabic verbs | |
CN109885662B (zh) | 一种判断事件时态的方法 | |
CN109670045A (zh) | 基于本体模型和多核支持向量机的情感原因抽取方法 | |
Collins et al. | Semantic tagging using a probabilistic context free grammar | |
Sharma et al. | Lfwe: Linguistic feature based word embedding for hindi fake news detection | |
Sun et al. | Syntactic parsing of web queries | |
Rahman et al. | An investigative design based statistical approach for determining Bangla sentence validity | |
Nyberg | Grammatical error correction for learners of swedish as a second language | |
Alothman et al. | An Arabic grammar auditor based on dependency grammar | |
JP3300142B2 (ja) | 自然言語処理装置 | |
Al-Arfaj et al. | Arabic NLP tools for ontology construction from Arabic text: An overview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |