CN113032586B - 对文本中的时间信息进行提取的方法、装置及电子设备 - Google Patents
对文本中的时间信息进行提取的方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113032586B CN113032586B CN202110299689.2A CN202110299689A CN113032586B CN 113032586 B CN113032586 B CN 113032586B CN 202110299689 A CN202110299689 A CN 202110299689A CN 113032586 B CN113032586 B CN 113032586B
- Authority
- CN
- China
- Prior art keywords
- time
- entity
- feature
- type
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000014509 gene expression Effects 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000002123 temporal effect Effects 0.000 claims description 37
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000004590 computer program Methods 0.000 description 21
- 230000015654 memory Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000011160 research Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种对文本中的时间信息进行提取的方法,包括:对包含有时间信息的目标文本进行处理,以获取上述目标文本中的至少一个时间实体;针对上述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征;根据上述当前时间实体的时间特征确定上述当前时间实体的类型,上述类型为以下类型的一种:重复时间类型、具体时间类型、始末位置确定的时间区间类型、始末位置不确定的一段时间类型或模糊时间类型;以及根据上述当前时间实体的类型,对应将上述当前时间实体转化为时间格式表达数据。本公开还提供了一种对文本中的时间信息进行提取的装置、电子设备以及计算机可读存储介质。
Description
技术领域
本公开涉及互联网技术领域,更具体地,涉及一种对文本中的时间信息进行提取的方法、装置及电子设备,还涉及一种计算机可读存储介质。
背景技术
在计算机人工智能领域,自然语言理解是一个热门的研究方向。而在自然语言理解的研究中,有关实体的研究,包含实体识别、实体解析、实体消歧等,都是值得深入研究的课题。在实际项目中,对实体的需求不仅限于把实体从文本中提取出来,还需要进行相应的业务解析和归一化。比如,对于用户输入的文本“明天给我拿过来吧”而言,不仅需要将句子中的时间实体“明天”进行语义识别,还需要进一步解析成相应的“年(yyyy)-月(MM)-日(dd)时(HH):分(mm):秒(ss)”的格式,以方便后续流程/场景的使用。
相关技术中对于时间实体的解析,往往按照同一种方式,解析成形如“yyyy-MM-ddHH:mm:ss”或“从(from)yyyy-MM-dd HH:mm:ss到(to)yyyy-MM-dd HH:mm:ss”的格式。这样的解析方式中,主要是采用多个规则对每个可能的时间词进行解读,然后转换成相应的时间。如“后天”表示在当前时间上加两天。
在实现本公开构思的过程中,发明人发现现有技术中至少存在如下问题:目前对于文本中的时间信息进行提取的方法规则单一,大多只能针对明确表示出来的时间点或时间段文本进行时间信息提取,诸如2021年01月01日,2021年1月1日3:00~5:00等,无法将一些场景下的文本时间描述形式给解析出来或者表示出来,比如对于一些时间段词语,比如5天,15分钟等无法解析得到,模糊时间表述,诸如:最近几天、稍晚等,对于这样的场景,对于通用的时间实体识别架构而言,转化成时间点(yyyy-MM-dd HH:mm:ss)和时间区间(fromyyyy-MM-dd HH:mm:ss to yyyy-MM-dd HH:mm:ss)的形式都不太合理。此外,对于一些重复的时间表达,如每天晚上7点准时收看新闻联播,相关技术也不能直观地体现出这类时间与其他时间点或时间区间的不同。
发明内容
有鉴于此,本公开提供了一种对文本中的时间信息进行提取的方法、装置及电子设备,还提供了一种计算机可读存储介质。
本公开的第一个方面提供了一种对文本中的时间信息进行提取的方法。上述方法包括:对包含有时间信息的目标文本进行处理,以获取上述目标文本中的至少一个时间实体;针对上述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征;根据上述当前时间实体的时间特征确定上述当前时间实体的类型,上述类型为以下类型的一种:重复时间类型、具体时间类型、始末位置确定的时间区间类型、始末位置不确定的一段时间类型或模糊时间类型;以及根据上述当前时间实体的类型,对应将上述当前时间实体转化为时间格式表达数据。
根据本公开的实施例,上述当前时间实体的时间特征包括以下特征中的一种或多种:时间点特征、时间段关系特征、循环节特征、时长特征、模糊表述特征、笼统时间特征以及时间前后关系特征。
根据本公开的实施例,上述根据上述当前时间实体的时间特征确定上述当前时间实体的类型,包括:确定上述当前时间实体的时间特征中是否包含循环节特征;如果上述当前时间实体的时间特征中包含循环节特征,则确定上述当前时间实体为重复时间类型。
根据本公开的实施例,上述根据上述当前时间实体的时间特征确定上述当前时间实体的类型,包括:确定上述当前时间实体的时间特征中是否包含时间点特征、时间特征中是否包含循环节特征、时间特征中是否包含时间段关系特征、时间特征中是否包含笼统时间特征、时间特征中是否包含时间前后关系特征以及时间特征中年、月、日、时、分、秒中的数值信息中是否存在日的数值信息;如果上述当前时间实体的时间特征中包含时间点特征、并且时间特征中不包含循环节特征、并且时间特征中不包含时间段关系特征、并且时间特征中不包含笼统时间特征、并且时间特征中不包含时间前后关系特征、并且时间特征中年、月、日、时、分、秒中的数值信息中存在日的数值信息,则确定上述当前时间实体为具体时间类型。
根据本公开的实施例,上述根据上述当前时间实体的时间特征确定上述当前时间实体的类型,包括:如果上述当前时间实体的时间特征满足以下五个条件之一,则确定上述当前时间实体为时间区间类型。条件一,包含时间点特征、并且不包含循环节特征、并且包含时间段关系特征。条件二,包含时间点特征、并且不包含循环节特征、并且当前时间实体的时间特征中年、月、日、时、分、秒中的数值信息中不存在日的数值信息。条件三,包含时间点特征、并且不包含循环节特征、并且包含笼统时间特征。条件四,包含时间点特征、并且不包含循环节特征、并且包含时间前后关系特征。条件五,包含时长特征、并且不包含循环节特征、并且包含时间前后关系特征。
根据本公开的实施例,上述根据上述当前时间实体的时间特征确定上述当前时间实体的类型,包括:确定上述当前时间实体的时间特征中是否包含时间点特征、时长特征以及时间前后关系特征;如果上述当前时间实体的时间特征中不包含时间点特征、并且包含时长特征、并且不包含时间前后关系特征,则确定上述当前时间实体为一段时间类型。
根据本公开的实施例,上述根据上述当前时间实体的时间特征确定上述当前时间实体的类型,包括:确定上述当前时间实体的时间特征中是否包含时间点特征以及模糊表述特征;如果上述当前时间实体的时间特征中不包含时间点特征,并且包含模糊表述特征,则确定上述当前时间实体为模糊时间类型。
根据本公开的实施例,上述对包含有时间信息的目标文本进行处理,以获取上述目标文本中的至少一个时间实体,包括:根据分隔符对目标文本进行分句,以得到一个或多个句子;以及对上述一个或多个句子进行命名实体识别,以获取上述一个或多个句子中包含的至少一个时间实体。
根据本公开的实施例,上述针对上述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征,包括:针对上述至少一个时间实体中的每个时间实体,确定当前时间实体中是否包含能够采用目标文本的语境参考时间描述的第一时间术语;如果当前时间实体中包含能够采用目标文本的语境参考时间描述的第一时间术语,基于上述语境参考时间将上述第一时间术语转化为对应年、月、日、时、分和秒至少之一的数值特征。
根据本公开的实施例,上述根据上述当前时间实体的类型,对应将上述当前时间实体转化为时间格式表达数据,包括:针对当前时间实体为模糊时间类型的情况,将上述当前时间实体的模糊时间表述转化为确定的时间区间表达数据或确定的时间点表达数据。
本公开的第二个方面提供了一种对文本中的时间信息进行提取的装置。上述装置包括:目标文本处理模块、时间特征识别模块、时间类型确定模块以及时间格式表达模块。其中,目标文本处理模块用于对包含有时间信息的目标文本进行处理,以获取上述目标文本中的至少一个时间实体。时间特征识别模块用于针对上述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征。时间类型确定模块用于根据上述当前时间实体的时间特征确定上述当前时间实体的类型。上述类型为以下类型的一种:重复时间类型、具体时间类型、始末位置确定的时间区间类型、始末位置不确定的一段时间类型或模糊时间类型。时间格式表达模块用于根据上述当前时间实体的类型,对应将上述当前时间实体转化为时间格式表达数据。
本公开的第三个方面提供了一种电子设备。上述电子设备包括:一个或多个处理器;用于存储一个或多个程序的存储装置。其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上上述的任一种方法。
本公开的第四个方面提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器实现如上上述的任一种方法。
本公开的第五个方面提供了一种计算机程序产品。上述计算机程序产品包括计算机可执行指令,上述计算机可执行指令在被处理器执行时用于实现如上上述的任一种方法。
根据本公开的实施例,通过对包含有时间信息的目标文本进行处理得到至少一个时间实体,并识别其中每个时间实体的时间特征,并根据上述时间特征确定当前时间实体的类型为重复时间类型、具体时间类型、始末位置确定的时间区间类型、始末位置不确定的一段时间类型或模糊时间类型这五种类型之一,进而将不同的时间类型的时间实体转化为时间格式表达数据,能够涵盖各种类型的文本中的时间表述,对文本中的各个不同类型的时间信息进行识别和差异化表示,可以至少部分地解决相关技术中对于文本中的时间进行实体识别或解析的方法规则单一,无法将一些场景下的文本时间描述形式给解析出来或者表示出来的技术问题。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的对文本中的时间信息进行提取的方法、装置及电子设备能够应用的系统架构;
图2示意性示出了根据本公开实施例的对文本中的时间信息进行提取的方法的流程图;
图3示意性示出了根据本公开实施例的操作S21的详细实施流程图;
图4示意性示出了根据本公开实施例的操作S22的详细实施流程图;
图5示意性示出了根据本公开一实施例的操作S23的详细实施流程图;
图6示意性示出了根据本公开另一实施例的操作S23的详细实施流程图;
图7A~图7E示意性示出了根据本公开又一实施例的操作S23的详细实施流程图;
图8示意性示出了根据本公开再一实施例的操作S23的详细实施流程图;
图9示意性示出了根据本公开又一实施例的操作S23的详细实施流程图;
图10示意性示出了根据本公开实施例的操作S23的整体实施流程图;
图11示意性示出了根据本公开实施例的对文本中的时间信息进行提取的装置的结构框图;以及
图12示意性示出了根据本公开实施例的电子系统的结构框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了上述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种对文本中的时间信息进行提取的方法、装置及电子设备,还提供了一种计算机可读存储介质以及计算机程序产品。上述方法包括:对包含有时间信息的目标文本进行处理,以获取上述目标文本中的至少一个时间实体;针对上述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征;以及根据上述当前时间实体的时间特征确定上述当前时间实体的类型,上述类型为以下类型的一种:重复时间类型、具体时间类型、始末位置确定的时间区间类型、始末位置不确定的一段时间类型或模糊时间类型;以及根据上述当前时间实体的类型,对应将上述当前时间实体转化为时间格式表达数据。
图1示意性示出了根据本公开实施例的对文本中的时间信息进行提取的方法、装置及电子设备能够应用的系统架构。需要注意的是,图1所示仅为可以应用本公开实施例所能应用的场景和系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
参照图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。
网络104为用于在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等,消息可以是文本信息或者语音信息,语音信息可以转化为文本形式。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、笔记本电脑和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的对文本中的时间信息进行提取的方法一般可以由服务器105或终端设备101、102、103执行。相应地,本公开实施例所提供的对文本中的时间信息进行提取的装置一般可以设置于服务器105或终端设备101、102、103中。本公开实施例所提供的对文本中的时间信息进行提取的方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的对文本中的时间信息进行提取的装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本公开的第一个示例性实施例提供了一种对文本中的时间信息进行提取的方法。
图2示意性示出了根据本公开实施例的对文本中的时间信息进行提取的方法的流程图。
参照图2所示,本公开实施例提供的对文本中的时间信息进行提取的方法,包括以下操作:S21、S22、S23和S24。
在操作S21,对包含有时间信息的目标文本进行处理,以获取上述目标文本中的至少一个时间实体。
在操作S22,针对上述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征。
在操作S23,根据上述当前时间实体的时间特征确定上述当前时间实体的类型,上述类型为以下类型的一种:重复时间类型、具体时间类型、始末位置确定的时间区间类型、始末位置不确定的一段时间类型或模糊时间类型。
在操作S24,根据上述当前时间实体的类型,对应将上述当前时间实体转化为时间格式表达数据。
时间格式表达数据为用于表达时间的数据。例如,重复时间类型时间实体的时间格式表达数据中包含用于表征重复的数据,例如包含循环节。针对模糊时间类型的时间实体,其时间格式表达数据采用确定的时间段或时间点进行表示。
上述操作S21~S24可以由图1所示例的终端设备101、102或103执行,或者由图1所示例的服务器105来执行。例如在一示例性的实施场景中,于2021年1月1日,用户通过终端设备101在一客户端应用程序的商家客服界面输入文本信息,该文本信息包括:今天稍晚些给我反馈一下相关物流信息,由为终端设备101的上述客户端应用程序提供Web服务和数据支持的服务器105执行上述操作S21~S24,从而在服务器105一侧可以得到“今天稍晚些”所对应的时间格式,例如“今天稍晚些”经过操作S21~S24之后表达为如下时间格式:“2021年1月1日18:00点”。基于上述时间格式“2021年1月1日18:00点”,服务器105可以实现定时或提前向商家客服所在的客户端102提醒的功能,以便商家客服及时更新上述物流信息。
本公开实施例提供的对文本中的时间信息进行提取的方法,通过对包含有时间信息的目标文本进行处理得到至少一个时间实体,并识别其中每个时间实体的时间特征,并根据上述时间特征确定当前时间实体的类型为重复时间类型、具体时间类型、始末位置确定的时间区间类型、始末位置不确定的一段时间类型或模糊时间类型这五种类型之一,进而将不同的时间类型的时间实体转化为对应的时间格式表达数据,能够涵盖各种类型的文本中的时间表述,对文本中的各个不同类型的时间信息进行识别和差异化表示,可以至少部分地解决相关技术中对于文本中的时间进行实体识别或解析的方法规则单一,无法将一些场景下的文本时间描述形式给解析出来或者表示出来的技术问题。
图3示意性示出了根据本公开实施例的操作S21的详细实施流程图。
根据本公开的实施例,参照图3所示,上述对包含有时间信息的目标文本进行处理,以获取上述目标文本中的至少一个时间实体的操作S21包括以下子操作:S211和S212。
在子操作S211,根据分隔符对目标文本进行分句,以得到一个或多个句子。
上述分隔符包括但不限于:冒号、逗号、分号、句号、感叹号、问号等等。目标文本可以是一句话、一个段落或者一篇文章等等。
在子操作S212,对上述一个或多个句子进行命名实体识别,以获取上述一个或多个句子中包含的至少一个时间实体。
命名实体识别英文简称为NER,NER的任务可以包括识别出目标文本中的三大类命名实体和七小类命名实体,三大类命名实体分别包括实体类、数字类和时间类,七小类命名实体分别包括:人名、机构名、地名、时间、日期、货币和百分比。
根据本公开的实施例,上述时间实体为存在于目标文本中的连续的且用于表示时间信息的内容。比如包括但不限于以下示例:今天上午、2021年1月1日、明天晚上8点一刻、下个月中旬、春秋战国时期、春天、春节期间、稍微晚些时候、每天下午5点,5个小时之后,5个小时,3天以前,4月份,(语境参考时间)截止到今晚8点,等等。
上述操作S22中,针对上述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征。
根据本公开的实施例,上述当前时间实体的时间特征包括以下特征中的一种或多种:时间点特征、时间段关系特征、循环节特征、时长特征、模糊表述特征、笼统时间特征以及时间前后关系特征。
在一实施例中,各个时间实体的时间特征以分号分隔描述,每个时间实体内部的时间特征以逗号分隔描述,时间特征后面的大括号中的内容描述各个时间特征的类型,例如上述实例的时间实体的时间特征分别为:今天{时间点特征},上午{笼统时间特征};2021年1月1日{时间点特征};明天{时间点特征},晚上8点一刻{时间点特征};下个月{时间点特征},中旬{笼统时间特征};春秋战国时期{笼统时间特征};春天{笼统时间特征};春节期间{笼统时间特征};稍微晚些时候{模糊表述特征};每天{循环节特征},下午5点{时间点特征};5个小时{时长特征},之后{时间前后关系特征};5个小时{时长特征};3天{时长特征},以前{时间前后关系特征};4月份{笼统时间特征};(语境参考时间)截止到{时间段关系特征},今晚8点{时间点特征}。
图4示意性示出了根据本公开实施例的操作S22的详细实施流程图。
根据本公开的实施例,参照图4所示,上述针对上述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征的操作S22包括以下子操作:S221和S222。
在子操作S221,针对上述至少一个时间实体中的每个时间实体,确定当前时间实体中是否包含能够采用目标文本的语境参考时间描述的第一时间术语。
在子操作S222,如果当前时间实体中包含能够采用目标文本的语境参考时间描述的第一时间术语,基于上述语境参考时间将上述第一时间术语转化为对应年、月、日、时、分和秒至少之一的数值特征。
上述时间点特征包括年、月、日、时、分、秒中至少一个数值信息。例如以时间实体“2021年1月1日”为例,其时间点特征按照年月日时分秒先后顺序表示为:2021 1 1 -1 -1-1,以默认值“-1”示例性描述时间点特征中不存在数值信息的情况,默认值的具体数值根据实际需要可以进行设置,其中需要确保默认值的数值与年月日时分秒的具体取值具有区分度。
时间特征“今天”(语境参考时间例如为2021年2月2日)为时间点特征,表示为以下数值形式:2021 2 2 -1 -1 -1。
示例性的,通过执行子操作S221和S222,时间特征“明天”是能够采用目标文本的语境参考时间描述的第一时间术语。基于上述语境参考时间将上述时间术语转化为对应年、月、日、时、分和秒至少之一的数值特征,将时间特征“明天”表示为2021 2 3 -1 -1 -1,则“明天,晚上8点一刻”对应的时间点特征,可以表示为以下数值形式:2021 2 3 8 1 5 -1。
上述时间段关系特征包括但不限于为以下形式:时间点A到时间点B,或者语境参考时间到时间点B。也可以将语境参考时间描述为基准时间,通常该基准时间在文本中不是明示的,根据语境可以参考得出。
上述循环节特征例如但不限于为带有“每”的词汇,包括“每天”、“每个月”、“每年”、“每隔5个小时”、“每周六”等等。
上述时长特征例如包括但不限于为:“3年零5个月”、“3个小时”、“5天的时间”等等。
上述模糊表述特征包括但不限于为:“最近几天”、“稍晚些”、“过会”、“很久很久以前”、“过了好久”等等。
上述笼统时间特征包括但不限于以下形式至少一种:“早上”、“上午”、“中午”、“下午”、“上旬”、“中旬”、“下旬”、“春节期间”、“春秋时期”、“秦汉时期”等等。
上述时间前后关系特征包括但不限于为:“之前”、“之后”、“以后”、“后×天”、“提前×天”等等,包括四种类型:在当前时间为起始时间的之前(before begin time),在当前时间为起始时间的之后(after begin time),以当前时间为终止的之前(before endtime),以当前时间为终止的之后(after end time)。
上述时间点特征、时间段关系特征、循环节特征、时长特征、模糊表述特征、笼统时间特征以及时间前后关系特征等各个时间特征的具体表述形式可以预先建立数据库,在对目标文本识别得到目标文本的时间实体的时间特征之后,基于预先建立的数据库中的词汇进行比对,以确定识别的时间特征是否为以下时间特征的类型之一:时间点特征、时间段关系特征、循环节特征、时长特征、模糊表述特征、笼统时间特征或时间前后关系特征。
图5示意性示出了根据本公开一实施例的操作S23的详细实施流程图。
根据本公开的实施例,参照图5所示,根据上述当前时间实体的时间特征确定上述当前时间实体的类型的操作S23包括以下子操作:S231a和S232a。
在子操作S231a,确定当前时间实体的时间特征中是否包含循环节特征。
在子操作S232a,如果当前时间实体的时间特征中包含循环节特征,则确定当前时间实体为重复时间类型。
图6示意性示出了根据本公开另一实施例的操作S23的详细实施流程图。
根据本公开的实施例,参在图6所示,根据上述当前时间实体的时间特征确定上述当前时间实体的类型的操作S23包括以下子操作:S231b和S232b。
在子操作S231b,确定当前时间实体的时间特征中是否包含时间点特征、时间特征中是否包含循环节特征、时间特征中是否包含时间段关系特征、时间特征中是否包含笼统时间特征、时间特征中是否包含时间前后关系特征以及时间特征中年、月、日、时、分、秒中的数值信息中是否存在日的数值信息。
在子操作S232b,如果当前时间实体的时间特征中包含时间点特征、并且时间特征中不包含循环节特征、并且时间特征中不包含时间段关系特征、并且时间特征中不包含笼统时间特征、并且时间特征中不包含时间前后关系特征、并且时间特征中年、月、日、时、分、秒中的数值信息中存在日的数值信息,则确定当前时间实体为具体时间类型。
根据本公开的实施例,根据上述当前时间实体的时间特征确定上述当前时间实体的类型的操作S23包括:如果当前时间实体的时间特征满足以下五个条件之一,则确定上述当前时间实体为时间区间类型。
条件一,包含时间点特征、并且不包含循环节特征、并且包含时间段关系特征。
条件二,包含时间点特征、并且不包含循环节特征、并且当前时间实体的时间特征中年、月、日、时、分、秒中的数值信息中不存在日的数值信息。
条件三,包含时间点特征、并且不包含循环节特征、并且包含笼统时间特征。
条件四,包含时间点特征、并且不包含循环节特征、并且包含时间前后关系特征。
条件五,包含时长特征、并且不包含循环节特征、并且包含时间前后关系特征。
图7A~图7E示意性示出了根据本公开又一实施例的操作S23的详细实施流程图。
具体而言,参照图7A~图7E所示,上述操作S23包括以下多组子操作至少之一:S2311c和S2312c;S2321c和S2322c;S2331c和S2332c;S2341c和S2342c;S2351c和S2352c。
在子操作S2311c,确定当前时间实体的时间特征中是否包含时间点特征、循环节特征以及时间段关系特征。
在子操作S2312c,如果当前时间实体的时间特征中包含时间点特征、并且不包含循环节特征、并且包含时间段关系特征,则确定当前时间实体为时间区间类型。
在子操作S2321c,确定当前时间实体的时间特征中是否包含时间点特征和时间特征中是否包含循环节特征以及当前时间实体的时间特征中年、月、日、时、分、秒中的数值信息中是否存在日的数值信息。
在子操作S2322c,如果当前时间实体的时间特征中包含时间点特征、并且时间特征中不包含循环节特征、并且当前时间实体的时间特征中年、月、日、时、分、秒中的数值信息中不存在日的数值信息,则确定当前时间实体为时间区间类型。
在子操作S2331c,确定当前时间实体的时间特征中是否包含时间点特征、循环节特征以及笼统时间特征。
在子操作S2332c,如果当前时间实体的时间特征中包含时间点特征、并且不包含循环节特征、并且包含笼统时间特征,则确定当前时间实体为时间区间类型。
在子操作S2341c,确定当前时间实体的时间特征中是否包含时间点特征、循环节特征以及时间前后关系特征。
在子操作S2342c,如果当前时间实体的时间特征中包含时间点特征、并且不包含循环节特征、并且包含时间前后关系特征,则确定当前时间实体为时间区间类型。
在子操作S2351c,确定当前时间实体的时间特征中是否包含时长特征、循环节特征以及时间前后关系特征。
在子操作S2352c,如果当前时间实体的时间特征中包含时长特征、并且不包含循环节特征、并且包含时间前后关系特征,则确定当前时间实体为时间区间类型。
图8示意性示出了根据本公开再一实施例的操作S23的详细实施流程图。
根据本公开的实施例,参照图8所示,根据上述当前时间实体的时间特征确定上述当前时间实体的类型的操作S23包括以下子操作:S231d和S232d。
在子操作S231d,确定当前时间实体的时间特征中是否包含时间点特征、时长特征以及时间前后关系特征。
在子操作S232d,如果当前时间实体的时间特征中不包含时间点特征、并且包含时长特征、并且不包含时间前后关系特征,则确定当前时间实体为一段时间类型。
图9示意性示出了根据本公开又一实施例的操作S23的详细实施流程图。
根据本公开的实施例,参照图9所述,根据上述当前时间实体的时间特征确定上述当前时间实体的类型的操作S23包括以下子操作:S231e和S232e。
在子操作S231e,确定当前时间实体的时间特征中是否包含时间点特征以及模糊表述特征。
在子操作S232e,如果当前时间实体的时间特征中不包含时间点特征,并且包含模糊表述特征,则确定当前时间实体为模糊时间类型。
图10示意性示出了根据本公开实施例的操作S23的整体实施流程图。
在一具体实施例中,上述操作S23的详细实施过程包括以下操作:S301~S314。
在操作S301,确定当前时间实体的时间特征中是否包含循环节特征。
在操作S302,如果当前时间实体的时间特征中包含循环节特征,则确定当前时间实体为重复时间类型。
在一实施例中,在操作S301的判断结果为“否”的情况下执行S303。
在操作S303,如果当前时间实体的时间特征中不包含循环节特征,则确定当前时间实体的时间特征中是否包含时间点特征。
在操作S304,如果当前时间实体的时间特征中包含时间点特征,则确定当前时间实体的时间特征中是否包含时间段关系特征。
在操作S305,如果当前时间实体的时间特征中不包含时间段关系特征,则确定当前时间实体的时间特征中是否包含笼统时间特征。
在操作S306,如果当前时间实体的时间特征中不包含笼统时间特征,则确定当前时间实体的时间特征中年、月、日、时、分、秒中的数值信息中是否存在日的数值信息。
在操作S307,如果当前时间实体的时间特征中年、月、日、时、分、秒中的数值信息中存在日的数值信息,则确定当前时间实体的时间特征中是否包含时间前后关系特征。
在操作S308,如果当前时间实体的时间特征中不包含时间前后关系特征,则确定当前时间实体为具体时间类型。
在一实施例中,在操作S301的判断结果为“否”的情况下执行S309。
在操作S309,如果当前时间实体的时间特征中不包含循环节特征,则确定当前时间实体的时间特征中是否包含时长特征。
在操作S310,如果当前时间实体的时间特征中包含时长特征,则确定当前时间实体的时间特征中是否包含时间前后关系特征。
在操作S311,如果当前时间实体的时间特征中不包含时间前后关系特征,则确定当前时间实体为一段时间类型。
在各个操作中,在操作S304的判断结果为“是”的情况下执行操作S312,在操作S305的判断结果为“是”的情况下执行操作S312,在操作S306的判断结果为“否”的情况下执行操作S312,在操作S307的判断结果为“是”的情况下执行操作S312,在操作S310的判断结果为“是”的情况下执行操作S312。
在操作S312,确定当前时间实体为时间区间类型。
在操作S303的判断结果为“否”的情况下执行操作S313。
在操作S313,如果当前时间实体的时间特征中不包含时间点特征,则确定当前时间实体的时间特征中是否包含模糊表述特征。
在操作S314,如果当前时间实体的时间特征中包含模糊表述特征,则确定当前时间实体为模糊时间类型。
本公开中不限定上述操作S301~S314的先后执行顺序,只要满足前述多组子操作至少之一:S231a和S232a;231b和S232b;S2311c和S2312c;S2321c和S2322c;S2331c和S2332c;S2341c和S2342c;S2351c和S2352c;S231d和S232d;S231e和S232e的判定逻辑的执行顺序均在本公开的保护范围之内。
示例性的,针对“今天上午”这一时间实体,通过执行上述操作S301、S303、S304、S305和S312,根据“今天,上午”的时间特征确定上述当前时间实体“今天上午”的类型为:时间区间类型。
示例性的,通过执行上述操作S301、S303、S304、S305、S306、S307和S308,根据“2021年1月1日”的时间特征确定上述当前时间实体“2021年1月1日”的类型为:具体时间类型。
示例性的,通过执行上述操作S301、S303、S304、S305、S306、S307和S308,根据“明天,晚上8点一刻”的时间特征确定上述当前时间实体“明天晚上8点一刻”的类型为:具体时间类型。
示例性的,通过执行上述操作S301、S303、S304、S305和S312,或者S301、S303、S304、S306和S312,根据“下个月,中旬”的时间特征确定上述当前时间实体“下个月中旬”的类型为:时间区间类型。
示例性的,通过执行上述操作S301、S303、S304、S305和S312,根据“春秋战国时期”的时间特征确定上述当前时间实体“春秋战国时期”的类型为:时间区间类型。
示例性的,通过执行上述操作S301、S303、S304、S305和S312,根据“春天”的时间特征确定上述当前时间实体“春天”的类型为:时间区间类型。
示例性的,通过执行上述操作S301、S303、S304、S305和S312,根据“春节期间”的时间特征确定上述当前时间实体“春节期间”的类型为:时间区间类型。
示例性的,通过执行上述操作S301、S303、S313和S314,根据“稍微晚些时候”的时间特征确定上述当前时间实体“稍微晚些时候”的类型为:模糊时间类型。
示例性的,通过执行上述操作S301和S302,根据“每天,下午5点”的时间特征确定上述当前时间实体“每天下午5点”的类型为:重复时间类型。
示例性的,通过执行上述操作S301、S309、S310和S312,根据“5个小时,之后”的时间特征确定上述当前时间实体“5个小时之后”的类型为:时间区间类型。
示例性的,通过执行上述操作S301、S309、S310和S311,根据“5个小时”的时间特征确定时间实体“5个小时”为:一段时间类型。
示例性的,通过执行上述操作S301、S303、S306、S307和S312,根据“3天,以前”的时间特征确定上述当前时间实体“3天以前”的类型为:时间区间类型。
示例性的,通过执行上述操作S301、S303、S305和S312,根据“4月份”的时间特征确定上述当前时间实体“4月份”的类型为:时间区间类型。
示例性的,通过执行上述操作S301、S303、S304和S312,根据“(语境参考时间)截止到,今晚8点”的时间特征确定上述当前时间实体“(语境参考时间)截止到今晚8点”的类型为:时间区间类型。
根据本公开的实施例,上述根据上述当前时间实体的类型,对应将上述当前时间实体转化为时间格式表达数据的操作S24中,基于不同的时间实体的类型转化为相应的时间格式表达数据。
例如,针对当前时间实体为模糊时间类型的情况,将上述当前时间实体的模糊时间表述转化为确定的时间区间表达数据或确定的时间点表达数据。
示例性的,具体时间类型的时间实体的时间格式表达数据可以采用以下格式:“年-月-日时:分:秒”的格式进行表示,时间区间类型的时间实体的表达形式可以采用以下格式:“年-月-日时:分:秒~年-月-日时:分:秒”。
重复时间类型的时间实体的时间格式表达数据可以采用循环格式进行标注。
一段时间类型的时间实体的时间格式表达数据可以采用时长的表示格式进行表达。
本公开的第二个示例性实施例提供了一种对文本中的时间信息进行提取的装置。
图11示意性示出了根据本公开实施例的对文本中的时间信息进行提取的装置的结构框图。
参照图11所示,本公开实施例提供了对文本中的时间信息进行提取的装置400包括:目标文本处理模块401、时间特征识别模块402、时间类型确定模块403以及时间格式表达模块404。
目标文本处理模块401用于对包含有时间信息的目标文本进行处理,以获取上述目标文本中的至少一个时间实体。
时间特征识别模块402用于针对上述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征。
时间类型确定模块403用于根据上述当前时间实体的时间特征确定上述当前时间实体的类型。上述类型为以下类型的一种:重复时间类型、具体时间类型、始末位置确定的时间区间类型、始末位置不确定的一段时间类型或模糊时间类型。该时间类型确定模块403可以包括能够实施第一实施例描述的操作S211、S212、S221、S222、S231a、S232a、S231b、S232b、S2311c和S2312c;S2321c和S2322c;S2331c和S2332c;S2341c和S2342c;S2351c和S2352c或者操作S301~S314的各个功能子模块。
时间格式表达模块404用于根据上述当前时间实体的类型,对应将上述当前时间实体转化为时间格式表达数据。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,目标文本处理模块401、时间特征识别模块402、时间类型确定模块403以及时间格式表达模块404中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,目标文本处理模块401、时间特征识别模块402、时间类型确定模块403以及时间格式表达模块404中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,目标文本处理模块401、时间特征识别模块402、时间类型确定模块403以及时间格式表达模块404中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
本公开的第三个示例性实施例提供了一种电子设备。上述电子设备包括:一个或多个处理器;用于存储一个或多个程序的存储装置。其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现如上上述的任一种方法。
图12示意性示出了根据本公开实施例的电子系统的结构框图。图12示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
参照图12所示,根据本公开实施例的电子设备500包括处理器501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 503中,存储有电子设备500操作所需的各种程序和数据。处理器501、ROM502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,上述程序也可以存储在除ROM 502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在上述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,电子设备500还可以包括输入/输出(I/O)接口505,输入/输出(I/O)接口505也连接至总线504。电子设备500还可以包括连接至I/O接口505的以下部件中的一项或多项:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
本公开的第四个示例性实施例提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处理器实现如上上述的任一种方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。
本公开的第五个示例性实施例提供了一种计算机程序产品。上述计算机程序产品包括计算机可执行指令,上述计算机可执行指令在被处理器执行时用于实现如上上述的任一种方法。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机程序。例如,本公开的实施例提供的计算机程序产品包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分509被下载和安装,和/或从可拆卸介质511被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (11)
1.一种对文本中的时间信息进行提取的方法,包括:
对包含有时间信息的目标文本进行处理,以获取所述目标文本中的至少一个时间实体;
针对所述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征;
根据所述当前时间实体的时间特征确定所述当前时间实体的类型,所述类型为以下类型的一种:重复时间类型、具体时间类型、始末位置确定的时间区间类型、始末位置不确定的一段时间类型或模糊时间类型;以及
根据所述当前时间实体的类型,对应将所述当前时间实体转化为时间格式表达数据;
其中,所述当前时间实体的时间特征包括以下特征中的一种或多种:时间点特征、时间段关系特征、循环节特征、时长特征、模糊表述特征、笼统时间特征以及时间前后关系特征;
其中,所述针对所述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征,包括:
针对所述至少一个时间实体中的每个时间实体,确定当前时间实体中是否包含能够采用目标文本的语境参考时间描述的第一时间术语;
如果当前时间实体中包含能够采用目标文本的语境参考时间描述的第一时间术语,基于所述语境参考时间将所述第一时间术语转化为对应年、月、日、时、分和秒至少之一的数值特征。
2.根据权利要求1所述的方法,其中,所述根据所述当前时间实体的时间特征确定所述当前时间实体的类型,包括:
确定所述当前时间实体的时间特征中是否包含循环节特征;
如果所述当前时间实体的时间特征中包含循环节特征,则确定所述当前时间实体为重复时间类型。
3.根据权利要求1所述的方法,其中,所述根据所述当前时间实体的时间特征确定所述当前时间实体的类型,包括:
确定所述当前时间实体的时间特征中是否包含时间点特征、时间特征中是否包含循环节特征、时间特征中是否包含时间段关系特征、时间特征中是否包含笼统时间特征、时间特征中是否包含时间前后关系特征以及时间特征中年、月、日、时、分、秒中的数值信息中是否存在日的数值信息;
如果所述当前时间实体的时间特征中包含时间点特征、并且时间特征中不包含循环节特征、并且时间特征中不包含时间段关系特征、并且时间特征中不包含笼统时间特征、并且时间特征中不包含时间前后关系特征、并且时间特征中年、月、日、时、分、秒中的数值信息中存在日的数值信息,则确定所述当前时间实体为具体时间类型。
4.根据权利要求1所述的方法,其中,所述根据所述当前时间实体的时间特征确定所述当前时间实体的类型,包括:
如果所述当前时间实体的时间特征满足以下条件之一,则确定所述当前时间实体为时间区间类型:
包含时间点特征、并且不包含循环节特征、并且包含时间段关系特征;
包含时间点特征、并且不包含循环节特征、并且当前时间实体的时间特征中年、月、日、时、分、秒中的数值信息中不存在日的数值信息;
包含时间点特征、并且不包含循环节特征、并且包含笼统时间特征;
包含时间点特征、并且不包含循环节特征、并且包含时间前后关系特征;
包含时长特征、并且不包含循环节特征、并且包含时间前后关系特征。
5.根据权利要求1所述的方法,其中,所述根据所述当前时间实体的时间特征确定所述当前时间实体的类型,包括:
确定所述当前时间实体的时间特征中是否包含时间点特征、时长特征以及时间前后关系特征;
如果所述当前时间实体的时间特征中不包含时间点特征、并且包含时长特征、并且不包含时间前后关系特征,则确定所述当前时间实体为一段时间类型。
6.根据权利要求1所述的方法,其中,所述根据所述当前时间实体的时间特征确定所述当前时间实体的类型,包括:
确定所述当前时间实体的时间特征中是否包含时间点特征以及模糊表述特征;
如果所述当前时间实体的时间特征中不包含时间点特征,并且包含模糊表述特征,则确定所述当前时间实体为模糊时间类型。
7.根据权利要求1所述的方法,其中,所述对包含有时间信息的目标文本进行处理,以获取所述目标文本中的至少一个时间实体,包括:
根据分隔符对目标文本进行分句,以得到一个或多个句子;以及
对所述一个或多个句子进行命名实体识别,以获取所述一个或多个句子中包含的至少一个时间实体。
8.根据权利要求1所述的方法,其中,所述根据所述当前时间实体的类型,对应将所述当前时间实体转化为时间格式表达数据,包括:
针对当前时间实体为模糊时间类型的情况,将所述当前时间实体的模糊时间表述转化为确定的时间区间表达数据或确定的时间点表达数据。
9.一种对文本中的时间信息进行提取的装置,包括:
目标文本处理模块,用于对包含有时间信息的目标文本进行处理,以获取所述目标文本中的至少一个时间实体;
时间特征识别模块,用于针对所述至少一个时间实体中的每个时间实体,识别当前时间实体的时间特征;
时间类型确定模块,用于根据所述当前时间实体的时间特征确定所述当前时间实体的类型,所述类型为以下类型的一种:重复时间类型、具体时间类型、始末位置确定的时间区间类型、始末位置不确定的一段时间类型或模糊时间类型;以及
时间格式表达模块,用于根据所述当前时间实体的类型,对应将所述当前时间实体转化为时间格式表达数据;
其中,所述当前时间实体的时间特征包括以下特征中的一种或多种:时间点特征、时间段关系特征、循环节特征、时长特征、模糊表述特征、笼统时间特征以及时间前后关系特征;
其中,所述时间特征识别模块具体用于:
针对所述至少一个时间实体中的每个时间实体,确定当前时间实体中是否包含能够采用目标文本的语境参考时间描述的第一时间术语;
如果当前时间实体中包含能够采用目标文本的语境参考时间描述的第一时间术语,基于所述语境参考时间将所述第一时间术语转化为对应年、月、日、时、分和秒至少之一的数值特征。
10.一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1-8中任一项所述的方法。
11.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110299689.2A CN113032586B (zh) | 2021-03-19 | 2021-03-19 | 对文本中的时间信息进行提取的方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110299689.2A CN113032586B (zh) | 2021-03-19 | 2021-03-19 | 对文本中的时间信息进行提取的方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113032586A CN113032586A (zh) | 2021-06-25 |
CN113032586B true CN113032586B (zh) | 2023-11-03 |
Family
ID=76471983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110299689.2A Active CN113032586B (zh) | 2021-03-19 | 2021-03-19 | 对文本中的时间信息进行提取的方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113032586B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2018203570B1 (en) * | 2017-06-30 | 2018-12-06 | Accenture Global Solutions Limited | Document processing |
CN109766549A (zh) * | 2018-12-29 | 2019-05-17 | 贵州小爱机器人科技有限公司 | 时间信息提取方法、装置以及计算机存储介质 |
WO2020091618A1 (ru) * | 2018-10-30 | 2020-05-07 | федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (государственный университет)" | Система определения именованных сущностей с динамическими параметрами |
CN111694931A (zh) * | 2020-06-11 | 2020-09-22 | 北京百度网讯科技有限公司 | 要素获取方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014076525A1 (en) * | 2012-11-16 | 2014-05-22 | Data2Text Limited | Method and apparatus for expressing time in an output text |
-
2021
- 2021-03-19 CN CN202110299689.2A patent/CN113032586B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2018203570B1 (en) * | 2017-06-30 | 2018-12-06 | Accenture Global Solutions Limited | Document processing |
WO2020091618A1 (ru) * | 2018-10-30 | 2020-05-07 | федеральное государственное автономное образовательное учреждение высшего образования "Московский физико-технический институт (государственный университет)" | Система определения именованных сущностей с динамическими параметрами |
CN109766549A (zh) * | 2018-12-29 | 2019-05-17 | 贵州小爱机器人科技有限公司 | 时间信息提取方法、装置以及计算机存储介质 |
CN111694931A (zh) * | 2020-06-11 | 2020-09-22 | 北京百度网讯科技有限公司 | 要素获取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113032586A (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11226795B2 (en) | Efficient state machines for real-time dataflow programming | |
JP6922538B2 (ja) | Api学習 | |
US20140129211A1 (en) | Svo-based taxonomy-driven text analytics | |
US11758088B2 (en) | Method and apparatus for aligning paragraph and video | |
CN109359194B (zh) | 用于预测信息类别的方法和装置 | |
EP3579119A1 (en) | Method and apparatus for recognizing event information in text | |
US11151180B2 (en) | Messaging digest | |
CN111382228A (zh) | 用于输出信息的方法和装置 | |
CN111314388A (zh) | 用于检测sql注入的方法和装置 | |
CN112948486A (zh) | 批量数据同步方法、系统及电子设备 | |
CN114970540A (zh) | 训练文本审核模型的方法和装置 | |
CN114386408A (zh) | 政务敏感信息识别方法、装置、设备、介质和程序产品 | |
CN113032586B (zh) | 对文本中的时间信息进行提取的方法、装置及电子设备 | |
CN110110032B (zh) | 用于更新索引文件的方法和装置 | |
CN113138767B (zh) | 代码语言转换方法、装置、电子设备及存储介质 | |
Padró et al. | Language processing infrastructure in the xlike project | |
CN113392311A (zh) | 字段搜索方法、字段搜索装置、电子设备及存储介质 | |
CN113032515A (zh) | 基于多数据源生成图表的方法、系统、设备及存储介质 | |
CN112287104A (zh) | 一种自然语言处理方法和装置 | |
CN112799797A (zh) | 一种任务管理的方法和装置 | |
CN116382703B (zh) | 软件包生成方法、代码开发方法及装置、电子设备和介质 | |
US11150955B2 (en) | Generation and usage of a task-based programming platform | |
CN112860259B (zh) | 界面处理方法、装置、电子设备、存储介质 | |
CN110737757B (zh) | 用于生成信息的方法和装置 | |
CN114169868A (zh) | 流程审批方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant after: Jingdong Technology Holding Co.,Ltd. Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176 Applicant before: Jingdong Digital Technology Holding Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |