CN109885659B - 一种对文本内时间信息归一化的方法及装置 - Google Patents

一种对文本内时间信息归一化的方法及装置 Download PDF

Info

Publication number
CN109885659B
CN109885659B CN201910127364.9A CN201910127364A CN109885659B CN 109885659 B CN109885659 B CN 109885659B CN 201910127364 A CN201910127364 A CN 201910127364A CN 109885659 B CN109885659 B CN 109885659B
Authority
CN
China
Prior art keywords
time information
time
normalized
absolute
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910127364.9A
Other languages
English (en)
Other versions
CN109885659A (zh
Inventor
郝思洋
任宁
晋耀红
李德彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Taiyue Xiangsheng Software Co ltd
Original Assignee
Anhui Taiyue Xiangsheng Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Taiyue Xiangsheng Software Co ltd filed Critical Anhui Taiyue Xiangsheng Software Co ltd
Priority to CN201910127364.9A priority Critical patent/CN109885659B/zh
Publication of CN109885659A publication Critical patent/CN109885659A/zh
Application granted granted Critical
Publication of CN109885659B publication Critical patent/CN109885659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请提供了一种对文本内时间信息归一化的方法及装置,利用每个所述待归一化时间信息,确定所述待归一化时间信息对应的参考时间信息;根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。因此,本申请可利用待归一化时间信息自动发现对应的参考时间信息,然后将待归一化时间信息进行对归一化处理,无需用户自行查找推算,提高时间信息归一化的准确性。

Description

一种对文本内时间信息归一化的方法及装置
技术领域
本申请涉及时间归一化处理领域,尤其涉及一种对文本内时间信息归一化的方法及装置。
背景技术
在自然语言中,时间信息在十分重要的组成部分,时间和事件相联系,准确抽取出时间信息对于文本挖掘来说很有价值。由于时间信息的表述方式和格式多样,很多情况下已知的时间信息在下文中会被省略,例如文本中出现“希望于明日下午三点进行视频会议”,然而,用户从该时间信息中无法确定视频会议召开的具体日期,因此,用户需在整个文本中查找相应的参考时间(如“xx年xx月xx日”),再由参考时间推算出绝对时间,即视频会议召开的具体日期,但是,在文本中有较多参考时间的情况下,用户需判断查找到的参考时间是否为相对时间所对应的参考时间,极易导致相对时间对应的参考时间判定错误或推算错误,而造成绝对时间计算错误。
发明内容
本申请提供了一种对文本内时间信息归一化的方法及装置,以解决在文本中有较多参考时间的情况下,用户需判断查找到的参考时间是否为相对时间所对应的参考时间,极易导致相对时间对应的参考时间判定错误或推算错误,而造成绝对时间计算错误的问题。
第一方面,本申请提供了一种对文本内时间信息归一化的方法,所述方法包括:
获取文本中全部待归一化时间信息;
确定每个所述待归一化时间信息的类型;
利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息;
根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。
第二方面,本申请提供了一种对文本内时间信息归一化的装置,所述装置包括:
获取模块,用于获取文本中全部待归一化时间信息;
类型确定模块,用于每个所述待归一化时间信息的类型;
参考时间确定模块,用于利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息;
归一化处理模块,用于根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。
由以上技术方案可知,本申请提供了一种对文本内时间信息归一化的方法及装置,利用每个所述待归一化时间信息,确定所述待归一化时间信息对应的参考时间信息;根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。因此,本申请可利用待归一化时间信息自动发现对应的参考时间信息,然后将待归一化时间信息进行对归一化处理,无需用户自行查找推算,提高时间信息归一化的准确性。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的一种对文本内时间信息归一化的方法的流程图;
图2为图1中步骤12的流程图;
图3为本申请另一实施例提供的一种对文本内时间信息归一化的方法的流程图;
图4为本申请另一实施例提供的一种对文本内时间信息归一化的方法的流程图;
图5为本申请另一实施例提供的一种对文本内时间信息归一化的方法的流程图;
图6为本申请另一实施例提供的一种对文本内时间信息归一化的方法的流程图;
图7为本申请提供的一种对文本内时间信息归一化的装置的结构示意图;
图8为类型确定模块的结构示意图。
具体实施方式
第一方面,参见图1,本申请的一实施例提供了一种对文本内时间信息归一化的方法,包括如下步骤:
步骤11:获取文本中全部待归一化时间信息。
文本可以是doc格式文档、txt格式的文本文档或html文档等,抽取出文本中的时间信息,接着会针对文本中的时间信息进行辨识,筛选出待归一化时间信息,即相对时间信息或部分绝对时间信息。相对时间信息可为明天、今天、第二年等相对时间的文字描述,部分绝对时间信息可为15日8:00等不完整的绝对时间的文字描述。
获取文本中的待归一化时间信息具体由以下步骤实现:
(1)获取待抽取时间信息的文本。
(2)抽取所述文本中全部的候选时间信息,每一个所述候选时间信息至少具有一种语义用于表征时间。
每一个候选时间信息至少具有一种语义用于表征时间,也就是说,候选时间信息除了至少具有一种用于表征时间的语义之外,可能还具有表示其他含义的语义。例如,“三号”既可以表示某个日期,也可以表示一系列人事物中的某一个人事物的编号等。
抽取所述文本中全部的候选时间信息,可以采用构建正则表达式直接匹配的方式来抽取,也可以采用其他的方式。
在一种抽取候选时间信息的实现方式中,采用正则表达式直接与待抽取时间信息的文本进行匹配来抽取候选时间信息。在构建正则表达式时,正则表达式的特定字符串可以包括多种表现形式的时间信息。例如,“丁丑”、“午时”、“二更”等用天干地支的方式来表征时间信息的时间信息;“大寒”、“春分”、“夏至”等用节气来表征时间信息的时间信息;“国庆节”、“劳动节”等用节日来表征时间信息的时间信息;“唐朝”、“商周”、“太古时代”、“千禧年”等表示时代或朝代的时间信息;“每年”、“逐日”等表征固定间隔时间段的时间信息;以及“须臾”、“迩年”、“几十年”等表示模糊的时间段的时间信息等。
所抽取出的候选时间信息至少具有一种语义用于表征时间,也就是说,候选时间信息在文本中有可能表征时间,也有可能不表征时间,存在歧义。例如,当文本中“三号”这个候选时间信息的前一个字符为“男”时,“三号”在文本中表示一系列人事物中的某一个人事物的编号,而不表征时间。又例如,当文本中“7.6”这个候选时间信息的后一个字符为“元”、“克”、“米”等时,“7.6”在文中表示物的数量,而不表征时间。为此,在该步骤之后,通过以下的步骤来确定候选时间信息是否为表征时间的时间信息,消除歧义,从而准确地抽取出文本中的时间信息。
(3)确定各个候选时间信息在所述文本中分别对应的语义区域,所述语义区域包括候选时间信息及候选时间信息前后的预定数量个字符。
举例来说,对于待抽取时间信息的文本“她出生于一八一三年八月十五日,1893年8月15日,在她的八十寿辰时,周氏夫妇设宴为她祝寿。申时,宾客们就陆续到达周氏府邸。”,从文本2中抽取出的候选时间信息有:候选时间信息1“一八一三年八月十五日”、候选时间信息2“1893年8月15日”、候选时间信息3“辰时”、候选时间信息4“申时”。
假设,预设在文本中候选时间信息“辰时”的前1个字符以及候选时间信息“辰时”,构成与候选时间信息“辰时”对应的语义区域;预设在文本中候选时间信息“申时”的前1个字符以及候选时间信息“申时”,构成与候选时间信息“申时”对应的语义区域;预设在文本中“X年X月X日”格式的候选时间信息的语义区域为字符“年”之前的4个字符开始到字符“日”,则确定各个候选时间信息在待抽取时间信息的文本中分别对应的语义区域如下所示:
她出生于[一八一三年八月十五日],[1893年8月15日],在她的八十[寿辰时],周氏夫
语义区域1 语义区域2 语义区域3
妇设宴为她祝寿[。申时],宾客们就陆续到达周氏府邸。
语义区域4
(4)如果所述语义区域中不包含与候选时间信息相对应的第一预设字符串,则确定所述候选时间信息为时间信息,并输出所述时间信息。
此处的第一预设字符串,是指当候选时间信息与其属于同一语义区域时,候选时间信息不表征时间的字符串。即,当候选时间信息和与其对应的第一预设字符串属于同一语义区域时,候选时间信息不表征时间。不同的候选时间信息可以对应不同的第一预设字符串。当某一个候选时间信息所对应的第一预设字符串为空时,表示与该候选时间信息具有唯一的表征时间的语义,不存在歧义。
各个候选时间信息所对应的第一预设字符串,可以被预先保存在语料库中。该语料库中的第一预设字符串可以由过往经验累积得到,也可以通过其他方式生成。
例如,在生成某个候选时间信息所对应的第一预设字符串的一种实现方式中,可以首先选取预定数量且包含该候选时间信息的候选语句;然后从候选语句中筛选出选定语句,所述选定语句中该候选时间信息不表征时间;最后从选定语句中抽取出第一预设字符串,其中,第一预设字符串仅出现在选定语句中,而不出现在除选定语句之外的其他候选语句中。
将第一预设字符串,以及候选时间信息在文本中对应的语义区域中的文本,二者进行比对,如果语义区域中不包含与候选时间信息对应的第一预设字符串,则该候选时间信息在该待抽取时间信息的文本中是时间信息,也就是说该候选时间信息在待抽取时间信息的文本中表征时间。如果语义区域中包含与候选时间信息对应的第一预设字符串,则认为该候选时间信息在待抽取时间信息的文本中不表征时间,故而不是时间信息。
例如,沿用步骤(3)中的例子,预设与候选时间信息“辰时”对应的第一预设字符串是“寿”、“诞”中的任意一个;预设与候选时间信息“申时”对应的第一预设字符串为“引”;预设与“X年X月X日”格式的候选时间信息对应的第一预设字符串为空。
与“X年X月X日”格式的候选时间信息对应的第一预设字符串为空,故而可以确定候选时间信息1“一八一三年八月十五日”、候选时间信息2“1893年8月15日”是时间信息。
预设的与候选时间信息“辰时”对应的第一预设字符串是“寿”、“诞”中的任意一个,通过比对可知,语义区域3中包含候选时间信息3“辰时”对应的第一字符串“寿”,因此,在待抽取时间信息的文本2中,候选时间信息3“辰时”不是时间信息。
预设的与候选时间信息“申时”对应的第一预设字符串为“引”,通过比对可知,语义区域4中不包含候选时间信息4“申时”对应的第一字符串“引”,因此,在待抽取时间信息的文本2中,候选时间信息4“申时”是时间信息。
最后,输出时间信息“一八一三年八月十五日”、“1893年8月15日”、“申时”。
上述技术方案中的抽取时间信息的方法,首先获取待抽取时间信息的文本,从文本中抽取全部的候选时间信息。其中,每一个候选时间信息至少具有一种语义用于表征时间,也就是说候选时间信息在文本中有可能是表征时间的时间信息,也有可能不是表征时间的时间信息。然后通过确定各个候选时间信息在文本中分别对应的语义区域,再判断语义区域中是否包含与候选时间信息相对应的第一预设字符串,从而确定候选时间信息在文本中是不是时间信息,消除了歧义。最后输出时间信息,完成从文本中抽取时间信息的过程。
(5)对输出的时间信息进行筛选,得到待归一化时间信息,即相对时间信息或部分绝对时间信息。
步骤12:确定每个所述待归一化时间信息的类型。
步骤13:利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息。
步骤14:根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。
由以上技术方案可知,本申请提供了一种对文本内时间信息归一化的方法,利用每个所述待归一化时间信息,确定所述待归一化时间信息对应的参考时间信息;根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。因此,本申请可利用待归一化时间信息自动发现对应的参考时间信息,然后将待归一化时间信息进行对归一化处理,无需用户自行查找推算,提高时间信息归一化的准确性。
具体地,待归一化时间信息的类型包括相对时间类和部分绝对时间类,并参见图2,在本申请的另一实施例中,上述步骤12具体包括如下步骤:
步骤21:获取所述相对时间类和部分绝对时间类分别对应的匹配表达式。
匹配表达式可为正则表达式,正则表达式是一种正规的描述字符串模式的表达式,可以用来进行文本匹配,具体为在给定的文本信息中查找与给定的正则表达式相匹配的部分。例如,相对时间类对应的正则表达式为“第{1}(日|月|年)”,部分绝对时间类对应的正则表达式为“^\d{4}年\d{1,2}月$”。
步骤22:将所述相对时间类和部分绝对时间类分别对应的匹配表达式逐一与每个所述待归一化时间信息进行匹配。
步骤23:将与所述相对时间类对应的匹配表达式相匹配的待归一化时间信息确定为相对时间信息。
步骤24:将所述部分绝对时间类对应的匹配表达式相匹配的待归一化时间信息确定为部分绝对时间信息。
在本申请中,待归一化时间信息为相对时间信息或者部分绝对时间信息,并且根据待归一化时间信息确定对应的参考时间信息的方式可为用户自行设置或者向前自动搜索的规则进行确定,经两两组合,可出现四种情况,具体地实现方式,如下所述。
参见图3,当待归一化时间信息为相对时间信息,根据待归一化时间信息确定对应的参考时间信息的方式可向前自动搜索的规则进行确定时,本申请的另一实施例提供了一种文本内时间信息归一化的方法,包括如下步骤:
步骤31:获取文本中全部待归一化时间信息,所述待归一化时间信息为相对时间信息。
步骤32:从每个所述待归一化时间信息的位置开始向前搜索,将搜索到距离所述待归一化时间信息最近且为所述第一目标时间级对应的绝对时间词确定为参考时间信息,所述第一目标时间级为所述待归一化时间信息所属的时间级。
时间级以时间单位进行划分,具体分为年、月、日、时、分和秒等,时间级由高到低的排列顺序为年、月、日、时、分和秒。具体地,例如,“15日”与“今日”的时间级相同。
上述向前搜索的规则可由以下例子进行具体地描述,文本为“今年的春节是18年2月4日。他买了18年2月2日的火车票回家过节,吃了顿年夜饭,第二天就走了。”首先,获取文本中的相对时间信息为“第二天”,从该相对时间信息的位置开始向前搜索,搜索到距离该相对是时间信息最近且与该相对时间信息属于同一时间级的绝对时间词语是“2日”,则将“2日”确定为“第二天”的参考时间信息。
步骤33:根据所述待归一化时间信息对应的参考时间信息,将所述待归一化时间信息转换为第一绝对时间信息。
继续以上例为例,相对时间信息是“第二天”,对应的参考时间信息是“2日”,根据语义公式“rep:Td1+([一二三四五六七八九十两\d][日])”计算出第一绝对时间信息为“3日”。
步骤34:判断所述待归一化时间信息之后是否连接低于所述第一目标时间级的时间级对应的时间词,如果有,则执行步骤25;如果没有,则执行步骤26。
步骤35:将所述时间词保留,且与所述第一绝对时间信息组成第二绝对时间信息。
如果相对时间信息之后连有低于该相对时间信息所属时间级的时间级对应的时间词,需要将该时间词保留,并且与该相对时间信息所转换的第一绝对时间信息组合成为第二绝对时间信息,以确保归一化的时间的完整性。例如“当天下午3点”,相对时间信息“当天”之后连接有“下午3点”,且“下午3点”的时间级低于“当天”的时间级,将“下午3点”进行保留,并且与第一绝对时间信息“3日”组成第二绝对时间信息为“3日下午3点”。
可选地,本实施例可以对“3日下午3点”继续进行转换,转换为二十四小时制的时间格式,以方便用户查看。具体地,工作人员可设置匹配表达式为“(当天|当日)(下午|晚上|傍晚|晚|半夜|夜里)([一二三四五六七八九十两\d]|(十一|十二|10|11|12))[时点]([一二三四五六七八九十零两\d]+”,对应的语义公式为“rep:Td#Th12+([一二三四五六七八九十两\d]|(十一|十二|10|11|12))[时点]([一二三四五六七八九十零两\d]+分)?(许|多|左右)?”,将与该匹配表达式相匹配的第二绝对时间信息,利用对应的语义公式进行转换,得到转换后的第二绝对时间信息为“3日15时”。
步骤36:将所述第一绝对时间信息确定为第二绝对时间信息。
步骤37:从所述参考时间信息开始向前搜索,将搜索到距离所述参考时间信息最近且为所述第二目标时间级对应的绝对时间词与所述第二绝对时间信息进行拼接,将拼接得到的时间信息确定为第二时间绝对信息,并且重复执行向前搜索和拼接的步骤,直至搜索到首次出现的句号为止,得到相应的归一化时间信息,所述第二目标时间级为第二绝对时间信息中最高时间级的上一时间级。
具体地以上述文本为例,文本为“今年的春节是18年2月4日。他买了18年2月2日的火车票回家过节,吃了顿年夜饭,第二天就走了。”,经步骤23和步骤24之后,得到的参考时间信息为“2日”和第二绝对时间信息为“3日”,以参考时间信息为“2日”的位置开始向前搜索,搜索到距离“2日”最近且为“2日”的时间级上一时间级的绝对时间词为“2月”,将“2月”与“3日”进行拼接,得到新的第二绝对时间信息“2月3日”,然后重复向前搜索的步骤,搜索到“18年”为距离参考时间信息最近且是“2月3日”中最高时间级“月”的上一时间级的绝对时间词,再将“18年”与“2月3日”进行拼接,得到新的第二绝对时间信息“18年2月3日”,之后继续重复向前搜索的步骤,直至搜索到第一次出现的句号为止,得到了最终的归一化时间信息为“18年2月3日”。
将向前搜索的范围确定在参考时间信息所在的句子,可避免长文本中搜索不到符合要求的绝对时间词而导致计算错误,提高归一化的准确性。
参见图4,当所述待归一化时间信息为相对时间信息,根据待归一化时间信息确定对应的参考时间信息的方式由用户进行设置时,本申请的另一实施例提供了一种文本内时间信息归一化的方法,包括如下步骤:
步骤41:获取文本中全部待归一化时间信息,所述待归一化时间信息为相对时间信息。
步骤42:获取用户根据每个所述待归一化时间信息设置的对应的绝对时间信息。
步骤43:将所述绝对时间信息确定为相应的参考时间信息。
步骤44:根据所述参考时间信息中第三目标时间级对应的时间词,将对应的待归一化时间信息转换为第三绝对时间信息,所述第三目标时间级为所述待归一化时间信息所属的时间级。
举例说明,以文本为“昨日,发表重要讲话。”,文本中的相对时间信息为“昨日”;用户设置的绝对时间信息,即参考时间信息为“2019年1月3日08:29”,在参考时间信息中与“昨日”所属同一时间级的时间词为“3日”,根据语义公式计算出第三绝对时间信息为“2日”。
步骤45:判断所述待归一化时间信息之后是否连有低于所述第三目标时间级的时间级对应的时间词,如果有,则执行步骤36;如果没有,则执行步骤37。
步骤46:将所述时间词保留,且与所述第三绝对时间信息组成第四绝对时间信息。
该步骤与上一实施例中步骤35相同,不再赘述。
步骤47:将所述第三绝对时间信息确定为第四绝对时间信息。
步骤48:将所述参考时间信息中第四目标时间级对应的时间词与第四绝对时间信息进行拼接,将拼接后的时间信息确定为第四绝对时间信息,并重复拼接的步骤,直至参考信息中最高时间级对应的时间词完成拼接为止,得到相应的归一化时间信息,所述第四目标时间级为第四绝对时间信息中最高时间级的上一时间级。
继续以上例为例,将参考时间信息中第四绝对时间信息“2日”中最高时间级的上一时间级对应的时间词“1月”与第四绝对时间信息“2日”进行拼接,得到新的第四绝对时间信息“1月2日”,其最高时间级为“月”,再将参考时间信息中“月”的上一时间级对应的时间词“2019年”与新的第四绝对时间信息“1月2日”进行拼接,以此类推,重复执行该拼接的过程,直至参考信息中最高时间级对应的时间词完成拼接为止,最后得到的归一化时间为信息为“2019年1月2日”。
参见图5,当待归一化时间信息为部分绝对时间信息,根据待归一化时间信息确定对应的参考时间信息的方式可向前自动搜索的规则进行确定时,本申请的另一实施例提供了一种文本内时间信息归一化的方法,包括如下步骤:
步骤51:获取文本中全部待归一化时间信息,所述待归一化时间信息为部分绝对时间信息。
步骤52:所述从每个所述待归一化时间信息的位置开始向前搜索,将搜索到距离所述待归一化时间信息最近且为所述第五目标时间级的上一时间级对应的绝对时间词确定为参考时间信息,所述第五目标时间级为所述待归一化时间信息中最高时间级。
具体举例说明,以文本为“今年的春节是18年2月4日。他买了2月2日的火车票回家过节,吃了顿年夜饭,第二天就走了。”其中部分绝对时间信息,即待归一化时间信息为“2月2日”,其最高时间级为月,从文本中待归一化时间信息的位置开始向前搜索,搜索到距离该待归一化是时间信息且月的上一时间级对应的时间词为“18年”,则将“18年”确定为参考时间信息。
步骤53:将所述参考时间信息与待归一时间信息进行拼接,得到第五绝对时间信息。
继续以上例为例,将参考时间信息“18年”与待归一化时间信息“2月2日”进行拼接,得到第五绝对时间信息“18年2月2日”。
步骤54:从所述参考时间信息开始向前搜索,将搜索到距离所述参考时间信息最近且为所述第六目标时间级对应的绝对时间词与所述第五绝对时间信息进行拼接,将拼接得到的时间信息确定第五绝对时间信息,并且重复执行向前搜索和拼接的步骤,直至搜索到首次出现的句号为止,得到相应的归一化时间信息,所述第六目标时间级为所述第五绝对时间信息中最高时间级的上一时间级。
该步骤与上一实施例中步骤37相同,不再赘述。
参见图6,当所述待归一化时间信息为部分绝对时间信息,根据待归一化时间信息确定对应的参考时间信息的方式由用户进行设置时,本申请的另一实施例提供了一种文本内时间信息归一化的方法,包括如下步骤:
步骤61:获取文本中全部待归一化时间信息,所述待归一化时间信息为部分绝对时间信息。
步骤62:获取用户根据每个所述待归一化时间信息设置的对应的绝对时间信息。
步骤63:将所述绝对时间信息确定为相应的参考时间信息。
步骤64:将所述参考时间信息中第七目标时间级对应的时间词与待归一化时间信息进行拼接,将拼接后的时间信息确定为待归一化时间信息,并重复拼接的步骤,直至参考信息中最高时间级对应的时间词完成拼接为止,得到相应的归一化时间信息,所述第七目标时间级为所述待归一化时间信息中最高时间级的上一时间级。
举例说明,以文本为“1月2日,发表重要讲话。”,文本中的部分绝对时间信息为“1月2日”,其最高时间级为月;用户设置的绝对时间信息,即参考时间信息为“2019年1月3日08:29”。参考时间信息中月的上一时间级对应的词为“2018年”,则将“2018年”与“1月2日”进行拼接,然后重复上述拼接的过程,直至参考信息中最高时间级对应的时间词完成拼接为止,最后得到的归一化时间信息为“2018年1月2日”。
在另一实施例中,上述归一化处理之后还包括如下步骤:
如果所述归一化时间信息内包含部分年份时间词,则对所述部分年份时间词进行补全处理,得到完整年份时间词。
对得到的归一化时间信息内不完整的年份时间词进行自动补全,例如,归一化时间信息为“18年2月2日”,由于年份的时间词不完整,因此,对年份进行补全,最后得到“2018年2月2日”,以进一步提高归一化的准确性。
参见图7,第二方面,本申请提供了一种对文本内时间信息归一化的装置,所述装置包括:
获取模块71,用于获取文本中全部待归一化时间信息;
类型确定模块72,用于每个所述待归一化时间信息的类型;
参考时间确定模块73,用于利用每个所述待归一化时间信息和所述的类型,确定所述待归一化时间信息对应的参考时间信息;
归一化处理模块74,用于根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。
由以上技术方案可知,本申请提供了一种对文本内时间信息归一化的装置,利用每个所述待归一化时间信息,确定所述待归一化时间信息对应的参考时间信息;根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息。因此,本申请可利用待归一化时间信息自动发现对应的参考时间信息,然后将待归一化时间信息进行对归一化处理,无需用户自行查找推算,提高时间信息归一化的准确性。
具体地,所述待归一化时间信息的类型包括相对时间类和部分绝对时间类,并参见图8,所述类型确定模块包括:
获取单元81,用于获取所述相对时间类和部分绝对时间类分别对应的匹配表达式;
匹配单元82,用于将所述相对时间类和部分绝对时间类分别对应的匹配表达式逐一与每个所述待归一化时间信息进行匹配;
相对时间信息确定单元83,用于将与所述相对时间类对应的匹配表达式相匹配的待归一化时间信息确定为相对时间信息;
部分绝对时间信息确定单元84,用于将所述部分绝对时间类对应的匹配表达式相匹配的待归一化时间信息确定为部分绝对时间信息。
本领域的技术人员可以清楚地了解到本申请实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请实施例中的技术方案本质上或者或对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以似的一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分可相互参见即可,每个实施例重点说明的都是与其他实施例的不同之处,尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (6)

1.一种对文本内时间信息归一化的方法,其特征在于,所述方法包括:
获取文本中全部待归一化时间信息;
获取所述相对时间类和部分绝对时间类分别对应的匹配表达式;
将所述相对时间类和部分绝对时间类分别对应的匹配表达式逐一与每个所述待归一化时间信息进行匹配;
将与所述相对时间类对应的匹配表达式相匹配的待归一化时间信息确定为相对时间信息;
将所述部分绝对时间类对应的匹配表达式相匹配的待归一化时间信息确定为部分绝对时间信息;
利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息;
根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息;
其中,当所述待归一化时间信息为相对时间信息时,所述利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息包括:
从每个所述待归一化时间信息的位置开始向前搜索,将搜索到距离所述待归一化时间信息最近且为所述第一目标时间级对应的绝对时间词确定为参考时间信息,所述第一目标时间级为所述待归一化时间信息所属的时间级;
所述根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息包括:
根据所述待归一化时间信息对应的参考时间信息,将所述待归一化时间信息转换为第一绝对时间信息;
判断所述待归一化时间信息之后是否连有低于所述第一目标时间级的时间级对应的时间词,如果有,则将所述时间词保留,且与所述第一绝对时间信息组成第二绝对时间信息;如果没有,则将所述第一绝对时间信息确定为第二绝对时间信息;
从所述参考时间信息开始向前搜索,将搜索到距离所述参考时间信息最近且为所述第二目标时间级对应的绝对时间词与所述第二绝对时间信息进行拼接,将拼接得到的时间信息确定为第二时间绝对信息,并且重复执行向前搜索和拼接的步骤,直至搜索到首次出现的句号为止,得到相应的归一化时间信息,所述第二目标时间级为第二绝对时间信息中最高时间级的上一时间级。
2.如权利要求1所述的方法,其特征在于,当所述待归一化时间信息为相对时间信息时,所述利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息包括:
获取用户根据每个所述待归一化时间信息设置的对应的绝对时间信息;
将所述绝对时间信息确定为相应的参考时间信息;
所述根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息包括:
根据所述参考时间信息中第三目标时间级对应的时间词,将对应的待归一化时间信息转换为第三绝对时间信息,所述第三目标时间级为所述待归一化时间信息所属的时间级;
判断所述待归一化时间信息之后是否连有低于所述第三目标时间级的时间级对应的时间词,如果有,则将所述时间词保留,且与所述第三绝对时间信息组成第四绝对时间信息;如果没有,则将所述第三绝对时间信息确定为第四绝对时间信息;
将所述参考时间信息中第四目标时间级对应的时间词与第四绝对时间信息进行拼接,将拼接后的时间信息确定为第四绝对时间信息,并重复拼接的步骤,直至参考信息中最高时间级对应的时间词完成拼接为止,得到相应的归一化时间信息,所述第四目标时间级为第四绝对时间信息中最高时间级的上一时间级。
3.如权利要求1所述的方法,其特征在于,当所述待归一化时间信息为部分绝对时间信息时,所述利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息包括:
从每个所述待归一化时间信息的位置开始向前搜索,将搜索到距离所述待归一化时间信息最近且为所述第五目标时间级的上一时间级对应的绝对时间词确定为参考时间信息,所述第五目标时间级为所述待归一化时间信息中最高时间级;
所述根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息包括:
将所述参考时间信息与待归一时间信息进行拼接,得到第五绝对时间信息;
从所述参考时间信息开始向前搜索,将搜索到距离所述参考时间信息最近且为所述第六目标时间级对应的绝对时间词与所述第五绝对时间信息进行拼接,将拼接得到的时间信息确定第五绝对时间信息,并且重复执行向前搜索和拼接的步骤,直至搜索到首次出现的句号为止,得到相应的归一化时间信息,所述第六目标时间级为所述第五绝对时间信息中最高时间级的上一时间级。
4.如权利要求1所述的方法,其特征在于,当所述待归一化时间信息为部分绝对时间信息时,所述利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息包括:
获取用户根据每个所述待归一化时间信息设置的对应的绝对时间信息;
将所述绝对时间信息确定为相应的参考时间信息;
所述根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息包括:
将所述参考时间信息中第七目标时间级对应的时间词与待归一化时间信息进行拼接,将拼接后的时间信息确定为待归一化时间信息,并重复拼接的步骤,直至参考信息中最高时间级对应的时间词完成拼接为止,得到相应的归一化时间信息,所述第七目标时间级为所述待归一化时间信息中最高时间级的上一时间级。
5.如权利要求1-3任一项所述的方法,其特征在于,所述得到相应的归一化时间信息之后还包括:
如果所述归一化时间信息内包含部分年份时间词,则对所述部分年份时间词进行补全处理,得到完整年份时间词。
6.一种对文本内时间信息归一化的装置,其特征在于,所述装置包括:
获取模块,用于获取文本中全部待归一化时间信息;
类型确定模块,用于每个所述待归一化时间信息的类型;所述待归一化时间信息的类型包括相对时间类和部分绝对时间类;
参考时间确定模块,用于利用每个所述待归一化时间信息和所属的类型,确定所述待归一化时间信息对应的参考时间信息;
归一化处理模块,用于根据每个所述待归一化时间信息和对应的参考时间信息,将每个所述待归一化时间信息进行归一化处理,得到相应的归一化时间信息;
所述类型确定模块包括:
获取单元,用于获取所述相对时间类和部分绝对时间类分别对应的匹配表达式;
匹配单元,用于将所述相对时间类和部分绝对时间类分别对应的匹配表达式逐一与每个所述待归一化时间信息进行匹配;
相对时间信息确定单元,用于将与所述相对时间类对应的匹配表达式相匹配的待归一化时间信息确定为相对时间信息;
部分绝对时间信息确定单元,用于将所述部分绝对时间类对应的匹配表达式相匹配的待归一化时间信息确定为部分绝对时间信息;
当所述待归一化时间信息为相对时间信息时,所述确定模块包括:
第一向前搜索单元,用于从每个所述待归一化时间信息的位置开始向前搜索,将搜索到距离所述待归一化时间信息最近且为所述第一目标时间级对应的绝对时间词确定为参考时间信息,所述第一目标时间级为所述待归一化时间信息所属的时间级;
所述归一化处理模块包括:
第一转换单元,用于根据所述待归一化时间信息对应的参考时间信息,将所述待归一化时间信息转换为第一绝对时间信息;
第一判断单元,用于判断所述待归一化时间信息之后是否连有低于所述第一目标时间级的时间级对应的时间词,如果有,则将所述时间词保留,且与所述第一绝对时间信息组成第二绝对时间信息;如果没有,则将所述第一绝对时间信息确定为第二绝对时间信息;
第二向前搜索单元,用于从所述参考时间信息开始向前搜索,将搜索到距离所述参考时间信息最近且为所述第二目标时间级对应的绝对时间词与所述第二绝对时间信息进行拼接,将拼接得到的时间信息确定为第二时间绝对信息,并且重复执行向前搜索和拼接的步骤,直至搜索到首次出现的句号为止,得到相应的归一化时间信息,所述第二目标时间级为第二绝对时间信息中最高时间级的上一时间级。
CN201910127364.9A 2019-02-20 2019-02-20 一种对文本内时间信息归一化的方法及装置 Active CN109885659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910127364.9A CN109885659B (zh) 2019-02-20 2019-02-20 一种对文本内时间信息归一化的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910127364.9A CN109885659B (zh) 2019-02-20 2019-02-20 一种对文本内时间信息归一化的方法及装置

Publications (2)

Publication Number Publication Date
CN109885659A CN109885659A (zh) 2019-06-14
CN109885659B true CN109885659B (zh) 2022-12-16

Family

ID=66928682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910127364.9A Active CN109885659B (zh) 2019-02-20 2019-02-20 一种对文本内时间信息归一化的方法及装置

Country Status (1)

Country Link
CN (1) CN109885659B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111027319A (zh) * 2019-10-30 2020-04-17 平安科技(深圳)有限公司 自然语言时间词的解析方法、装置和计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227227A (ja) * 2003-01-22 2004-08-12 Canon Inc 情報検索装置
CN107608949A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN107729480A (zh) * 2017-10-16 2018-02-23 北京神州泰岳软件股份有限公司 一种限定区域的文本信息抽取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227227A (ja) * 2003-01-22 2004-08-12 Canon Inc 情報検索装置
CN107608949A (zh) * 2017-10-16 2018-01-19 北京神州泰岳软件股份有限公司 一种基于语义模型的文本信息抽取方法及装置
CN107729480A (zh) * 2017-10-16 2018-02-23 北京神州泰岳软件股份有限公司 一种限定区域的文本信息抽取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向智能服务系统的时间语义理解;贾圣宾等;《计算机应用》;20180310(第03期);全文 *

Also Published As

Publication number Publication date
CN109885659A (zh) 2019-06-14

Similar Documents

Publication Publication Date Title
CN107818085B (zh) 阅读机器人进行阅读理解的答案选择方法及系统
CN107729314B (zh) 一种中文时间识别方法、装置及存储介质、程序产品
CN112528041B (zh) 一种基于知识图谱的调度用语规范验证方法
RU2692427C1 (ru) Система определения интереса, способ определения интереса и носитель информации
Bjarnadóttir The database of modern Icelandic inflection (Beygingarlýsing íslensks nútímamáls)
EP2919097A1 (en) Information processing system and information processing method for character input prediction
CN111489746B (zh) 一种基于bert的电网调度语音识别语言模型构建方法
US10546065B2 (en) Information extraction apparatus and method
CN111369980A (zh) 语音检测方法、装置、电子设备及存储介质
Jain et al. “UTTAM” An Efficient Spelling Correction System for Hindi Language Based on Supervised Learning
CN109885659B (zh) 一种对文本内时间信息归一化的方法及装置
CN107894978B (zh) 时间词的抽取方法及装置
Bigeard et al. Introducing sign languages to a multilingual wordnet: Bootstrapping corpora and lexical resources of Greek Sign Language and German Sign Language
CN112632975B (zh) 上下游关系的抽取方法、装置、电子设备及存储介质
CN108920500A (zh) 一种时间解析方法
CN108920452B (zh) 一种信息处理方法及装置
Lay et al. Myanmar named entity recognition with Hidden Markov Model
CN104331397A (zh) 一种机器翻译方法及系统
CN113553410A (zh) 长文档处理方法、处理装置、电子设备和存储介质
Singh et al. Context-based deep learning approach for named entity recognition in hindi
CN113901793A (zh) 结合rpa和ai的事件抽取方法及装置
Dušek et al. Alex: Bootstrapping a spoken dialogue system for a new domain by real users
Akeel et al. Divergence and ambiguity control in an English to Arabic machine translation
CN111143506B (zh) 话题内容的排序方法、装置、服务器及存储介质
US12019681B2 (en) Identifying objects based on free-form text description

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant