CN115203494A - 一种面向文本的时间信息抽取方法及装置 - Google Patents
一种面向文本的时间信息抽取方法及装置 Download PDFInfo
- Publication number
- CN115203494A CN115203494A CN202210837064.1A CN202210837064A CN115203494A CN 115203494 A CN115203494 A CN 115203494A CN 202210837064 A CN202210837064 A CN 202210837064A CN 115203494 A CN115203494 A CN 115203494A
- Authority
- CN
- China
- Prior art keywords
- time
- feature
- numerical
- characteristic
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种面向文本的时间信息抽取方法及装置,该方法包括:初始化计算环境;接收输入的文本串及文本串所用的语言类型,根据语言类型选取合适时间语素插件,并对文本串进行特征抽取,将输入的文本串转换为一组有序的特征序列;扫描特征序列,将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示;依次扫描特征序列,查看是否存在两个数值的”特征距离<5并且字符距离<16”;若发现符合条件的两个数值特征,记录其为一个特征段等;本发明在文本串的特定情况下提取时间信息拥有明显的效率优势,且对国际化有很好的支持。
Description
技术领域
本发明涉及一种面向文本的时间信息抽取方法及装置,属于计算机时间信息解析技术领域。
背景技术
时间信息解析是自然语言理解的基础技术之一,在数据处理领域中存在广泛的应用需求。
在我们的日常生活中搜索引擎的网络爬虫在爬取到新闻后,需要提取其中的题目、作者、发文时间、正文等内容;题目、作者、正文等信息在正确定位信息位置后,便可提取。但是发文时间信息除能正确定位外,还需要能正确的解析并将其格式化后才能够使用;其相对其它几项信息而言有一定的格式规律,即主要由年、月、日、时、分、秒6个要素组成(注:其它时间要素如季度,星期几等可由这6要素推算出,至于更细粒度的时间如毫秒、微秒等只在特定有精度要求的领域会使用到,暂不做考虑。),但其格式组合情况十分多样,难以穷举。尤其是在全球互联网的应用中,不同的语言环境有不同的书写习惯,不同的语言表达方式,即便是在同一语言环境下也存在诸多的格式变化。如:“2020-07-2713:15:00”,中文环境里可被描述为“2020年7月27日13时15分”,也可描述为“2020年7月27日下午1:15”;英文环境中可被描述为“July 27,20201:15PM”、“27/7/2013:15:00”、“27/7/202013:15:00”等;西班牙语环境为“27dejulio de 2020,13:15PM”等;俄语环境为“27июль2020,13:15”等。更有些应用环境里只有日期如:“2020-07-27”或者是只标注了发文的时/分信息如“13:15”,在只标注了时/分信息的语境中,一般特指当天,这类信息需要进行时间补足。也有些情况下,时间信息会被标注为“Yesterday 13:15”、“前天13:15”等,这样的相对时间类型也需要进行翻译解析。
目前绝大多数面向文本的时间定位与抽取技术都是构建在正则表达式的基础上的。该类技术通过预制多个不同的时间表达式来定位与抽取文本中的时间,正则表达式将整个时间信息作为一个整体进行匹配,若时间信息有一点不符合正则表达式,则匹配无法命中。在实际应用时,为尽可能地找到不同格式的时间信息,会尝试用不同的正则表达式对文本进行扫描,直到获得有效的时间信息。若无法获得有效时间信息,且文本中存在时间信息,则扩展正则表达式,使其能够适应当前文本中的时间格式。该技术通过扩展正则表达式的方式来满足不同时间格式的定位与解析需求。该类技术基本是一个穷举式的方法,每一次尝试用一个正则表达式对文本进行扫描,当需要尝试多个表达式时,就需要对文本进行多次扫描,即使对表达式采用了诸如按权重等的管理优化方式,也无法大幅提升算法的速度。另外,由于时间表述的自由度很高,很难穷举时间的正则表达式。故该类方法存在一定的缺陷。
一种文本中时间信息的处理方法(专利申请号:CN108549694A)。该专利提出了一种基于树形序列规则的时间解析方法。其对文本进行分词,并对所分词按照预设的映射表进行标记,随后将标记序列与规则树中的规则进行匹配。在匹配命中某规则后,利用规则记录的运算符推导计算出时间。该专利主要应用于中文语境,其中其根据中文语义抽象定义了大量运算符及运算规则。能够有效的适应中文环境中的时间描述,但对于计算机标准化时间其专利中描述仍会使用正则表达式匹配,则其也会遇到上述采用正则表达式方法描述到的问题。另外,其并未将时间的表达理解为统一表达,区分了机读标准时间表达、中文描述时间表达,这也限制了其支持其他语言时间表达的友好性。
面对如此多样的时间格式,在海量文本中有效的发现并正确的识别时间就变的非常困难,因此必须提供自动化的抽取方法来解决此类问题。
发明内容
针对上述现有技术存在的问题,本发明提供一种面向文本的时间信息抽取方法及装置,将时间的文本格式认知为时间6要素的数值与时间语素的自由组合关系,采用了时间语素插件来扩展对不同语言环境中时间的表达的差异,因此对时间串的国际表达也有良好的支持。
为了实现上述目的,本发明采用的技术方案是:
第一方面,本申请提供一种面向文本的时间信息抽取方法及装置,包括以下步骤:
S1、初始化计算环境;
S2、接收输入的文本串及文本串所用的语言类型,根据语言类型选取合适时间语素插件,并对文本串进行特征抽取,将输入的文本串转换为一组有序的特征序列;
S3、扫描特征序列,将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示;
S4、依次扫描特征序列,查看是否存在两个数值的”特征距离<5并且字符距离<16”;若发现符合条件的两个数值特征,记录其为一个特征段;若特征序列扫描完成,跳到步骤9;
其中:
所述的特征距离具体指两个特征间相隔的特征的个数;
所述的字符距离具体指两个特征间相隔特征的字符的个数;
S5、对特征段中的数值特征进行校验,检测其是否符合时间值范围;如符合时间值特征转入步骤6,不符合则转回步骤S4;
S6、判断特征段是否为时、分、秒格式,即两个数值特征间的特征是否符合时、分、秒格式中的时间语素;其若特征段符合时、分、秒格式则转入步骤S7,否则转入步骤S8;
S7、以特征段的首个数值特征为起点,在特征序列中依据时间语素依次解析;
其中:所述的解析具体为提取时、分、秒的数值信息及上下午信息,将时间转换为标准时间格式并标记时间的准确度;
然后将转换后的时间对象加入队列,并跳转到步骤4;
S8、判断特征段是否为日期格式,即两个数值特征间的特征是否符合日期相关的时间语素;将时间对象加入队列并跳转到步骤4;若无有效时间信息,则直接跳转到步骤4。
S9、返回解析到的时间对象序列;时间对象序列中的每个时间对象都包含其准确程度的说明,后续处理时可参考准确程度进行时间对象的取舍。
一实施例中,一种面向文本的时间信息抽取方法还包括:初始化计算环境具体为语素插件管理器装载所有时间语素插件,并建立语言与时间语素插件的关系。
一实施例中,一种面向文本的时间信息抽取方法还包括:步骤S2中的特征具体地包括:字符串特征、数值特征及符号特征三类。
一实施例中,一种面向文本的时间信息抽取方法还包括:步骤S8中的判断特征段是否为日期格式是以特征段为基础,前向后向延伸特征段,以求特征段内包含完整的时间信息;对特征段内的特征按照时间语素提取,包括:年、月、日、时、分、秒以及上、下午等;若能有效提取时间信息,将信息转换为标准时间格式并标记时间信息的准确度。
第二方面,本申请提供一种面向文本的时间信息抽取装置,包括:
特征解析器,其负责将文本串解析为一组有序的特征;
数值矫正器,其用于将不同语言中被识别为数值特征的特殊特征转换为由阿拉伯数字统一描述的数值特征;
时间定位器,其用于扫描有序特征集合,找到两个数值特征,特征距离小于5并且字符距离小于16的一段特征序列,并将其交由时间匹配与解析器进行解析;待时间匹配与解析器解析完成后,继续扫描特征集合,直至无法找出数值特征的特征距离小于5且字符距离小于16的一段特征的序列;
时间匹配与解析器,其用于对定位后的特征序列进行匹配及解析;
时间语素插件,其提供了指定时间语素的插件;
语素插件管理器,用于动态装载及管理世界各国语言对应的语素插件,为其他模块访问语素插件提供统一的接口;
所述的征解析器的特征主要分为三类:字符串特征、数值特征以及符号特征;字符串特征与词在某些语言情况下是统一的;对于特定语言拥有特定数字字符的,需要时间语素插件数字的识别判断;
所述的时间匹配与解析器该模块以当前特征序列为基础,前后延伸定量特征,组成新的特征段;对特征段进行时间表达式匹配,验证数值特征是否合法有效、验证字符串特征及符号特征是否为有效时间语素特征且位置是否合理。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现一种面向文本的时间信息抽取方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现一种面向文本的时间信息抽取方法的步骤。
由上述描述可知,本发明接收输入的文本串及文本串所用的语言类型,根据语言类型选取合适时间语素插件,并对文本串进行特征抽取,将输入的文本串转换为一组有序的特征序列;将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示;接着,将阿拉伯数字表示扫描,进行判断、校验;判断特征段是否为时、分、秒格式,即两个数值特征间的特征是否符合时、分、秒格式中的时间语素;再以特征段的首个数值特征为起点,在特征序列中依据时间语素依次解析;进行在判断,然后返回解析到的时间对象序列;时间对象序列中的每个时间对象都包含其准确程度的说明,后续处理时可参考准确程度进行时间对象的取舍。本发明在文本串的特定情况下提取时间信息拥有明显的效率优势,且对国际化有很好的支持。当文本中需要被抽取的时间信息,至少包括年、月、日、时、分、秒6个时间要素中的2个要素,且2个要素皆为数值型时,定位与解析时间信息有着明显的效率优势,算法复杂度为O(n)。本发明将时间的文本格式认知为时间6要素的数值与时间语素的自由组合关系,采用了时间语素插件来扩展对不同语言环境中时间的表达的差异,因此对时间串的国际表达也有良好的支持;本发明在现实应用中有着良好的表现。
附图说明
图1为本发明一种面向文本的时间信息抽取方法时间信息抽取过程流程图;
图2为本发明一种面向文本的时间信息抽取装置的结构图;
图3为本发明的实施例中的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明;但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。
除非另有定义,本文所使用的所有的技术术语和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同,本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明的实施例提供一种面向文本的时间信息抽取方法的具体实施方式,参见图1,该方法具体包括如下内容:一种面向文本的时间信息抽取方法,包括以下步骤:
S1、初始化计算环境;
S2、接收输入的文本串及文本串所用的语言类型,根据语言类型选取合适时间语素插件,并对文本串进行特征抽取,将输入的文本串转换为一组有序的特征序列;
S3、扫描特征序列,将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示;例如“一九八四”被转换为“1984”、“二”被转换为“2”、“廿三”被转换为“23”,其余不变。
S4、依次扫描特征序列,查看是否存在两个数值的”特征距离<5并且字符距离<16”;若发现符合条件的两个数值特征,记录其为一个特征段;若特征序列扫描完成,跳到步骤9;
其中:
所述的特征距离具体指两个特征间相隔的特征的个数;
所述的字符距离具体指两个特征间相隔特征的字符的个数;
S5、对特征段中的数值特征进行校验,检测其是否符合时间值范围;如符合时间值特征转入步骤6,不符合则转回步骤S4;
S6、判断特征段是否为时、分、秒格式,即两个数值特征间的特征是否符合时、分、秒格式中的时间语素;其若特征段符合时、分、秒格式则转入步骤S7,否则转入步骤S8;一般而言,在时间格式中,日期部分的变化比较多,而描述时、分、秒部分的变换相对较少。在上面多个例子中可以看到,时分秒部分的格式基本固定为“hh:mm:ss”,在类似中文语境下有“hh时mm分ss秒”的变化,但变化有限。故先判断特征是否为时分秒格式可得到较准的判断。另外,当匹配中该部分特征时,也说明这个时间格式没有日期部分,解析时可不考虑日期部分的解析。
S7、以特征段的首个数值特征为起点,在特征序列中依据时间语素依次解析;
其中:所述的解析具体为提取时、分、秒的数值信息及上下午信息,将时间转换为标准时间格式并标记时间的准确度;
然后将转换后的时间对象加入队列,并跳转到步骤4;
S8、判断特征段是否为日期格式,即两个数值特征间的特征是否符合日期相关的时间语素;经验证明,前向最多延伸3个特征,后向最多延伸14个特征可有效的将完整的时间信息囊括入特征段。将时间对象加入队列并跳转到步骤4;若无有效时间信息,则直接跳转到步骤4。
S9、返回解析到的时间对象序列;时间对象序列中的每个时间对象都包含其准确程度的说明,后续处理时可参考准确程度进行时间对象的取舍。
步骤S1中的初始化计算环境具体为语素插件管理器装载所有时间语素插件,并建立语言与时间语素插件的关系。
步骤S2中的特征具体地包括:字符串特征、数值特征及符号特征三类。如:“一九八四年二月廿三日下午14:00”将被转换为一九八四、年、二、月、廿三、日下午、14、:00九个特征,其中一九八四、二、廿三、14、00为数值特征;“:”为符号特征,其余为字符串特征。
步骤S8中的判断特征段是否为日期格式是以特征段为基础,前向后向延伸特征段,以求特征段内包含完整的时间信息;对特征段内的特征按照时间语素提取,包括:年、月、日、时、分、秒以及上、下午等;若能有效提取时间信息,将信息转换为标准时间格式并标记时间信息的准确度。
由上述描述可知,本发明接收输入的文本串及文本串所用的语言类型,根据语言类型选取合适时间语素插件,并对文本串进行特征抽取,将输入的文本串转换为一组有序的特征序列;将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示;接着,将阿拉伯数字表示扫描,进行判断、校验;判断特征段是否为时、分、秒格式,即两个数值特征间的特征是否符合时、分、秒格式中的时间语素;再以特征段的首个数值特征为起点,在特征序列中依据时间语素依次解析;进行在判断,然后返回解析到的时间对象序列;时间对象序列中的每个时间对象都包含其准确程度的说明,后续处理时可参考准确程度进行时间对象的取舍。本发明在文本串的特定情况下提取时间信息拥有明显的效率优势,且对国际化有很好的支持。当文本中需要被抽取的时间信息,至少包括年、月、日、时、分、秒6个时间要素中的2个要素,且2个要素皆为数值型时,定位与解析时间信息有着明显的效率优势,算法复杂度为O(n)。本发明将时间的文本格式认知为时间6要素的数值与时间语素的自由组合关系,采用了时间语素插件来扩展对不同语言环境中时间的表达的差异,因此对时间串的国际表达也有良好的支持;本发明在现实应用中有着良好的表现。
本发明的实施例提供一种面向文本的时间信息抽取方法的面向文本的时间信息抽取装置的具体实施方式,参见图2,一种面向文本的时间信息抽取装置,包括:
特征解析器,其负责将文本串解析为一组有序的特征;
数值矫正器,其用于将不同语言中被识别为数值特征的特殊特征转换为由阿拉伯数字统一描述的数值特征;
时间定位器,其用于扫描有序特征集合,找到两个数值特征,特征距离小于5并且字符距离小于16的一段特征序列,并将其交由时间匹配与解析器进行解析;待时间匹配与解析器解析完成后,继续扫描特征集合,直至无法找出数值特征的特征距离小于5且字符距离小于16的一段特征的序列;
时间匹配与解析器,其用于对定位后的特征序列进行匹配及解析;
时间语素插件,其提供了指定时间语素的插件;
语素插件管理器,用于动态装载及管理世界各国语言对应的语素插件,为其他模块访问语素插件提供统一的接口;
征解析器的特征主要分为三类:字符串特征、数值特征以及符号特征;字符串特征与词在某些语言情况下是统一的;如拉丁语系词语中,字符串特征与词是对应的;但在中文和日文等情况下,字符串特征与词没有明确对应关系,字符串特征可能是一个短语或半句话;数值特征即一组连续的数字组成的特征。对于特定语言拥有特定数字字符的,需要时间语素插件数字的识别判断;如:中文中的一、二、三、十、廿、百等字符也会被识别为数值特征;符号特征包括标点符号、数学符号等。
时间匹配与解析器该模块以当前特征序列为基础,前后延伸定量特征,组成新的特征段;对特征段进行时间表达式匹配,验证数值特征是否合法有效、验证字符串特征及符号特征是否为有效时间语素特征且位置是否合理。
由上述描述可知,本发明接收输入的文本串及文本串所用的语言类型,根据语言类型选取合适时间语素插件,并对文本串进行特征抽取,将输入的文本串转换为一组有序的特征序列;将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示;接着,将阿拉伯数字表示扫描,进行判断、校验;判断特征段是否为时、分、秒格式,即两个数值特征间的特征是否符合时、分、秒格式中的时间语素;再以特征段的首个数值特征为起点,在特征序列中依据时间语素依次解析;进行在判断,然后返回解析到的时间对象序列;时间对象序列中的每个时间对象都包含其准确程度的说明,后续处理时可参考准确程度进行时间对象的取舍。本发明在文本串的特定情况下提取时间信息拥有明显的效率优势,且对国际化有很好的支持。当文本中需要被抽取的时间信息,至少包括年、月、日、时、分、秒6个时间要素中的2个要素,且2个要素皆为数值型时,定位与解析时间信息有着明显的效率优势,算法复杂度为O(n)。本发明将时间的文本格式认知为时间6要素的数值与时间语素的自由组合关系,采用了时间语素插件来扩展对不同语言环境中时间的表达的差异,因此对时间串的国际表达也有良好的支持;本发明在现实应用中有着良好的表现。
本申请的实施例还提供能够实现上述实施例中的一种面向文本的时间信息抽取方法中全部步骤的一种电子设备的具体实施方式,参见图3,电子设备具体包括如下内容:
处理器(processor)、存储器(memory)、通信接口(CommunicationsInterface)和总线;
其中,处理器、存储器、通信接口通过总线完成相互间的通信。
处理器用于调用存储器中的计算机程序,处理器执行计算机程序时实现上述实施例中的种面向文本的时间信息抽取方法中的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤一:接收输入的文本串及文本串所用的语言类型。
步骤二:扫描特征序列,将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示。
步骤三:依次扫描特征序列,查看是否存在两个数值的”特征距离<5并且字符距离<16”。
步骤四:对特征段中的数值特征进行校验,检测其是否符合时间值范围。
步骤五:判断特征段是否为时、分、秒格式,即两个数值特征间的特征是否符合时、分、秒格式中的时间语素。
步骤六:以特征段的首个数值特征为起点,在特征序列中依据时间语素依次解析。
步骤七:判断特征段是否为日期格式,即两个数值特征间的特征是否符合日期相关的时间语素。
步骤八:返回解析到的时间对象序列。时间对象序列中的每个时间对象都包含其准确程度的说明,后续处理时可参考准确程度进行时间对象的取舍。
由上述描述可知,本发明接收输入的文本串及文本串所用的语言类型,根据语言类型选取合适时间语素插件,并对文本串进行特征抽取,将输入的文本串转换为一组有序的特征序列;将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示;接着,将阿拉伯数字表示扫描,进行判断、校验;判断特征段是否为时、分、秒格式,即两个数值特征间的特征是否符合时、分、秒格式中的时间语素;再以特征段的首个数值特征为起点,在特征序列中依据时间语素依次解析;进行在判断,然后返回解析到的时间对象序列;时间对象序列中的每个时间对象都包含其准确程度的说明,后续处理时可参考准确程度进行时间对象的取舍。本发明在文本串的特定情况下提取时间信息拥有明显的效率优势,且对国际化有很好的支持。当文本中需要被抽取的时间信息,至少包括年、月、日、时、分、秒6个时间要素中的2个要素,且2个要素皆为数值型时,定位与解析时间信息有着明显的效率优势,算法复杂度为O(n)。本发明将时间的文本格式认知为时间6要素的数值与时间语素的自由组合关系,采用了时间语素插件来扩展对不同语言环境中时间的表达的差异,因此对时间串的国际表达也有良好的支持;本发明在现实应用中有着良好的表现。
本申请的实施例还提供能够实现上述实施例中的一种面向文本的时间信息抽取方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的一种面向文本的时间信息抽取方法的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤一:接收输入的文本串及文本串所用的语言类型。
步骤二:扫描特征序列,将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示。
步骤三:依次扫描特征序列,查看是否存在两个数值的”特征距离<5并且字符距离<16”。
步骤四:对特征段中的数值特征进行校验,检测其是否符合时间值范围。
步骤五:判断特征段是否为时、分、秒格式,即两个数值特征间的特征是否符合时、分、秒格式中的时间语素。
步骤六:以特征段的首个数值特征为起点,在特征序列中依据时间语素依次解析。
步骤七:判断特征段是否为日期格式,即两个数值特征间的特征是否符合日期相关的时间语素。
步骤八:返回解析到的时间对象序列。时间对象序列中的每个时间对象都包含其准确程度的说明,后续处理时可参考准确程度进行时间对象的取舍。
由上述描述可知,本发明接收输入的文本串及文本串所用的语言类型,根据语言类型选取合适时间语素插件,并对文本串进行特征抽取,将输入的文本串转换为一组有序的特征序列;将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示;接着,将阿拉伯数字表示扫描,进行判断、校验;判断特征段是否为时、分、秒格式,即两个数值特征间的特征是否符合时、分、秒格式中的时间语素;再以特征段的首个数值特征为起点,在特征序列中依据时间语素依次解析;进行在判断,然后返回解析到的时间对象序列;时间对象序列中的每个时间对象都包含其准确程度的说明,后续处理时可参考准确程度进行时间对象的取舍。本发明在文本串的特定情况下提取时间信息拥有明显的效率优势,且对国际化有很好的支持。当文本中需要被抽取的时间信息,至少包括年、月、日、时、分、秒6个时间要素中的2个要素,且2个要素皆为数值型时,定位与解析时间信息有着明显的效率优势,算法复杂度为O(n)。本发明将时间的文本格式认知为时间6要素的数值与时间语素的自由组合关系,采用了时间语素插件来扩展对不同语言环境中时间的表达的差异,因此对时间串的国际表达也有良好的支持;本发明在现实应用中有着良好的表现。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
虽然本说明书实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书实施例的实施例而已,并不用于限制本说明书实施例。对于本领域技术人员来说,本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书实施例的权利要求范围之内。
Claims (7)
1.一种面向文本的时间信息抽取方法,其特征在于,包括以下步骤:
S1、初始化计算环境;
S2、接收输入的文本串及文本串所用的语言类型,根据语言类型选取合适时间语素插件,并对文本串进行特征抽取,将输入的文本串转换为一组有序的特征序列;
S3、扫描特征序列,将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示;
S4、依次扫描特征序列,查看是否存在两个数值的”特征距离<5并且字符距离<16”;若发现符合条件的两个数值特征,记录其为一个特征段;若特征序列扫描完成,跳到步骤9;
其中:
所述的特征距离具体指两个特征间相隔的特征的个数;
所述的字符距离具体指两个特征间相隔特征的字符的个数;
S5、对特征段中的数值特征进行校验,检测其是否符合时间值范围;如符合时间值特征转入步骤6,不符合则转回步骤S4;
S6、判断特征段是否为时、分、秒格式,即两个数值特征间的特征是否符合时、分、秒格式中的时间语素;其若特征段符合时、分、秒格式则转入步骤S7,否则转入步骤S8;
S7、以特征段的首个数值特征为起点,在特征序列中依据时间语素依次解析;
其中:所述的解析具体为提取时、分、秒的数值信息及上下午信息,将时间转换为标准时间格式并标记时间的准确度;
然后将转换后的时间对象加入队列,并跳转到步骤4;
S8、判断特征段是否为日期格式,即两个数值特征间的特征是否符合年、月、日格式中相关的时间语素;若符合特征将时间对象加入队列并跳转到步骤4;若无有效时间信息,则直接跳转到步骤4。
S9、返回解析到的时间对象序列;时间对象序列中的每个时间对象都包含其准确程度的说明,后续处理时可参考准确程度进行时间对象的取舍。
2.根据权利要求1所述的一种面向文本的时间信息抽取方法,其特征在于,所述的步骤S1中的初始化计算环境具体为语素插件管理器装载所有时间语素插件,并建立语言与时间语素插件的关系。
3.根据权利要求1所述的一种面向文本的时间信息抽取方法,其特征在于,所述的步骤S2中的特征具体地包括:字符串特征、数值特征及符号特征三类。
4.根据权利要求1所述的一种面向文本的时间信息抽取方法,其特征在于,所述的步骤S8中的判断特征段是否为日期格式是以特征段为基础,前向后向延伸特征段,以求特征段内包含完整的时间信息;对特征段内的特征按照时间语素提取,包括:年、月、日、时、分、秒以及上、下午等;若能有效提取时间信息,将信息转换为标准时间格式并标记时间信息的准确度。
5.一种面向文本的时间信息抽取装置,其特征在于,包括:
特征解析器,其负责将文本串解析为一组有序的特征;
数值矫正器,其用于将不同语言中被识别为数值特征的特殊特征转换为由阿拉伯数字统一描述的数值特征;
时间定位器,其用于扫描有序特征集合,找到两个数值特征,特征距离小于5并且字符距离小于16的一段特征序列,并将其交由时间匹配与解析器进行解析;待时间匹配与解析器解析完成后,继续扫描特征集合,直至无法找出数值特征的特征距离小于5且字符距离小于16的一段特征的序列;
时间匹配与解析器,其用于对定位后的特征序列进行匹配及解析;
时间语素插件,其提供了指定时间语素的插件;
语素插件管理器,用于动态装载及管理世界各国语言对应的语素插件,为其他模块访问语素插件提供统一的接口;
所述的征解析器的特征主要分为三类:字符串特征、数值特征以及符号特征;字符串特征与词在某些语言情况下是统一的;对于特定语言拥有特定数字字符的,需要时间语素插件数字的识别判断;
所述的时间匹配与解析器该模块以当前特征序列为基础,前后延伸定量特征,组成新的特征段;对特征段进行时间表达式匹配,验证数值特征是否合法有效、验证字符串特征及符号特征是否为有效时间语素特征且位置是否合理。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一所述面向文本的时间信息抽取方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4任一所述面向文本的时间信息抽取方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210837064.1A CN115203494A (zh) | 2022-07-15 | 2022-07-15 | 一种面向文本的时间信息抽取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210837064.1A CN115203494A (zh) | 2022-07-15 | 2022-07-15 | 一种面向文本的时间信息抽取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115203494A true CN115203494A (zh) | 2022-10-18 |
Family
ID=83582331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210837064.1A Pending CN115203494A (zh) | 2022-07-15 | 2022-07-15 | 一种面向文本的时间信息抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115203494A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116010627A (zh) * | 2023-03-28 | 2023-04-25 | 智慧眼科技股份有限公司 | 一种时间提取方法及系统 |
-
2022
- 2022-07-15 CN CN202210837064.1A patent/CN115203494A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116010627A (zh) * | 2023-03-28 | 2023-04-25 | 智慧眼科技股份有限公司 | 一种时间提取方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9633010B2 (en) | Converting data into natural language form | |
CN106843840B (zh) | 一种基于相似度分析的源代码版本演化注释复用方法 | |
CN111079408A (zh) | 一种语种识别方法、装置、设备及存储介质 | |
WO2006136055A1 (fr) | Procédé d'exploration de données texte | |
CN115203494A (zh) | 一种面向文本的时间信息抽取方法及装置 | |
CN116521621A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN109325217B (zh) | 一种文件转换方法、系统、装置及计算机可读存储介质 | |
CN114153496B (zh) | 一种基于区块链的高速可并行代码相似度对比方法和系统 | |
CN113419721B (zh) | 基于web的表达式编辑方法、装置、设备和存储介质 | |
Abuín et al. | Perldoop: Efficient execution of Perl scripts on Hadoop clusters | |
CN111026604B (zh) | 一种日志文件解析方法及装置 | |
CN117271478A (zh) | 数据迁移方法、装置、存储介质以及电子设备 | |
CN113033177A (zh) | 一种电子病历数据的解析方法及装置 | |
CN111966930B (zh) | 基于XPath序列的网页列表解析方法及系统 | |
CN112507108B (zh) | 基于json规则文件的知识抽取方法、系统及规则解析引擎 | |
Naiman et al. | The digitization of historical astrophysical literature with highly localized figures and figure captions | |
CN109885743B (zh) | 一种网页数据信息提取方法 | |
Okano et al. | Analysis of specification in Japanese using natural language processing | |
CN111581270A (zh) | 一种数据抽取方法和装置 | |
CN110618809B (zh) | 一种前端网页输入约束提取方法和装置 | |
CN114818630B (zh) | 基于CocoaPods工具生成多语种语言资源文件的方法及相关设备 | |
US10943056B1 (en) | System and method for identifying location of content within an electronic document | |
US10268674B2 (en) | Linguistic intelligence using language validator | |
CN112836477B (zh) | 代码注释文档的生成方法、装置、电子设备及存储介质 | |
CN112527309B (zh) | As400操作语句转换优化方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |