CN113051925B - 时间识别方法、装置、设备及计算机存储介质 - Google Patents
时间识别方法、装置、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN113051925B CN113051925B CN201911368365.9A CN201911368365A CN113051925B CN 113051925 B CN113051925 B CN 113051925B CN 201911368365 A CN201911368365 A CN 201911368365A CN 113051925 B CN113051925 B CN 113051925B
- Authority
- CN
- China
- Prior art keywords
- time
- information
- keywords
- determining
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012545 processing Methods 0.000 claims description 24
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 abstract description 4
- 230000014509 gene expression Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000006073 displacement reaction Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/02—Reservations, e.g. for tickets, services or events
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种时间识别方法、装置、设备及计算机存储介质。该方法包括:获取与预约时间相关的文本信息;利用AC自动机从文本信息中确定至少一个时间关键词;根据时间关键词确定文本信息中的预约时间。根据本发明实施例,能够通过利用AC自动机从口语化文本中提取时间关键词,然后对时间关键词进行分析,识别出口语化文本中所要表达的时间信息,提高了时间关键词的提取效率,且提高了时间识别的准确性。
Description
技术领域
本发明属于自然语言处理领域,尤其涉及一种时间识别方法、装置、设备及计算机存储介质。
背景技术
随着智能化产品的不断推出,诸如智能问答、智能提醒等场景,都会用到自然语言处理技术进行语义识别。用户在采用语言进行需求表达时,常常会涉及到时间的内容。因此在语义识别中,时间识别是非常重要的一个部分。
目前时间识别的方式主要包括两种:一种是正则匹配的方式,另一种是采用概率上下无关文法(Probabilistic Context Free Grammar,PCFG)的方式,但是这两种方法识别出的时间准确率较低,且效率不高。
在一些需要识别出口语化文本中的时间信息的情况下,更是加大了时间识别的难度,比如预约上门服务场景。因此,如何准确高效的识别出文本中的时间,成为一个有待解决的问题。
发明内容
本发明实施例提供一种时间识别方法、装置、设备及计算机存储介质,能够解决时间识别效率低、难度大、准确率不高的问题。
第一方面,本发明实施例提供一种时间识别方法,方法包括:获取与预约时间相关的文本信息;利用AC自动机从文本信息中确定至少一个时间关键词;根据时间关键词确定文本信息中的预约时间。
在一种可能的实现中,根据时间关键词字典构建AC自动机,时间关键词字典包括:时间关键词和与时间关键词对应的类别信息。用AC自动机进行关键词的匹配,不需要进行文本标注,而且匹配效率极高。
在一种可能的实现中,将时间关键词中的数值信息转换为数值信息对应的阿拉伯数字。
在一种可能的实现中,根据时间关键词确定文本信息中的预约时间,包括:根据时间关键词,获取时间关键词的类别信息和位置信息;根据类别信息和位置信息对时间关键词进行预处理,得到预处理后的时间关键词;根据预处理后的时间关键词确定文本信息中的预约时间。
在一种可能的实现中,根据类别信息和位置信息对时间关键词进行预处理,包括:根据类别信息和位置信息对时间关键词进行删除处理和/或合并处理和/或补全处理。
在一种可能的实现中,根据时间关键词确定文本信息中的预约时间,包括:获取时间关键词的标签信息,标签信息包括下述中的至少一项:月、周、天、时、分、秒、上午、下午、若干小时后、若干分钟后、若干天后;根据由标签信息确定的预设顺序,分别确定每个时间关键词对应的时间信息;根据每个时间关键词的时间信息确定文本信息中的预约时间。
第二方面,本发明实施例提供了一种处理装置,装置包括:获取模块,用于获取与预约时间相关的文本信息;处理模块,利用AC自动机从文本信息中确定至少一个时间关键词;识别模块,用于根据时间关键词确定文本信息中的预约时间。
第三方面,本发明实施例提供了一种计算设备,设备包括:处理器以及存储有计算机程序指令的存储器;处理器执行计算机程序指令时实现第一方面或者第一方面任一可能实现的计算方法。
第四方面,本发明实施例提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如第一方面或者第一方面任一可能实现的处理方法。
本发明实施例的时间识别方法、装置、设备及计算机存储介质,通过利用AC自动机从口语化文本中提取时间关键词,然后对时间关键词进行分析,识别出口语化文本中所要表达的时间信息,提高了时间关键词的提取效率,且提高了时间识别的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种时间识别方法流程示意图;
图2是本发明实施例提供的一种实现时间识别方法的装置示意图;
图3是本发明实施例提供的一种实现时间识别的预设顺序图;
图4是本发明实施例提供的一种时间识别装置的结构示意图;
图5是本发明实施例提供的示例性硬件架构的示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
随着智能化产品的不断推出,诸如智能问答、智能提醒等场景都会用到自然语言处理技术进行语义识别,用户在采用语言进行需求表达时,常常会涉及到时间的内容。因此在语义识别中,时间识别是非常重要的一个部分。
目前的技术将时间表达从句子中抽取出来,需要进一步做的是将抽取出的时间表达进行解析,解析成结构化的时间信息。
现有技术中存在的时间解析方式主要包括两种:一种是正则匹配的方式。例如通过正则表达式配合万年历的方式进行解析,例如2019年5月1日,但由于语言表达的多样化,很多情况下关于时间的表达方式不是按照标准的万年历的方式,那么对于正则方式而言就很难全面覆盖到所有的表达方式。
另一种是采用概率上下无关文法(Probabilistic Context Free Grammar,PCFG)的方式,通过大量的语料标注,来判定时间原子的位移单位及位移量。然而这种方式目前在中文领域的准确率较低,一般只有60%-70%的准确率。
但是,很多场景中对话句子中关于时间的表达都是比较口语化的,比如预约上门服务场景的对话内容都是口语化的文本内容,不是标准的万年历格式,这样的文本做时间识别的难度更大。
口语化文本中时间关键词有如下特点:某个时间关键词可能会重复多次(例如明天明天上午),时间关键词顺序颠倒(例如一点下午),时间关键词中间间隔较远(例如明天有可能下午过去)等等情况。
基于此,本发明实施例提供了一种时间识别方法,下面首先对本发明实施例提供的时间识别方法进行详细描述。
图1所示为本发明实施例的一种时间识别方法流程示意图,所示方法包括:
S101,获取与预约时间相关的文本信息。
其中,获取对话中与预约时间相关的文本信息,例如“我明天下午四点或者五点到你那里吧”或者“我明天吧明天下午过去”。
S102,利用AC自动机从文本信息中确定至少一个时间关键词。
其中,AC自动机的tag对应字典的key。一个字典的key对应一个AC自动机的tag,因此每个AC自动机的tag标识该AC自动机所属的类别信息。在进行时间关键词匹配时,可以根据AC自动机的tag属性,判断匹配到的时间关键词属于哪个类别,进而获取时间关键词的类别信息。
AC自动机属于多模式匹配,能一次完成该AC自动机所有时间关键词的匹配,并给出该时间关键词的tag以及该时间关键词在文本中的位置信息。例如检测文本中的“小时”,假如文本中多个位置出现有关“小时”的时间关键词,则AC自动机能够将与“小时”相关的所有时间关键词检测出来。
在一个实施例中,根据时间关键词字典构建AC自动机,时间关键词字典包括:时间关键词和与时间关键词对应的类别信息。
AC自动机是基于字典构建的,字典的key是时间关键词所属类别信息(例如时、分、秒)对应的标签,字典的value是时间关键词类别对应的所有的表述方式。即字典的key和AC自动机的tag都用于表示时间关键词的类别信息。
每个value值只对应一个key,不会出现同一个value值对应多个key的情况。AC自动机的value对应字典的value,字典的value是某一类别的时间关键词的集合。构建AC自动机时,字典的value成为AC自动机的value。
在一个实施例中,将时间关键词中的数值信息转换为所述数值信息对应的阿拉伯数字。
在构建AC自动机时,将时间关键词中的数值部分都转换为阿拉伯数字,这样可以大大降低时间关键词的数量,提高时间关键词匹配的效率。
因此对于待检测的文本,也需要进行时间关键词的数值统一化处理,将文本中出现的数值信息转换为阿拉伯数字。时间关键词中涉及的数值主要是天、时、分信息,数值最大不超过60。对于格式规范的表达,数值转换为阿拉伯数字可以直接转换,但是对于类似“二三十分钟”、“二二十分钟”这种含糊的表达,或者是由于没有想清楚而造成表达上的重复,需要单独进行处理以消除语义上的含糊或者重复。
S103,根据时间关键词确定文本信息中的预约时间。
在一个实施例中,时间识别是按照时间关键词级别由低到高的顺序进行的,对于匹配到的时间关键词,根据tag对应的级别由低到高进行时间识别。最后将解析完的时间合并成一个具体的时间点。匹配到的时间关键词集合不一定会包含上述所有的tag,对于没有的tag,直接跳过预设顺序中的没有的tag,只解析检测到的时间关键词。
在一个实施例中,应用场景是预约场景,在预约场景中的时间识别有一个基准时间,在该基准时间的基础上进行文本对应时间的推断。
在一个实施例中,根据时间关键词,获取时间关键词的类别信息和位置信息;根据类别信息和位置信息对时间关键词进行预处理,得到预处理后的时间关键词;根据预处理后的时间关键词确定文本信息中的预约时间。
时间关键词预处理要对检测到的所有时间关键词进行去重、合并和补全操作。对于口语化的文本,时间关键词经常会出现冗余、顺序颠倒等现象,时间关键词预处理就是要解决口语化文本中的时间关键词的各种问题,将时间关键词转化为符合万年历格式的形式。
时间关键词去重是指去除位置相邻重复的时间关键词,去除时间关键词后对文本表达的时间范围或者时间点没有影响。时间关键词合并是指对位置不相邻的时间关键词进行合并,表达完整的时间信息。时间关键词补全是指对单独的时间点时间关键词根据语义信息,将其补全为完整的时间点。为了对时间关键词进行预处理,则需要根据时间关键词的类别信息和位置信息。例如,时间关键词的位置信息可用于确定位置相邻的时间关键词。
在一个实施例中,根据类别信息和位置信息对时间关键词进行删除处理和/或合并处理和/或补全处理。
时间关键词去重是指去除重复的时间关键词,去除时间关键词后对文本表达的时间范围或者时间点没有影响。例如“我明天明天下午去你家”和“我明天吧明天下午过去”,这两个文本中需要去除重复的“明天”时间关键词。
时间关键词合并是指对位置不相邻的时间关键词进行合并,表达完整的时间信息。例如“我明天可能下午三点左右有时间”,该文本中的时间关键词“明天”与“下午三点”,虽然在位置上没有相邻,但是语义上是相邻的,需要对这种情况的时间关键词进行合并。
时间关键词补全是指对单独的时间点时间关键词根据语义信息,将其补全为完整的时间点。例如“我明天下午四点或者五点到你那里吧”中的“五点”时间关键词需要补全为“明天下午五点”,这样才能表达完整的时间点。
在一个实施例中,获取时间关键词的标签信息,标签信息包括下述中的至少一项:月、周、天、时、分、秒、上午、下午、若干小时后、若干分钟后、若干天后;根据由标签信息确定的预设顺序,分别确定每个时间关键词对应的时间信息;根据每个时间关键词的时间信息确定文本信息中的预约时间。
本申请对不同级别的时间关键词标记不同的标签信息tag,例如对于月、周、天、时、分这些时间关键词,对应的tag信息依次为month、week、day、hour、minute。
对于类似“下个月”这样的时间关键词标记为pre_month,类似“明天”这样的时间关键词标记为pre_day,类似“上午”这样的时间关键词标记为pre_hour,对于时间段对应的时间关键词根据级别不同标记为hour_interval和minute_interval。
例如,根据由标签信息确定的预设顺序,首先对hour_interval和minute_interval进行推断,然后对hour、minute对应的时间关键词进行推断,接着是pre_hour、pre_minute,然后再解析day对应的时间关键词,再接着是pre_day的解析,然后依次是month、pre_month和week的解析。
综上,本发明实施例提供的时间识别方法、装置、设备及介质。能够通过利用AC自动机从口语化文本中提取时间关键词,然后对时间关键词进行分析,推断出口语化文本中所要表达的时间信息。由于AC自动机时间关键词匹配速度非常快,且不需要大量的标注数据,可以节省大量的人力和时间成本,提高了时间关键词的提取效率,且提高了时间识别的准确性,并且有较好的扩展性和维护性。
另外,基于时间预约的场景中,本发明实施例还提供了一种实现时间识别方法的装置,具体结合图2进行详细说明。
图2是本发明实施例提供的一种实现时间识别方法的装置示意图。具体包括:模块M10-模块M50,具体如下所示:
构建模块M10,用于构建AC自动机。
统一模块M20,用于数值统一化。
匹配模块M30,用于时间关键词匹配。
预处理模块M40,用于时间关键词预处理。
识别模块M50,用于时间识别。
下面,对模块M10-模块M50的内容分别进行描述:
首先介绍构建模块M10。
AC自动机是基于Trie树构建的匹配结构,字典中具有公共前缀的词槽都会拥有相同的路径,这样可以大大降低AC自动机的存储空间,同时提高AC自动机的匹配速度,另外AC自动机在Trie树的基础上,添加了失败路径,当AC自动机沿一个路径匹配失败后,不会从根路径重新搜索,而是直接跳转到失败路径的父节点继续搜索,这样的结构进一步加快了搜索的速度,这也是AC自动机用于字符串匹配的优势所在。
M10模块用来构建AC自动机,构建AC自动机的数据是时间关键词字典,时间关键词中涉及到数值的表达方式使用的都是阿拉伯数字。字典的key对应的是时间类别,字典的value是该类别对应时间的所有表达方式。
例如,对于时间关键词中的“小时”信息,假设字典中的key为hour,则key对应的value的集合类似:1点、2点、…、24点这样的形式。Value的集合数据的形式是考虑到我们的文本来源于口语化的文本,因此时间关键词也是口语化的时间关键词。
每个AC自动机有一个tag属性,用来标记该AC自动机匹配到时间关键词所对应的类别,AC自动机的tag对应字典中key。本申请字典中的key主要涉及到月份、周、天、小时、分、秒等时间类别,另外还有一些前缀类别,例如下个月、下周、明天等表示月、周、天的前缀,但并不止这些类别。对于预约上门服务的场景,涉及到的时间类别主要是上述几类时间关键词。
AC自动机的value对应字典的value,字典的value是某一类别时间关键词的集合,只有位于value中的时间关键词才能被AC自动机匹配出来。以字典中的某天的类别为例说明AC自动机的构建,字典中数据的形式是day:{1日,2日,…,31日,1号,2号,…,31号},则构建AC自动机的tag=day,value={1日,2日,…,31日,1号,2号,…,31号}。
AC自动机可以检测字符串中是否有关某天的所有时间关键词,假如检测到了“15日”,则该时间关键词所属的类别为day。其他的key-value按照同样的方法完成AC自动机的构建。
其次介绍统一模块M30。
统一模块负责将输入文本中的数值信息转换为对应的阿拉伯数字,对于正常的数值文本,直接转化为对应的阿拉伯数字即可,对于含糊的、重复的数值文本进行单独的处理。
正常的数值文本是指在表达时间上不会产生歧义,例如“这个月五号”、“下午三点”以及“下周二”,这些文本中的数值不会产生任何的歧义,直接将数值转换为对应的阿拉伯数字即可。
对于含糊、重复的数值文本是指不能按照字面数值直接转换为对应的阿拉伯数字,而需要根据文本的意思进行转换。含糊的数值文本是指数值表达的意思含糊不清,例如“二三十分钟”,这种情况不能简单的转换成230分钟,而应该转换成20、30分钟更合理一点。重复的数值文本是指有多个相同的数值,但是却不能表达合理的意思,例如“二二十分钟”,这种情况由于“二”的重复导致整个词组的意思很难理解,而实际要表达的是“20分钟”。
需要提示的是,含糊、重复的数值文本极有可能是用户还没有考虑好就下意识表达出来的结果,在口语化的表达中这种含糊和重复的情况非常的多,因此需要对这些有歧义的文本数值进行单独处理,将其转化为正常的文本。
然后介绍匹配模块M30。
M30模块负责将统一化后的文本中的所有时间关键词检测出来,并获得时间关键词所属的tag以及位置信息。
AC自动机的优点是多模式匹配,能够一次把所有类别的时间关键词检测出来。例如“我可能明天下午两点或者三点左右到你那里”,AC自动机能够检测出“明天”、“下午”、“两点”和“三点”这几个时间关键词,并同时给出这些时间关键词的其他相关信息。
AC自动机匹配结果是以三元组的形式返回,例如(4,明天,tag1),(6,下午,tag2),(8,两点,tag3),(12,三点,tag3),其中第一个元素是时间关键词结尾的字在原文本中的位置,第二个元素是时间关键词,第三个元素是时间关键词对应的tag,即时间关键词的类别。
时间关键词的匹配结果包含该时间关键词在文本中的位置信息,这样就可以对时间关键词进行处理,完成时间关键词的去重、合并等操作。
接着介绍预处理模块M40。
经过M30模块后,得到时间关键词的位置、时间关键词和tag信息,根据时间关键词的这些信息进行时间关键词的预处理,时间关键词的预处理主要包括去重、合并和补全。根据时间关键词和tag信息可以判断时间关键词是否存在重复,根据时间关键词和位置信息判断时间关键词之间是否可以合并。
时间关键词去重是指去除重复的时间关键词,去除时间关键词后对文本表达的时间范围或者时间点没有影响。例如“我明天明天下午去你家”、“我明天吧明天下午过去”,这两个文本中的“明天”时间关键词都存在重复的现象,虽然后一个文本中的“明天”时间关键词不相邻,但是该时间关键词依然是重复,需要删除。
时间关键词合并是指对位置不相邻但是语义上是相关的时间关键词进行合并,合并后的时间关键词表达完整的时间信息。例如“我明天可能下午三点左右有时间”,该文本中的时间关键词“明天”与“下午三点”,虽然在位置上没有相邻,但是语义上是相邻的,合并为“明天下午三点”表达清晰完整的时间信息,因此对于此类情况需要对时间关键词进行合并。
时间关键词补全是指对单独的时间点时间关键词根据语义信息,将其补全为完整的时间点。例如“我明天下午四点或者五点到你那里吧”中单独的“五点”时间关键词无法确定日期和上下午信息,但是根据语义特征该时间关键词要表达的时间范围是“明天下午”,因此将该时间关键词补全为“明天下午五点”,这样才能表达完整的时间点。
最后介绍识别模块M50。
M50模块根据基准时间对预处理后的时间关键词,识别出对应的时间点信息。本申请对不同覆盖范围的时间关键词称为不同级别的时间关键词,覆盖范围越大,级别越高。时间关键词按照级别由高到低依次为月、周、天、时和分,对应的tag依次为month、week、day、hour和minute。
对于限定月份的时间关键词,类似“下个月”记为pre_month;限定某一天的时间关键词,类似“明天”标记为pre_day;限定小时的时间关键词,类似“上午”“下午”标记为pre_hour;限定时间段的时间关键词,类似“一个小时后”、“二十分钟后”这样的文本,将其中的时间关键词分别标记为hour_interval和minute_interval。
本申请的时间识别是按照时间关键词级别由低到高的顺序进行的,并充分考虑了时间识别中涉及的跨天、跨月的时间问题。图3是本发明实施例提供的一种实现时间识别的预设顺序图,图3展示了所有时间关键词的推断顺序,真实的文本中可能不会同时存在所有的时间关键词,当文本中不存在相应的时间关键词时,则跳过该时间关键词的解析,直接进行下一个时间关键词的解析。
判断时间关键词中的时间关键词对应的tag信息,根据tag按照图2中的顺序解析时间。Tag解析的顺序首先是时间段对应的tag为hour_interval和minute_interval,然后是对tag为hour、minute的时间关键词进行推断,接下来是pre_hour、pre_minute,然后是day和pre_day的解析,再然后依次是month、pre_month和week的解析,最后将解析完的时间合并成一个具体的时间点。
经过上述步骤后,得到时间关键词的推断时间,本申请将时间关键词对应的时间信息分成四种类型:(1)一个时间段;(2)某一天;(3)某天的上午、下午;(4)时间点。
(1)一个时间段,是指时间关键词对应的是在基准时间的基础上增加一段时间。例如对于文本“一个小时以后”、“再有二十分钟”类似的表达,其中的时间关键词“一个小时”、“二十分钟”就是一个时间段,对应的时间是在基准时间的基础上增加一段时间。
(2)某一天,是指时间关键词对应的是确定的一天,时间只能精确到天。例如对于时间关键词“明天”、“下周二”、“七月三日”,对应的时间是在基准时间的基础上变化日期,或者将日期变成对应的日期信息,基准时间的时、分、秒信息保持不变。
(3)某天的上午、下午,是指由时间关键词只能精确到上午、下午。例如对于时间关键词“明天上午”,“今天下午”,时间关键词中的“明天”“今天”可以根据情况(2)推断出具体的日期信息,本申请中对时间关键词“上午”、“下午”设定默认的时间,例如(上午是8:00:00,下午是15:00:00)。
(4)时间点,是指时间关键词对应的时间是确定的时间点。例如对于时间关键词“明天下午三点半”、“上午十点”都对应一个明确的时间点信息。以“明天下午三点半”为例,首先解析出时间信息中的hour和minute对应的时间关键词“三点半”,然后解析pre_hour对应的时间关键词“下午”,将hour信息调整为24小时中的下午三点,最后解析day对应的时间关键词“明天”,更新日期信息,最后将日期和时分信息进行组合,得到最终的时间信息。
基于上述M10-M50实现的方法,利用AC自动机对口语化文本提取时间关键词,然后对时间关键词进行分析,根据文本中是否有多个相同标签信息的时间关键词,来对时间关键词的去重、合并、补全,然后就可以根据时间关键词的标签信息推断出具体的时间信息。而且,将时间关键词按照不同的类别建立不同的字典,每个类别的字典对应一个标签。相同类别的时间关键词都位于同一个字典中,例如日期信息,5号、8日等,都位于表示某一天的字典中,不需要对每个时间关键词进行标注,只要将该字典对应一个标签信息即可。将每个字典构建一个AC自动机,字典对应的标签作为该AC自动机的标签。这样,用AC自动机进行时间关键词的匹配,不需要进行文本标注,匹配效率极高。
由此,用AC自动机进行时间关键词的匹配,不需要进行文本标注,而且匹配效率极高。与时间关键词对应的字典大小无关,只与待匹配文本的长度有关,匹配的时间复杂度为O(n),相对于正则匹配方法,匹配速度要高得多。提高了时间关键词的提取效率,且提高了时间识别的准确性。
另外,基于上述时间识别方法,本发明实施例还提供了一种时间识别装置,具体结合图4进行详细说明。
图4所示为本发明实施例提供的一种时间识别装置的结构示意图,时间识别装置包括:
获取模块410,用于获取与预约时间相关的文本信息。
处理模块420,用于利用AC自动机从文本信息中确定至少一个时间关键词。
处理模块420还用于根据时间关键词字典构建AC自动机,时间关键词字典包括:时间关键词和与时间关键词对应的类别信息。
处理模块420还用于将时间关键词中的数值信息转换为所述数值信息对应的阿拉伯数字。
识别模块430用于根据时间关键词确定文本信息中的预约时间。
识别模块430具体用于根据时间关键词,获取时间关键词的类别信息和位置信息;根据类别信息和位置信息对时间关键词进行预处理,得到预处理后的时间关键词;根据预处理后的时间关键词确定文本信息中的预约时间。
识别模块430具体用于根据类别信息和位置信息对时间关键词进行删除处理和/或合并处理和/或补全处理。
识别模块430具体用于获取时间关键词的标签信息,标签信息包括下述中的至少一项:月、周、天、时、分、秒、上午、下午、若干小时后、若干分钟后、若干天后;根据由标签信息确定的预设顺序,分别确定每个时间关键词对应的时间信息;根据每个时间关键词的时间信息确定文本信息中的预约时间。
该实施例提供的处理装置的各个模块可以实现图1所示实例中的方法,实现图1所示实例的方法所达到的技术效果,为简洁描述,在此不再赘述。
图5示出了本发明实施例提供的时间识别方法的硬件结构示意图。
处理设备可以包括处理器501以及存储有计算机程序指令的存储器502。
具体地,上述处理器501可以包括中央处理器(Central Processing Unit,CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器502可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器502可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器502可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器502可在综合网关容灾设备的内部或外部。在特定实施例中,存储器502是非易失性固态存储器。在特定实施例中,存储器502包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器501通过读取并执行存储器502中存储的计算机程序指令,以实现上述图1和图3所示的的任意一种时间识别方法。
在一个示例中,处理设备还可包括通信接口503和总线510。其中,如图5所示,处理器501、存储器502、通信接口503通过总线510连接并完成相互间的通信。
通信接口503,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线510包括硬件、软件或两者,将时间识别设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线510可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该处理设备可以执行本发明实施例中的时间识别方法,从而实现结合图1和图3所示实例描述的时间识别方法。
另外,结合上述实施例中的时间识别方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种时间识别方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为软件方式,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (9)
1.一种时间识别方法,其特征在于,所述方法包括:
获取与预约时间相关的文本信息;
利用AC自动机从所述文本信息中确定至少一个时间关键词;
根据所述时间关键词确定所述文本信息中的预约时间;
所述根据所述时间关键词确定所述文本信息中的预约时间,包括:
获取所述时间关键词的标签信息;
基于所述标签信息的覆盖范围,确定预设识别级别,所述覆盖范围用于表征所述标签信息的时间跨度,覆盖范围越大,预设识别级别越大;
从所述文本信息中获取与所述预约时间相匹配的基准时间;
基于所述基准时间,按照所述预设识别级别中从低到高的顺序,对所述时间关键词进行识别,确定所述文本信息中的预约时间。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据时间关键词字典构建所述AC自动机,所述时间关键词字典包括:时间关键词和与所述时间关键词对应的类别信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将所述时间关键词中的数值信息转换为所述数值信息对应的阿拉伯数字。
4.根据权利要求1所述的方法,其特征在于,所述根据所述时间关键词确定所述文本信息中的预约时间,包括:
根据所述时间关键词,获取所述时间关键词的类别信息和位置信息;
根据所述类别信息和位置信息对所述时间关键词进行预处理,得到预处理后的时间关键词;
根据所述预处理后的时间关键词确定所述文本信息中的预约时间。
5.根据权利要求4所述的方法,其特征在于,所述根据所述类别信息和位置信息对所述时间关键词进行预处理,包括:
根据所述类别信息和位置信息对所述时间关键词进行删除处理和/或合并处理和/或补全处理。
6.根据权利要求1所述的方法,其特征在于,所述根据所述时间关键词确定所述文本信息中的预约时间,包括:
获取所述时间关键词的标签信息,所述标签信息包括下述中的至少一项:月、周、天、时、分、秒、上午、下午、若干小时后、若干分钟后、若干天后;
根据由所述标签信息确定的预设顺序,分别确定每个时间关键词对应的时间信息;
根据所述每个时间关键词的时间信息确定所述文本信息中的预约时间。
7.一种时间识别装置,其特征在于,包括:
获取模块,用于获取与预约时间相关的文本信息;
处理模块,利用AC自动机从所述文本信息中确定至少一个时间关键词;
识别模块,用于根据所述时间关键词确定所述文本信息中的预约时间;
所述根据所述时间关键词确定所述文本信息中的预约时间,包括:
获取所述时间关键词的标签信息;
基于所述标签信息的覆盖范围,确定预设识别级别,所述覆盖范围用于表征所述标签信息的时间跨度,覆盖范围越大,预设识别级别越大;
从所述文本信息中获取与所述预约时间相匹配的基准时间;
基于所述基准时间,按照所述预设识别级别中从低到高的顺序,对所述时间关键词进行识别,确定所述文本信息中的预约时间。
8.一种计算设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-6任意一项所述的时间识别方法。
9.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的时间识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911368365.9A CN113051925B (zh) | 2019-12-26 | 2019-12-26 | 时间识别方法、装置、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911368365.9A CN113051925B (zh) | 2019-12-26 | 2019-12-26 | 时间识别方法、装置、设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051925A CN113051925A (zh) | 2021-06-29 |
CN113051925B true CN113051925B (zh) | 2024-06-18 |
Family
ID=76506531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911368365.9A Active CN113051925B (zh) | 2019-12-26 | 2019-12-26 | 时间识别方法、装置、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051925B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113673221A (zh) * | 2021-10-21 | 2021-11-19 | 北京泰迪熊移动科技有限公司 | 基于ac自动机的对象提取方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918548A (zh) * | 2019-04-08 | 2019-06-21 | 上海凡响网络科技有限公司 | 一种自动检测文档敏感信息的方法和应用 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5293301B2 (ja) * | 2009-03-16 | 2013-09-18 | 富士通株式会社 | 検索装置、検索方法および記憶媒体 |
KR101189617B1 (ko) * | 2010-12-08 | 2012-10-12 | 서울대학교산학협력단 | 다중 바이트 문자 집합 텍스트에서의 문자열 일치 검색 방법 |
CN107679036A (zh) * | 2017-10-12 | 2018-02-09 | 南京网数信息科技有限公司 | 一种错别字监测方法及系统 |
CN108399150B (zh) * | 2018-02-07 | 2020-05-22 | 深圳壹账通智能科技有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN109933656B (zh) * | 2019-03-15 | 2023-08-15 | 深圳市赛为智能股份有限公司 | 舆情极性预测方法、装置、计算机设备及存储介质 |
-
2019
- 2019-12-26 CN CN201911368365.9A patent/CN113051925B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918548A (zh) * | 2019-04-08 | 2019-06-21 | 上海凡响网络科技有限公司 | 一种自动检测文档敏感信息的方法和应用 |
Also Published As
Publication number | Publication date |
---|---|
CN113051925A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210157975A1 (en) | Device, system, and method for extracting named entities from sectioned documents | |
CN107729314B (zh) | 一种中文时间识别方法、装置及存储介质、程序产品 | |
CN111460787A (zh) | 一种话题提取方法、装置、终端设备及存储介质 | |
CN108182215B (zh) | 一种结构化查询语言sql性能统计的方法及装置 | |
US20100023318A1 (en) | Method and device for retrieving data and transforming same into qualitative data of a text-based document | |
CN109635288A (zh) | 一种基于深度神经网络的简历抽取方法 | |
AU2019203783B2 (en) | Extraction of tokens and relationship between tokens from documents to form an entity relationship map | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
Fischbach et al. | Towards causality extraction from requirements | |
CN111178080B (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN113051925B (zh) | 时间识别方法、装置、设备及计算机存储介质 | |
Wong et al. | iSentenizer‐μ: Multilingual Sentence Boundary Detection Model | |
CN114860942A (zh) | 文本意图分类方法、装置、设备及存储介质 | |
Uchimoto et al. | Morphological analysis of the Corpus of Spontaneous Japanese | |
CN112560425A (zh) | 模板生成方法、装置、电子设备及存储介质 | |
CN110866394A (zh) | 公司名称识别方法及装置、计算机设备及可读存储介质 | |
CN110866172A (zh) | 一种面向区块链系统的数据分析方法 | |
CN113609864B (zh) | 一种基于工业控制系统的文本语义识别处理系统及方法 | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
Marcińczuk et al. | Statistical proper name recognition in Polish economic texts | |
CN109145297B (zh) | 基于hash存储的网络词汇语义分析方法和系统 | |
Ohta et al. | Empirical evaluation of CRF-based bibliography extraction from reference strings | |
KR101126186B1 (ko) | 형태적 중의성 동사 분석 장치, 방법 및 그 기록 매체 | |
CN112818645A (zh) | 一种化学信息抽取方法、装置、设备及存储介质 | |
CN113515907A (zh) | Vvp文件的预分析方法、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |