CN111177418A - 一种时间文本的获取方法、设备及存储介质 - Google Patents
一种时间文本的获取方法、设备及存储介质 Download PDFInfo
- Publication number
- CN111177418A CN111177418A CN201911359269.8A CN201911359269A CN111177418A CN 111177418 A CN111177418 A CN 111177418A CN 201911359269 A CN201911359269 A CN 201911359269A CN 111177418 A CN111177418 A CN 111177418A
- Authority
- CN
- China
- Prior art keywords
- time
- phrase
- preset time
- text
- initial text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000002123 temporal effect Effects 0.000 claims description 23
- 238000010586 diagram Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- AZFKQCNGMSSWDS-UHFFFAOYSA-N MCPA-thioethyl Chemical compound CCSC(=O)COC1=CC=C(Cl)C=C1C AZFKQCNGMSSWDS-UHFFFAOYSA-N 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请公开了一种时间文本的获取方法,该方法包括:获取初始文本,并判断初始文本是否属于第一预设时间短语;若初始文本属于第一预设时间短语,则对第一预设时间短语进行识别,得到时间信息;若否,则判断初始文本是否包括符合第二预设时间短语格式的时间文本;若初始文本包括第二预设时间短语格式的时间文本,则从初始文本中获取第二预设时间短语,并对第二预设时间短语进行识别,得到时间信息。通过本申请所提供的方法,可以实现同时适应于对时间短语和包含时间短语的时间文本中所包含的时间信息的识别,进而实现可以自时间短语或包含时间短语的时间文本中准确获取时间信息,本申请还提供一种时间文本的获取设备及存储介质。
Description
技术领域
本申请涉及自然语言处理领域,特别是涉及一种时间文本的获取方法、设备及存储介质。
背景技术
在日常的工作、学习和生活中,时间因素是很多活动任务中不可缺少的一环。人们的日常交互对话文本中也包含了大量的时间短语,这些包含了时间短语的文本可以被称为是时间短文本。在人工智能领域中,由于人们对于时间因素的表达的方式不是固定或唯一的,故如何实现快速准确地获取这些非结构化的时间短语或时间短文本中所包含的时间文本,是机器人智能的重要体现。
发明内容
本申请主要解决的技术问题是提供一种时间文本的获取方法、设备及存储介质,可以实现准确获取时间文本。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种时间文本的获取方法,所述方法包括:
获取初始文本,并判断所述初始文本是否属于第一预设时间短语;
若判断所述初始文本属于所述第一预设时间短语,则对所述第一预设时间短语进行识别,得到时间信息;
若否,则判断所述初始文本是否包括符合第二预设时间短语格式的时间文本;
若所述初始文本包括所述第二预设时间短语格式的时间文本,则从所述初始文本中获取所述第二预设时间短语,并对所述第二预设时间短语进行识别,得到时间信息。
为解决上述技术问题,本申请采用的另一个技术方案是,提供一种时间文本的获取设备,包括:处理器和与所述处理器连接的存储器;
其中,所述存储器用于存储程序数据;
所述处理器用于运行所述程序数据,以执行如上所述的时间文本的获取方法。
为解决上述技术问题,本申请采用的另一个技术方案是,提供一种存储介质,所述存储介质存储有程序数据,所述程序数据被处理器执行时实现如上所述的时间文本的获取方法。
相比于现有技术,本申请所提供的技术方案,通过判断所获取的初始文本是否属于第一预设时间短语,并在判断得到初始文本属于第一预设时间短语时,对第一预设时间短语进行识别进而得到时间信息;当判断得到初始文本不属于第一预设时间短语时,进一步判断初始文本是否包括符合第二预设时间短语格式的时间文本,并在判断得到初始文本包括符合第二预设时间短语格式的时间文本时,从初始文本中获取第二预设时间短语,并对第二预设时间短语进行识别,进而得到时间信息,本申请所提供的技术方案可以实现同时适应于对时间短语和包含时间短语的时间文本中所包含的时间信息的识别,进而实现可以自时间短语或包含时间短语的时间文本中准确获取时间信息。
附图说明
图1是本申请一种时间文本的获取方法一实施例的流程示意图;
图2是本申请一种时间文本的获取方法另一实施例的流程示意图;
图3是本申请一种时间文本的获取方法又一实施例的流程示意图;
图4是本申请一种时间文本的获取方法再一实施例的流程示意图;
图5是本申请一种时间文本的获取设备一实施例中的结构示意图;
图6是本申请一种存储介质一实施例结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本申请,而非对本申请的限定。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
请参见图1,图1为本申请一种时间文本的获取方法一实施例中的流程示意图。在当前实施例,本申请所提供的方法的执行主体为时间文本的获取设备,该方法包括:
S110:获取初始文本,并判断初始文本是否属于第一预设时间短语。
其中,初始文本是指需要时间文本的获取设备进行处理以从中获取时间信息的文本信息。在当前实施例中,对初始文本的类型不做限定,且对初始文本的语言类型不做限定,具体可以依据实际的需要进行设置调整。如,初始文本可以是汉语、英语,日语等,在下文相关实施例中以汉语作为主要语言进行举例。
初始文本可以是由用户或者是语音设备通过语音输入至时间文本的获取设备,并经过对语音进行识别转换得到文本获得的,也可以是由用户、其它的第三方系统或设备直接以文字的形式输入至时间文本的获取设备的,具体在此不做限定。
第一预设时间短语为预先存储至时间文本的获取设备或存储至时间文本的获取设备可以访问的数据中的、用户会用于表达时间的短语或词语。进一步地,本申请所提供的技术方案中,可包括多组(个)第一预设时间短语。
更进一步地,每组第一预设时间短语的数量也可以包括多个。当每组第一预设时间短语的数量包括多个时,可根据当前时期语言表达的习惯以及语言的特点将每组第一预设时间短语中所包括的时间短语再次进行分类,并对每一个类别按照设定的准则进行排序,如可以按照使用频次,或者是日常与官方等进行排序或分类。
在获取到初始文本后,将所获取的初始文本与第一预设时间短语进行比对,进而根据比对结果判断得到初始文本是否属于第一预设时间短语。进一步地,当每一个类别的第一预设时间短语包括多个时间短语时,且在每组类别中在此进行分类或排序时,则可以按照每组中的类别或顺序进行比对。
S120:对第一预设时间短语进行识别,得到时间信息。
若步骤S110中判断得到初始文本属于第一预设时间短语,则会对当前的第一预设时间短语进行识别,进而得到该第一预设时间短语对应的时间信息。
其中,时间信息为第一预设时间短语对应的时间信息,具体可以是一个相对笼统的日期,如某一年,某一月或某一周等等,时间信息也可以是一个比较准确的时间,如可以具体到某年某月某日某时某分,如具体到2019年12月12日12点15分。
S130:判断初始文本是否包括符合第二预设时间短语格式的时间文本。
若步骤S110中判断得到初始文本不属于第一预设时间短语,则会进一步判断初始文本是否包括符合第二预设时间短语格式的时间文本。
其中,第二预设时间短语为用于表达时间的短语。进一步地,第二预设时间短语可以与第一预设时间短语相同,也可以是与第一预设时间短语不同的时间短语。其中,包括第二预设时间短语格式的时间文本可以理解为包括第二预设时间短语的时间句子。
进一步地,当包括多组第一预设时间短语时,则只有在将初始文本与所有的第一预设短语进行比对判断以后,且判断得到初始文本不属于任何一个第一预设时间短语时,方会执行步骤S130以判断初始文本是否包括符合第二预设时间短语格式的时间文本。
S140:从初始文本中获取第二预设时间短语,并对第二预设时间短语进行识别,得到时间信息。
当步骤S130中判断得到初始文本包括符合第二预设时间短语格式的时间文本时,进一步从初始文本中获取第二预设时间短语,并对第二预设时间短语进行识别,得到时间信息。
其中,从初始文本中获取第二预设时间短语,可以基于设定的识别规则进行识别。具体可以参见下文对应的实施例中的阐述。
进一步地,在步骤S130中判断得到初始文本不属于第一预设时间短语,且也不包括符合第二预设时间短语格式的时间文本时,则会进一步清除初始文本。
当判断得到初始文本不属于第一预设时间短语,且也不属于包括符合第二预设时间短语格式的时间文本时,说明当前的初始文本中不包括时间信息,则只需要将该初始文本删除即可,无需继续对初始文本进行后续的操作。
进一步地,第二预设时间短语可以由若干个,对应的,包含第二预设时间短语的时间句子的数量为若干个。当步骤S130中判断得到初始文本不包括任何一个第二预设时间短语格式时间文本时,则本申请所提供的方法还会包括清除初始文本。
需要说明的是,在一些实施例中,本申请所提供的技术方案中,也可以是先判断初始文本是否为时间短语,当判断初始文本是时间短语时执行判断初始文本是否属于第一预设时间短语,并在判断的到初始文本属于第一预设时间短语时,则进一步识别第一预设时间短语以得到时间信息,而当判断初始文本不是时间短语时,则直接判断初始文本是否属于包含第二预设时间短语的时间句子,并在判断初始文本包括符合第二预设时间短语格式的时间文本时,对第二预设时间短语进行识别得到时间信息。
图1所对应的实施例中,通过判断所获取的初始文本是否属于第一预设时间短语,并在判断得到初始文本属于第一预设时间短语时,对第一预设时间短语进行识别进而得到时间信息;当判断得到初始文本不属于第一预设时间短语时,进一步判断初始文本是否包括符合第二预设时间短语格式的时间文本,并在判断得到初始文本包括第二预设时间短语格式的时间文本时,从初始文本中获取第二预设时间短语,并对第二预设时间短语进行识别,进而得到时间信息,本申请所提供的技术方案可以实现同时适应于对时间短语和包含时间短语的时间句子中所包含的时间信息的识别,进而实现可以自时间短语或包含时间短语的时间句子中获取时间信息。
进一步地,为使得本申请所提供的技术方案可以较好地适应人们语言的表达习惯的发展,故本申请所提供的方法还具备自适应调整的功能。具体地,第一预设时间短语有若干个,本申请所提供的方法还可以实现对第一预设时间短语排列顺序的自适应调整。故本申请所提供的方法还可以包括:统计若干个第一预设时间短语的使用频次,并按照使用频次确定每个第一预设时间短语的第一判断优先级。
其中,第一判断优先级是第一预设时间短语与初始本文进行判断的前后顺序,使用频次越高对应的第一判断优先级越高,反之,使用频次越低,则对应的第一判断优先级则越低。如在一实施例中,包括两个第一预设时间短语:“临近日期”和“中文时段”,且根据统计得到“临近日期”的使用频次高于“中文时段”,则会对应设置“临近日期”的第一判断优先级高于“中文时段”的第一判断优先级,故在判断某个初始文本是否属于第一预设时间短语时,则会先将初始文本与“临近日期”中的各个时间短语进行比对,以判断该初始文本是否属于“临近日期”这一类,当经过判断得到该初始文本不属于“临近日期”这一类时,则会进一步再将初始文本与“中文时段”中所包括的时间短语进行比对,以判断该初始文本是否属于“中文时段”。
具体地,在判断得到初始文本属于某个第一预设时间短语时,则会在该第一预设时间短语的统计次数增加一,以统计该第一预设时间短语的使用频次。接上述实施例,假设经过统计得到“中文时段”的使用频次超过“临近日期”的使用频次,则会按照设定的规则将“中文时段”的第一判断优先级调整至“临近日期”的第一判断优先级。
进一步地,本申请所提供的方法还包括:按照设定的时间周期,并根据若干个第一预设时间短语的使用频次,更新若干个第一预设时间短语的第一判断优先级。如可以预先设定,每一个月更新一次上述若干个第一预设时间短语的第一判断优先级。
进一步地,本申请所提供的方法还包括:按照使用频次所处的设定阶段的进行更新若干第一预设时间短语的第一判断优先级。如,可以设置每周识别到某第一预设时间短语的次数1000次至5000次时为一个第一判断优先级,设置0到1000为一个第一判断优先级,只有在统计得到某一第一预设时间短语平均使用频次由原来的0到1000之间,上升至1000次至5000次时,则会对应调整该第一预设时间短语对应的第一判断优先级。其中,不同的第一预设时间短语的第一判断优先级可以是相同的,当不同的第一预设时间短语的第一判断优先级为相同时,则会默认按照第一预设时间短语的存储顺序或者是读取顺序进行判断。
进一步地,第二预设时间短语有若干个,本申请所提供的方法还包括:预先按照每个第二预设时间短语的规则的粗粒度确定每个第二预设时间短语的第二判断优先级。其中,规则粗粒度越细,对应的第二判断优先级越高。
如,在一实施例中,初始文本为“我下周一上午8点半到公司报到”,当存在两种规则①:X周Y上午,②:X周Y上午W点Z分,规则①的粒度粗,规则②的粒度细,则由规则粗粒度越细,判断优先级则越高,故可以得知规则①的判断优先级低于规则②的判断优先级。如当需要判断初始文本是否包含第二预设时间短语时,则会先判断初始文本中是否包含规则②“X周Y上午W点Z分”所对应的时间短语,在判断初始文本中不包含规则②对应的时间短语时,则再判断初始时间文本中是否会包括规则①所对应的时间短语。
请参见图2,图2为本申请一种时间文本的获取方法另一实施例中的流程示意图。
在当前实施例中,上述步骤S110中判断初始文本是否属于第一预设时间短语包括步骤S202至步骤S203。
S201:获取初始文本。
S202:按照第一判断优先级从高到低的顺序,依次判断初始文本与一第一预设时间短语是否匹配。
如上所述,当包括若干第一预设时间短语时,会根据使用频次确定每个第一预设时间短语的第一判断优先级。对应的,会按照所确定的若干第一预设时间短语的第一判断优先级从高至低的顺序,依次判断初始文本与一第一预设时间短语是否匹配。
在另一实施例中,当判断初始文本是否属于第一预设时间短语时可以采用完全匹配的方式,主要作用是进行词槽的时间短语匹配,能够不用分词而较准较快完成时间词槽的时间归一化,首先把常用的第一预设时间短语放在浅层,把不常用的放在深层,即首先将初始文本与常用的第一预设时间短语进行比对,当判断得到初始文本与常用的第一预设时间短语不匹配时,再将初始文本与相对不常用的第一预设时间短语进行匹配。也要兼顾浅层的正则表达式不会截断深层的正则表达式。
S203:确定初始文本属于当前判断的第一预设时间短语,并不再执行初始文本与未进行判断的第一预设时间短语之间的匹配判断。
若匹配,则确定当前初始文本属于当前判断的第一预设时间短语,并不再执行初始文本与未进行判断的第一预设时间短语质检的匹配判断,进而结束当前的程序循环。
进一步地,若得到初始文本不属于当前判断的第一预设时间短语,则会进一步执行初始文本与未进行判断的第一预设时间短语之间的匹配判断,以判断当前初始文本是否属于后续的未进行判断的第一预设时间短语。
例如:按照使用频次由高至低排序时,若干第一预设时间短语包括:临近日期、中文时段、现在时刻、节日倒数、模糊时间、修饰的节日、临近时刻、时延量、年与星期数、时间点,故对应的,上述各个第一预设时间短语的第一判断优先级的排列顺序匹配使用频次的排列顺序。故在对某一初始文本进行判断时,则会首先判断该初始文本是否属于临近日期,当判断不属于临近日期时,则会按照第一判断优先级的顺序依次判断初始文本是否属于中文时段、现在时刻、节日倒数、模糊时间、修饰的节日、临近时刻、时延量、年与星期数、时间点,其中,当判断得到初始文本属于其中一个第一预设时间短语时,则不再将初始文本与剩余未判断的第一预设时间短语急性比对判断。
其中,在上述实施例中,临近日期是指用于表达临近日期的词语,如:今天,明天,后天,大后天,昨天,前天,大前天,三天前,四天后等时间短语;
中文时段是指在中文中可以表示一天中特定时刻的词语,如:拂晓,凌晨,清晨,早上,上午,下午,晚上,深夜等;
现在时刻当下时刻的词语,如:现在,立刻,马上,此时,此刻,此时此刻;
节日倒数为以节日为参考时间点,并向前或向后倒数的形式进行表达的时间短语,如:中秋节前最后一个星期五,中秋节后第一个星期六;
模糊时间是指表象不够具体,相对比较笼统的时间短语,如用于表示某一年的某一月的时间短语,例如:二零一九年,二零一九年八月,八月;
修饰的节日:具有指定日期的节日或者在节日前后具备形容词的时间短语,如:清明节,下一个清明节,上一个清明节,今年清明节,明年清明节;
邻近时刻:结合临近日期表达的精确到时间点的时间短语,如今日某时某分,明天某点某刻,例如:明天上午七点四十分,后天上午九点四十分,昨天下午3点一刻;
时延量是指以时间单位进行表达,且向参考时间点之后延迟的时间短语,如:3天八小时以后,4天3小时以前,再过三天,再过三小时零二十分钟;
包含时延量的时间:清明节3天以后,重阳节3天以后;
年与星期数是指以年和星期进行表达的时间短语,如:今年最后一个星期五,今年第五个星期一,明年第一个星期五:
时间点是指精确到某年某月某日某时某分的时间短语:公历一九六四年七月四日上午八点四十分。农历二零一九年七月初四上午八点十四分。
其中,当本申请所提供的技术方案中,每组第一预设时间短语中包括多个时间短语时,每个时间短语在所有的第一预设时间短语中具有唯一性,即一个时间短语只可以属于一组第一预设时间短语,不可以同时属于两组第一预设时间短语中。如:当按照表达的方式将“拂晓”这个词语分类至中文时段这一类的第一预设时间短语时,就不可以同时将“拂晓”分类至其他的第一预设时间短语。可以理解的是,在本申请所提供的技术方案中,对于第一预设时间短语不做限定,具体可以依据实际的需要进行设置和调整。
进一步地,当将初始文本与所有的第一预设时间短语均完成了判断比对,且得到初始文本与所有的第一预设时间短语均不匹配,则会进一步执行步骤S204,以判断初始文本是否包括符合第二预设时间短语格式的时间文本。
在当前实施例中,上述步骤S130判断初始文本是否包括符合第二预设时间短语格式的时间文本包括步骤S204和步骤S205。
S204:按照第二判断优先级从高到低的顺序,依次判断初始文本是否包括一符合第二预设时间短语格式的时间文本。
继续按照第二判断优先级从高至低的顺序,依次判断初始文本是否包括一符合第二预设时间短语格式的时间文本。
其中,第二预设时间短语可以与第一预设时间短语相同,也可以不同,具体依据实际的需要进行设置。第二判断优先级可以根据使用频次和规则粗粒度进行确定。
当判断初始文本是否包括符合第二预设时间短语格式的时间文本时则进行搜索匹配,尽可能保留句子中完整的时间短语表达式,也是要兼顾常用不常用与深浅的关系,主要是以尽量完整地把时间表达式从句子中“挖”出来为准则,并将第二预设时间短语转化为计算机常用的结构化时间格式。进行搜索匹配第二预设时间短语时采用的是由深至浅的执行,以免造成文本中时间信息的丢失。
S205:确定初始文本属于包括符合当前判断的第二预设时间短语格式的时间文本,并不再执行初始文本是否包含未进行判断的第二预设时间短语格式的时间文本的判断。
当判断得到初始文本包含一第二预设时间短语时,则确定初始文本包括符合当前判断的第二预设时间短语格式的时间文本,并不再判断初始文本是否包含剩余第二预设时间短语,然后识别第二预设时间短语,并结束当前循环。
而当第二预设时间短语包括多个时,当在判断得到初始文本并不包括符合当前第二预设时间短语格式的时间文本时,则会继续判断初始文本是否包括符合下一个第二预设时间短语格式的时间文本,直至判断得到包括符合某个第二预设时间短语格式的时间文本或遍历所有的第二预设时间短语时结束判断。
图2所对应的实施例中,通过预先根据第一预设时间短语的使用频次确定第一预设时间短语的第一判断优先级,以及根据规则粗粒度以及使用频次确定第二预设时间短语的第二判断优先级,则可以实现在整体上减少获取初始文本中时间信息所需的时间,进而提高时间信息获取的效率,也进一步降低本申请方法所对应的代码体系的复杂度。
请参见图3,图3为本申请一种时间文本的获取方法又一实施例中的流程示意图。在当前实施例中,本申请所提供的方法包括:
在步骤判断初始文本是否属于第一预设时间短语之前,本申请所提供的方法还包括步骤S301。
S301:获取初始文本。
S302:从预设数据库中读取第一预设时间短语。
其中,预设数据库可以是时间文本的获取设备中的数据库,也可以是时间文本的获取设备可以访问或者可以进行数据交互的数据库。
进一步地,当第一预设时间短语包括若干个时,则步骤S302则可以是基于第一判断优先级的顺序依次从预设数据库中读取第一预设时间短语,直至判断得到初始文本属于某一个第一预设时间短语或将预设数据库中所包括的所有的第一预设时间短语遍历比对为止。
S303:判断初始文本是否属于第一预设时间短语。
S304:对第一预设时间短语进行识别,得到时间信息。
若判断得到初始文本不属于第一预设时间短语,则进一步执行步骤S305,以从预设数据库中读取第二预设时间短语,以判断初始文本是否属于包含第二预设时间短语的时间句子。
S305:从预设数据库中读取第二预设时间短语。
进一步地,当第二预设时间短语包括若干个时,则步骤S305则可以是基于第二判断优先级的顺序从预设数据库中依次读取第二预设时间短语,直至判断得到初始文本属于包含某一第二预设时间短语的时间句子或将预设数据库中所包括的所有第二预设时间短语遍历比对为止。
S306:判断初始文本是否包括符合第二预设时间短语格式的时间文本。
S307:从初始文本中获取第二预设时间短语,并对第二预设时间短语进行识别,得到时间信息。
在得到时间信息之后,本申请所提供的方法还包括步骤S308。
S308:将时间信息以机器读取的时间格式输出至目标任务系统。
将识别所得的时间信息以机器读取的时间格式输出至目标任务系统。如当初始文本为“今年国庆节上午八点一刻”,则经过识别后得到时间为2019年10月1日8点15分,则会将识别所得的时间信息以“datetime.datetime(2019,10,01,08,15)”输出至对应的目标任务系统。
可以理解的是,在其他实施例中,还可以将时间信息以其他类型的机器可以读取的时间格式输出至目标任务系统。
其中,目标任务系统为需要时间信息的系统。如,目标系统可以为订票任务,天气查询系统,医疗预定系统,日期查询程序,法律文书、契约上的汉字时间自动识别转化系统,也可以是人机对话系统中等等,具体不做特别限定。
请参见图4,图4为本申请一种时间文本的获取方法再一实施例中的流程示意图,在当前实施例中,阐述的是对于时间短语进行识别获得时间信息的所包括的步骤。
在当前实施例中,上述步骤在对第一预设时间短语进行识别,得到时间信息,或对第二预设时间短语进行识别,得到时间信息,进一步包括步骤S401和步骤S402。
S401:从第一预设时间短语/第二预设时间短语中识别出参考时间点和与参考时间点的关系时间信息。
其中,参考时间点为具有参考意义的时间词语。对第一预设时间短语或第二预设时间短语进行识别时,可以先从第一预设时间短语或第二预设时间短语中识别出参考时间点和与参考时间点的关系时间信息。
S402:基于参考时间点和关系时间信息进行时间运算,得到时间信息。
其中,时间信息为一时间点或一时间段。
如“今年中秋节之后的两天”,参考时间点为“今年中秋节”,与参考时间点的关系的时间信息为“后两天”,故需要首先查询今年中秋节的日期为2019年9月13日。然后将“今年中秋节”和“后两天”进行时间运算,得到具体表达的时间信息为2019年9月15日。
进一步地,当第一预设时间短语/第二预设时间短语中包括多个不同范围的参考时间点时,则可以是先识别出大范围内的参考时间点,然后再识别小范围内的参考时间点。其中,范围是指时间上的范围,如年相对于月的范围较大,月相对于周的范围较大。
当初始文本为“今年中秋节之后的两天的正午之后三个小时”,首先识别得到大范围内的参考时间点为“今年中秋节”,即2019年9月13日,将参考时间点与关系时间信息进行计算得到时间为2019年9月15日,再者识别得到小范围的参考时间点“正午”,以及识别得到小范围的参考时间点对应的关系时间信息为“之后三个小时”,即是指15点,故最终计算得到“今年中秋节之后的两天的正午之后三个小时”表达的是2019年9月15日15点。
在一实施例中,当时间信息为一个时间段时,可以是分别识别得到时间段的起点时间和终点时间,然后进行时间组合得到最终的时间信息。如:当初始文本为“下月1日到5日公司都有哪些活动安排,,经过识别可以得知第二预设时间短语“下月1日至5日”,此时可以分别对“下月1日”和“下月5日”进行识别,然后进行时间起点与时间终点的组合得到最终的时间表达式[datetime.date(2019,12,1),datetime.date(2019,12,5)]]”。
本申请所提供的技术方案,能够实现把非结构化时间文本变为结构化时间文本,并且根据非结构化时间文本的表达方式进行时间的运算,进而满足在各种需要识别时间的任务系统中,如果能够快速准确识别用户表达的时间,进而最终可以提高用户对于产品认可。
请参见图5,图5为本申请一种时间文本的获取设备一实施例中的结构示意图。在当前实施例中,本申请所提供的时间文本的获取设备500包括处理器501和与处理器连接的存储器502。
存储器502用于存储程序数据,程序数据被处理器501执行时可实现如图1至图4及其对应的任意一个实施例所述的时间文本的获取方法。
处理器501用于运行存储器502存储的程序数据,以执行图1至图4及其对应的任意一个实施例所述的时间文本的获取方法。
进一步地,当时间文本的获取设备500需要与外部设备进行数据交互时,本申请所提供的时间文本的获取设备500还包括通信电路(图5未示),通信电路用于在处理器501的控制下与外部设备或数据库进行通信,以进行数据或指令的传输。
参见图6,本申请还提供一种存储介质。该存储介质600存储有程序数据601,该程序数据601被执行时实现如上所述时间文本的获取方法及各个实施例中所描述的方法。具体地,上述存储介质600可以是存储器、个人计算机、服务器、网络设备,或者U盘等其中的一种。
以上所述仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种时间文本的获取方法,其特征在于,所述方法包括:
获取初始文本,并判断所述初始文本是否属于第一预设时间短语;
若所述初始文本属于所述第一预设时间短语,则对所述第一预设时间短语进行识别,得到时间信息;
若否,则判断所述初始文本是否包括符合第二预设时间短语格式的时间文本;
若所述初始文本包括所述第二预设时间短语格式的时间文本,则从所述初始文本中获取所述第二预设时间短语,并对所述第二预设时间短语进行识别,得到时间信息。
2.根据权利要求1所述的方法,其特征在于,所述第一预设时间短语有若干个,所述方法还包括:
统计若干个所述第一预设时间短语的使用频次,并按照所述使用频次确定每个第一预设时间短语的第一判断优先级,其中,所述使用频次越高,对应的第一判断优先级越高;
所述判断所述初始文本是否属于第一预设时间短语包括:
按照所述第一判断优先级从高到低的顺序,依次判断所述初始文本与一所述第一预设时间短语是否匹配;
若匹配,则确定所述所述初始文本属于当前判断的所述第一预设时间短语,并不再执行所述初始文本与未进行判断的第一预设时间短语之间的匹配判断。
3.根据权利要求1所述的方法,其特征在于,所述第二预设时间短语有若干个,所述方法还包括:
按照每个第二预设时间短语的规则粗粒度确定每个第二预设时间短语的第二判断优先级,其中,所述规则粗粒度越细,对应的第二判断优先级越高;
所述判断所述初始文本是否包括符合第二预设时间短语格式的时间文本,包括:
按照所述第二判断优先级从高到低的顺序,依次判断所述初始文本是否包括符合一所述第二预设时间短语格式的时间文本;
若是,则确定所述所述初始文本包括符合当前判断的所述第二预设时间短语格式的时间文本,并不再执行所述初始文本是否包含未进行判断的第二预设时间短语格式的时间文本的判断。
4.根据权利要求1所述的方法,其特征在于,所述第一预设时间短语、第二预设时间短语均包括以下至少一个时间短语:临近日期、中文时段、现在时刻、相对时间、模糊时间、修饰的节日、临近时刻、时延量、年与星期数、时间点。
5.根据权利要求1所述的方法,其特征在于,
在所述判断所述初始文本是否属于第一预设时间短语之前,所述方法还包括:
从预设数据库中读取所述第一预设时间短语;
在所述判断所述初始文本是否包括符合第二预设时间短语格式的时间文本之前,所述方法还包括:
从所述预设数据库中读取所述第二预设时间短语。
6.根据权利要求1所述的方法,其特征在于,在所述得到时间信息之后,所述方法还包括:
将所述时间信息以机器读取的时间格式输出至目标任务系统。
7.根据权利要求1所述的方法,其特征在于,所述对所述第一预设时间短语进行识别,得到时间信息,或所述对所述第二预设时间短语进行识别,得到时间信息,包括:
从所述第一预设时间短语/第二预设时间短语中识别出参考时间点和与所述参考时间点的关系时间信息;
基于所述参考时间点和所述关系时间信息进行时间运算,得到所述时间信息;
其中,所述时间信息为一时间点或一时间段。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当判断得到所述初始文本不属于所述第一预设时间短语,且也不包括符合所述第二预设时间短语格式的时间文本时,清除所述初始文本。
9.一种时间文本的获取设备,其特征在于,包括:处理器和与所述处理器连接的存储器;
其中,所述存储器用于存储程序数据;
所述处理器用于运行所述程序数据,以执行如权利要求1至8任一项所述的方法。
10.一种存储介质,其特征在于,所述存储介质存储有程序数据,所述程序数据被处理器执行时实现如权利要求1至8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911359269.8A CN111177418A (zh) | 2019-12-25 | 2019-12-25 | 一种时间文本的获取方法、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911359269.8A CN111177418A (zh) | 2019-12-25 | 2019-12-25 | 一种时间文本的获取方法、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111177418A true CN111177418A (zh) | 2020-05-19 |
Family
ID=70650596
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911359269.8A Pending CN111177418A (zh) | 2019-12-25 | 2019-12-25 | 一种时间文本的获取方法、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111177418A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116881582A (zh) * | 2023-07-18 | 2023-10-13 | 北京粉笔蓝天科技有限公司 | 基于模式匹配和词性标注的报名时间提取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104536952A (zh) * | 2014-12-29 | 2015-04-22 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种时间信息抽取方法及系统 |
CN104951508A (zh) * | 2015-05-21 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 时间信息识别方法和装置 |
CN105224601A (zh) * | 2015-08-31 | 2016-01-06 | 小米科技有限责任公司 | 一种提取时间信息的方法和装置 |
-
2019
- 2019-12-25 CN CN201911359269.8A patent/CN111177418A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104536952A (zh) * | 2014-12-29 | 2015-04-22 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种时间信息抽取方法及系统 |
CN104951508A (zh) * | 2015-05-21 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 时间信息识别方法和装置 |
CN105224601A (zh) * | 2015-08-31 | 2016-01-06 | 小米科技有限责任公司 | 一种提取时间信息的方法和装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116881582A (zh) * | 2023-07-18 | 2023-10-13 | 北京粉笔蓝天科技有限公司 | 基于模式匹配和词性标注的报名时间提取方法 |
CN116881582B (zh) * | 2023-07-18 | 2024-02-13 | 北京粉笔蓝天科技有限公司 | 基于模式匹配和词性标注的报名时间提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11593671B2 (en) | Systems and methods for semantic analysis based on knowledge graph | |
CN110110041A (zh) | 错词纠正方法、装置、计算机装置及存储介质 | |
CN111222305A (zh) | 一种信息结构化方法和装置 | |
EP2857985A1 (en) | Knowledge extraction device, knowledge updating device, and program | |
WO2021036439A1 (zh) | 一种信访问题答复方法及装置 | |
CN111291172B (zh) | 用于处理文本的方法和装置 | |
CN107729549B (zh) | 一种包含要素提取的机器人客服方法及系统 | |
CN110309504B (zh) | 基于分词的文本处理方法、装置、设备及存储介质 | |
CN111651572A (zh) | 一种多领域任务型对话系统、方法和终端 | |
CN113051911A (zh) | 提取敏感词的方法、装置、设备、介质及程序产品 | |
CN112052316A (zh) | 模型评估方法、装置、存储介质及电子设备 | |
WO2018028164A1 (zh) | 一种文本信息的提取方法、装置和移动终端 | |
CN111177418A (zh) | 一种时间文本的获取方法、设备及存储介质 | |
CN110795630A (zh) | 一种学习方案推荐方法及装置 | |
CN113111157B (zh) | 问答处理方法、装置、计算机设备和存储介质 | |
CN108920500B (zh) | 一种时间解析方法 | |
CN116680590B (zh) | 基于工作说明书解析的岗位画像标签提取方法及装置 | |
CN110991169B (zh) | 一种风险内容变种的识别方法、装置及电子设备 | |
CN117216275A (zh) | 一种文本处理方法、装置、设备以及存储介质 | |
CN117975942A (zh) | 语音识别模型的训练方法、语音识别方法及相关装置 | |
CN107153685B (zh) | 人机对话系统中基于时间线记忆的认知方法及装置 | |
CN113052544A (zh) | 工作流依用户行为智能适配方法、装置以及存储介质 | |
CN113656579B (zh) | 文本分类方法、装置、设备及介质 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
CN116303983A (zh) | 一种关键词推荐方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200519 |