CN109800338A - 口语化时间标准化控制方法、装置、计算机设备及存储介质 - Google Patents
口语化时间标准化控制方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109800338A CN109800338A CN201811512387.3A CN201811512387A CN109800338A CN 109800338 A CN109800338 A CN 109800338A CN 201811512387 A CN201811512387 A CN 201811512387A CN 109800338 A CN109800338 A CN 109800338A
- Authority
- CN
- China
- Prior art keywords
- time
- format
- colloquial style
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种口语化时间标准化控制方法、装置、计算机设备及存储介质,包括下述步骤:获取用户输入的查询语句,其中,查询语句包括用户语音输入的口语化时间词;根据预设的口语化处理规则将查询语句中的口语化时间词进行预处理得到第一时间信息;将第一时间信息输入至预设的日期格式处理模型中,以使日期格式处理模型将第一时间信息进行标准化格式处理生成标准格式的第二时间信息。本发明实施例通过识别用户输入的查询语句中的口语化时间词,在通过日期格式处理模型进行标准化格式处理以生成标准格式的第二时间信息,能准确识别口语化时间词所表征的时间信息,进而使得根据该时间信息进行搜索查询符合用户预期的结果。
Description
技术领域
本发明实施例涉及自然语言处理技术领域,尤其是一种口语化时间标准化控制方法、装置、计算机设备及存储介质。
背景技术
在生活过程中,经常需要使用到搜索功能,例如通过搜索引擎输入查询语句或者语音来进行查询搜索,在使用过程中,由于人们生活的生活习惯,人们在输入查询语句或者语音搜索时会出现日常生活用语,例如使用语音搜索功能时,语音搜索功能最开始是指可以通过打电话的方式查寻专项的资讯的功能,而随着科技的进步,语音搜索服务得到了新的发展,语音搜索参与了人们生活、娱乐以及交通等方方面面,极大的给人们的生活提供了方便。
但是,现有的搜索引擎对于用户输入的查询内容采用常规的处理方式,例如分词、语义分析以及排序等处理方式,对于用户输入的口语化时间格式只能进行字面匹配而无法深入理解,用户输入的查询内容中的口语化时间词(例如:3天前、上个礼拜以及下个月中旬)经常会被分解成不同的词块,无法做到统一的时间格式提取,进而导致查询结果不符合预期,搜索结果误差大。
发明内容
本发明实施例提供一种能准确识别用户输入的查询语句中的时间信息的口语化时间标准化控制方法、装置、计算机设备及存储介质。
为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种口语化时间标准化控制方法,包括下述步骤:
获取用户输入的查询语句,其中,所述查询语句包括所述用户语音输入的口语化时间词;
根据预设的口语化处理规则将所述查询语句中的口语化时间词进行预处理得到第一时间信息;
将所述第一时间信息输入至预设的日期格式处理模型中,以使所述日期格式处理模型将所述第一时间信息进行标准化格式处理生成标准格式的第二时间信息。
可选地,所述将所述第一时间信息输入至预设的日期格式处理模型中,以使所述日期格式处理模型将所述第一时间信息进行标准化格式处理生成标准格式的第二时间信息的步骤之后,还包括如下述步骤:
删除所述查询语句中的所述口语化时间词以生成查询内容语句;
根据预设的常规处理规则将所述查询内容语句进行常规处理得到目标查询内容;
将所述目标查询内容与所述第二时间信息进行合并生成与所述查询语句相对应的目标查询语句。
可选地,所述常规化处理规则包括分词、语音分析以及排序中的至少一种。
可选地,所述根据预设的口语化处理规则将所述查询语句中的口语化时间词进行预处理得到第一时间信息的步骤之前,包括如下述步骤:
将所述查询语句进行关键词匹配以获取所述查询语句中携带有时间信息的目标语句;
根据预设的时间正则表达式将所述目标语句进行时间词过滤生成所述口语化时间词。
可选地,所述根据预设的口语化处理规则将所述查询语句中的口语化时间词进行预处理得到第一时间信息的步骤,包括如下述步骤:
将所述口语化时间词进行无效词过滤处理生成目标时间词;
根据预设的聚合规则将所述目标时间词进行聚合生成所述第一时间信息。
可选地,所述将所述第一时间信息输入至预设的日期格式处理模型中,以使所述日期格式处理模型将所述第一时间信息进行标准化格式处理生成标准格式的第二时间信息的步骤之前,还包括如下述步骤:
获取预设的模型输入格式信息;
根据所述模型输入格式信息将所述第一时间信息进行格式转换,以使格式转换后的所述第一时间信息符合所述日期格式处理模型的输入格式要求。
为解决上述技术问题,本发明实施例还提供一种口语化时间标准化控制装置,包括:
第一获取模块,用于获取用户输入的查询语句,其中,所述查询语句包括所述用户语音输入的口语化时间词;
第一处理模块,用于根据预设的口语化处理规则将所述查询语句中的口语化时间词进行预处理得到第一时间信息;
第一执行模块,用于将所述第一时间信息输入至预设的日期格式处理模型中,以使所述日期格式处理模型将所述第一时间信息进行标准化格式处理生成标准格式的第二时间信息。
可选地,还包括:
删除模块,用于删除所述查询语句中的所述口语化时间词以生成查询内容语句;
第二处理模块,用于根据预设的常规处理规则将所述查询内容语句进行常规处理得到目标查询内容;
第二执行模块,用于将所述目标查询内容与所述第二时间信息进行合并生成与所述查询语句相对应的目标查询语句。
可选地,所述常规化处理规则包括分词、语音分析以及排序中的至少一种。
可选地,还包括:
第三处理模块,用于将所述查询语句进行关键词匹配以获取所述查询语句中携带有时间信息的目标语句;
第三执行模块,用于根据预设的时间正则表达式将所述目标语句进行时间词过滤生成所述口语化时间词。
可选地,还包括:
第一处理子模块,用于将所述口语化时间词进行无效词过滤处理生成目标时间词;
第二执行子模块,用于根据预设的聚合规则将所述目标时间词进行聚合生成所述第一时间信息。
可选地,还包括:
第二获取模块,用于获取预设的模型输入格式信息;
第四执行模块,用于根据所述模型输入格式信息将所述第一时间信息进行格式转换,以使格式转换后的所述第一时间信息符合所述日期格式处理模型的输入格式要求。
为解决上述技术问题,本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述口语化时间标准化控制方法的步骤。
为解决上述技术问题,本发明实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述口语化时间标准化控制方法的步骤。
本发明实施例的有益效果为:通过获取用户输入的查询语句,该查询语句中包括用户通过语音方法输入的口语化时间词,然后根据口语化处理规则将该口语化时间词进行预处理从而生成第一时间信息,再将该第一时间信息输入至日期格式处理模型中,使得日期格式处理模型能将该第一时间信息进行标准化格式处理以生成标准格式的第二时间信息,通过将用户输入的口语化时间词转换成标准格式的第二时间信息,从而能根据该第二时间信息准确获取符合用户预期的查询结果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例口语化时间标准化控制方法的基本流程示意图;
图2为本发明实施例根据查询语句进行内容搜索的流程示意图;
图3为本发明实施例筛选查询语句中的口语化时间词的流程示意图;
图4为本发明实施例对查询语句中的口语化时间词进行预处理的流程示意图;
图5为本发明实施例对第一时间信息进行格式转换的流程示意图;
图6为本发明实施例口语化时间标准化控制装置基本结构示意图;
图7为本发明实施例计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
具体请参阅图1,图1为本实施例口语化时间标准化控制方法的基本流程示意图。
如图1所示,一种口语化时间标准化控制方法,包括下述步骤:
S1100、获取用户输入的查询语句,其中,所述查询语句包括所述用户语音输入的口语化时间词;
查询语句是用户输入的想要进行查询搜索的语句,包括文字和语音,在实施时,以语音为例,系统可以通过麦克风或者其它具有采集声音信号的拾音设备以获取用户的查询语句,以本发明口语化时间标准化控制方法应用于用户终端为例,用户终端包括但不限于智能手机、平板、笔记本电脑、电子阅读器、智能手环以及其它具有语音搜索功能的电子设备,例如用户通过长按智能手机中的语音功能按键并进行讲话,系统通过智能手机中的麦克风采集用户的查询语句。该查询语句中携带有用户讲话时携带的口语化时间词,例如:用户输入的查询语句为“上一季度的业绩”,其中,“上一季度”就是该查询语句中的口语化时间词。
S1200、根据预设的口语化处理规则将所述查询语句中的口语化时间词进行预处理得到第一时间信息;
在获取用户的查询语句中的口语化时间词后,系统通过口语化处理规则将该口语化时间词进行预处理以得到第一时间信息,其中,口语化处理规则是预设的用于处理并提取用户输入的语音信息中携带的时间信息,在实施时,可以对口语化时间词进行去除无效词或者同类聚和以得到第一时间信息,其中,以去除无效词为例,系统将口语化时间词中和时间无关的字或者词语去除掉,例如:用户输入的查询语句为“两个的星期之前”,系统将该查询语句中的“的”删除到得到“两个星期之前”;在另一个实施例中,对口语化时间词进行同类聚和以将查询语句中表征同一时间节点的字或者词语进行聚合,以用户输入的查询语句为“今天早上的温度和本日中午的温度相差多少”为例,系统将该查询语句中的“今天”、“本日”或者“当日”统一聚合成“今日”,从而准确获取口语化时间词的第一时间信息。
S1300、将所述第一时间信息输入至预设的日期格式处理模型中,以使所述日期格式处理模型将所述第一时间信息进行标准化格式处理生成标准格式的第二时间信息。
在获取用户的口语化时间词的第一时间信息后,系统将该第一时间信息输入至日期格式处理模型中,提取格式处理模型是预设的用于将第一时间信息进行标准化格式处理从而生成标准格式的第二时间信息,该第二时间信息是与系统的日期格式相适配的,从而使得系统能准确识别用户输入的查询语句所携带的时间信息,在一个实施例中,可以采用中华人民共和国国家标准GB/T 7408-2005《数据元和交换格式·信息交换·日期和时间表示法》与ISO 8601:2000等效采用,例如2012年3月2日可表示为2012-03-02,在实施时,以用户输入的查询语句为“3天前是不是下了场雨”为例,其中,“3天前”是该查询语句中的口语化时间词,系统根据口语化处理规则将该口语化时间词进行预处理得到第一时间信息,具体地,系统将该口语化时间词与用户输入查询语句时的时间进行关联以得到该口语化时间词所表征的具体时间,例如:用户说出查询语句的时间是2014年9月13日,系统自动获取口语化时间词“3天前”所表征的具体时间是2014年9月10日,即第一时间信息为2014年9月10日,然后系统再将该第一时间信息输入至日期格式处理模型中以生成标准格式的第二时间信息,例如将表征为2014年9月10日的第一时间信息输入至日期格式处理模型中,日期格式处理模型将该第一时间信息进行标准化格式处理生成第二时间信息,例如该第二时间信息为2014-09-10,系统即可根据该第二时间信息进行与查询语句相对应的信息搜索,准确搜索到用户想要的信息。
本实施例通过获取用户输入的查询语句,该查询语句中包括用户通过语音方法输入的口语化时间词,然后根据口语化处理规则将该口语化时间词进行预处理从而生成第一时间信息,再将该第一时间信息输入至日期格式处理模型中,使得日期格式处理模型能将该第一时间信息进行标准化格式处理以生成标准格式的第二时间信息,通过将用户输入的口语化时间词转换成标准格式的第二时间信息,从而能根据该第二时间信息准确获取符合用户预期的查询结果。
在一个可选实施例中,请参阅图2,图2是本发明一个实施例根据查询语句进行内容搜索的具体流程示意图。
如图2所示,步骤1300之后,还包括如下述步骤:
S1400、删除所述查询语句中的所述口语化时间词以生成查询内容语句;
在将用户输入的查询语句中的口语化时间词准确转换为标准格式的第二时间信息后,系统将查询语句中的除了日期内容外的其它查询内容进行处理,从而获取用户想要搜索的内容。在实施时,可以将查询语句中的口语化时间词去除以得到查询内容语句,例如用户输入的查询语句为“明天的天气”,其中,“明天”为用户输入的口语化时间词,“天气”是用户想要进行搜索查询的内容。
S1500、根据预设的常规处理规则将所述查询内容语句进行常规处理得到目标查询内容;
在获取查询内容语句后,系统将该查询内容语句进行常规处理以得到目标查询内容,在实施时,常规处理规则是预设的用于对用户输入的查询语句进行理解以生成用户想要查询搜索的目标查询内容,在一个实施例中,所述常规化处理规则包括分词、语音分析以及排序中的至少一种,系统可以通过对查询内容语句采用分词技术、语义分析以及排序等常规处理方式理解用户的目标查询内容,其中,分词技术就是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术,例如:基于字符串匹配的分词方法和全切分方法,基于字符串匹配的分词方法按照不同的扫描方式,逐个查找词库进行分词,根据扫描方式可细分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分(即最短路径);总之就是各种不同的启发规则。全切分方法首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果,可以解决分词中的歧义问题。例如文本串“南京市长江大桥”,首先进行词条检索(一般用Trie存储),找到匹配的所有词条(南京,市,长江,大桥,南京市,长江大桥,市长,江大桥,江大,桥),以词网格(word lattices)形式表示,接着做路径搜索,基于统计语言模型(例如n-gram)找到最优路径,最后可能还需要命名实体识别。语义分析主要是理解词语、句子和篇章的意义、主题、类别和相似度等语义信息,例如自然语言框架语义解析器SLING,它能以语义框架图(semantic frame graph)的形式,将自然语言文本直接解析为文本语义表示。
S1600、将所述目标查询内容与所述第二时间信息进行合并生成与所述查询语句相对应的目标查询语句。
在获取目标查询内容后,系统将该目标查询内容与第二时间信息进行合并从而生成目标查询语句,该目标查询语句是查询语句的标准格式表达,以用户输入的查询语句为“下周三的温度”为例,系统将该查询语句信息进行理解得到口语化时间词和查询内容语句分别为“下周三”和“的温度”,系统自动获取用户输入该查询语句时的时间为2016年5月27日(星期2),则该口语化时间词“下周三”所表征的时间为2016年5月25日,系统在将该查询内容语句进行常规处理后生产搜索气候温度的目标查询内容,然后系统将该目标查询内容与第二时间信息进行合并生成表征用户想要查询2016年5月25日的温度的意思表达的目标查询语句,进而根据该目标查询语句进行搜索,使得搜索查询结果符合用户的预期,语音搜索准确可靠。
在另一个可选实施例中,请参阅图3,图3是本发明一个实施例筛选查询语句中的口语化时间词的基本流程示意图。
如图3所示,步骤1200之前,还包括如下述步骤:
S1110、将所述查询语句进行关键词匹配以获取所述查询语句中携带有时间信息的目标语句;
在获取用户输入的查询语句后,系统将该查询语句进行关键词匹配,从而在查询语句中筛选出携带有时间信息的目标语音,在实施时,关键词是预设的,例如:系统设置有关键词数据库,该关键词数据库中存储着多个(例如100个、1000个或者1万个)与时间相关的关键词,系统在获取查询语句后遍历该关键词数据库中所有的关键词,从而将查询语句中携带有关键词或者与关键词相匹配的目标语句筛选出来,由于关键词是与时间相关的,所示筛选出来的目标语句携带有用户语音输入的时间信息。在一个实施例中,关键词数据库可以采用已经发展成熟的关键词库,例如:网易云关键词库或者阿里云关键词库等等,当然,关键词数据库还可以通过关键词训练生成,例如通过爬虫技术建立关键词数据库。
S1120、根据预设的时间正则表达式将所述目标语句进行时间词过滤生成所述口语化时间词。
在筛选出查询语句中的目标语句后,系统根据通过时间正则表达式过滤目标语句中的时间词,得到口语化时间词,只需对携带有时间信息的目标语句进行时间词过滤,减少对查询语句进行时间词提取的处理量,提高整体处理效率,其中,时间正则表达式是预设的用于检索目标语句中的时间词的,时间正则表达式是由多个(例如3个、5个或者7个)正则表达式组成,正则表达式又称规则表达式(Regular Expression)是指一个用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串,正则表达式通常被用来检索、替换符合某个模式(规则)的文本。
在一个实施例中,以用户输入的查询语句为“检查明后两天的天气,适不适合郊游”为例,系统将该查询语句进行关键词匹配从而确定携带有时间信息的目标语句为“检查明后两天的天气”,然后通过时间正则表达式过滤目标语句中的时间词生成的口语化时间词为“明后两天”,系统通过口语化处理规则将该口语化时间词进行预处理得到第一时间信息,例如:用户输入该查询语句的时间为2016年1月14日,则该口语化时间词所表征的第一时间信息为2016年1月15日至2016年1月16日,系统即可将该第一时间信息输入值日期格式处理模型中从而得到标准格式的第二时间信息,在实施时,日期的标准格式可以为“YYYYMMDD”或时间区间“YYYYMMDD-YYYYMMDD”其中,YYYY、MM以及DD分别代表年、月和日,例如日期格式处理模型输出的第二时间信息为:20160115-20160116,系统根据该第二时间信息查询用户所需的信息,进而使得查询结果符合用户的预期需求。
在一个可选实施例中,请参阅图4,图4是本发明一个实施例对查询语句中的口语化时间词进行预处理的基本流程示意图。
如图4所示,步骤1200包括如下述步骤:
S1210、将所述口语化时间词进行无效词过滤处理生成目标时间词;
在获取查询语句中的口语化时间词后,系统还可以对该口语化时间词进行无效词过滤处理以进一步简化该口语化时间词,在实施时,无效词过滤处理是用于去除口语化时间词中与时间信息不关联的无效词语,在实施时,可以通过设置一个无效词列表,该无效词列表中包括多个(例如200个、500个或者1000个)无效词,系统根据该无效词列表在口语化时间词中查找无效词并删除,举例说明:用户输入的查询语句为“上个的季度的业绩表”,其中,该查询语句中的口语化时间词为“上个的季度”,系统将该口语化时间词进行无效词过滤处理生成目标时间词为“上个季度”,简化了口语化时间词。
S1220、根据预设的聚合规则将所述目标时间词进行聚合生成所述第一时间信息。
在对口语化时间词进行无效词过滤处理后,还可以通过聚合规则对目标时间词进行聚合以生成第一时间信息,聚合规则是预设的用于将目标时间词中时间节点相同的不同时间词进行聚合成统一的时间词,在实施时,以用户输入的查询语句为“今天的报纸报道的不是今日发生的事情,而是本日之前已经发生的事情”为例,系统将该查询语句中的“今天”、“今日”和“本日”进行聚合统一处理成“今日”,从而准确获取查询语句中的第一时间信息。
在一个可选实施例中,在将第一时间信息输入至日期格式处理模型之前,还需要对第一时间信息进行预处理以符合日期格式处理模型的输入格式要求,请参阅图5,图5是本发明一个实施例对第一时间信息进行格式转换的基本流程示意图。
如图5所示,步骤S1300之前,还包括如下述步骤:
S1230、获取预设的模型输入格式信息;
在将第一时间信息输入至日期格式处理模型之前,还可以将第一时间信息的格式与日期格式处理模型的模型输入格式进行比对,通过获取模型输入格式信息从而确定日期格式处理模型的模型输入格式,其中,模型输入格式信息表征日期格式处理模型的输入格式,例如:日期格式处理模型只能处理格式为“YYYY-MM-DD”的第一时间信息,则该模型输入格式信息表征的时间格式为“YYYY-MM-DD”。
S1240、根据所述模型输入格式信息将所述第一时间信息进行格式转换,以使格式转换后的所述第一时间信息符合所述日期格式处理模型的输入格式要求。
在获取日期格式处理模型的模型输入格式信息后,系统根据该模型输入格式信息对第一时间信息进行格式转换以满足日期格式处理模型的输入格式要求,避免出现日期格式处理模型不能识别第一时间信息的情况,在一个实施例中,以日期格式处理模型的模型输入格式信息表征为“YYYY-MM-DD”为例,当系统获取的第一时间信息的格式为“XX年XX月XX日”时,例如:2012年3月3日,其中,“XX”表示年月日的具体数值,由于第一时间信息的格式不符合日期格式处理模型的输入格式要求,日期格式处理模型不能准确识别该第一时间信息,此时,系统将第一时间信息进行格式转换,使得格式转换后的第一时间信息符合日期格式处理模型的输入格式要求,方便日期格式处理模型将第一时间信息统一成标准格式的第二时间信息。需要指出的是,模型输入格式信息和第一时间信息的格式不局限于上述的具体格式和具体数值,根据不同的应用场景,模型输入格式信息和第一时间信息还可以采用其它的格式和数值。
在一个实施例中,在步骤S1240之前,还可以将第一时间信息的格式与模型输入格式信息所表征的格式进行比对,当第一时间信息的格式与模型输入格式信息所表征的格式一致时,不执行步骤S1240,直接将该第一时间信息输入至日期格式处理模型中以生成标准格式的第二时间信息,以简化第一时间信息的处理过程,提高识别口语化时间词的效率。当第一时间信息的格式与模型输入格式信息所表征的格式不一致时,执行步骤S1240以将第一时间信息进行格式转换,使得格式转换后的第一时间信息符合日期格式处理模型的输入格式要求,方便日期格式处理模型将第一时间信息统一成标准格式的第二时间信息。
为解决上述技术问题,本发明实施例还提供一种口语化时间标准化控制装置。
具体请参阅图6,图6为本实施例口语化时间标准化控制装置基本结构示意图。
如图6所示,一种口语化时间标准化控制装置,包括:第一获取模块2100、第一处理模块2200和第一执行模块2300,其中,第一获取模块2100用于获取用户输入的查询语句,其中,所述查询语句包括所述用户语音输入的口语化时间词;第一处理模块2200用于根据预设的口语化处理规则将所述查询语句中的口语化时间词进行预处理得到第一时间信息;第一执行模块2300用于将所述第一时间信息输入至预设的日期格式处理模型中,以使所述日期格式处理模型将所述第一时间信息进行标准化格式处理生成标准格式的第二时间信息。
本实施例通过获取用户输入的查询语句,该查询语句中包括用户通过语音方法输入的口语化时间词,然后根据口语化处理规则将该口语化时间词进行预处理从而生成第一时间信息,再将该第一时间信息输入至日期格式处理模型中,使得日期格式处理模型能将该第一时间信息进行标准化格式处理以生成标准格式的第二时间信息,通过将用户输入的口语化时间词转换成标准格式的第二时间信息,从而能根据该第二时间信息准确获取符合用户预期的查询结果。
在一些实施方式中,口语化时间标准化控制装置还包括:删除模块、第二处理模块以及第二执行模块,其中,删除模块用于删除所述查询语句中的所述口语化时间词以生成查询内容语句;第二处理模块用于根据预设的常规处理规则将所述查询内容语句进行常规处理得到目标查询内容;第二执行模块用于将所述目标查询内容与所述第二时间信息进行合并生成与所述查询语句相对应的目标查询语句。
在一些实施方式中,所述常规化处理规则包括分词、语音分析以及排序中的至少一种。
在一些实施方式中,口语化时间标准化控制装置还包括:第三处理模块和第三执行模块,其中,第三处理模块用于将所述查询语句进行关键词匹配以获取所述查询语句中携带有时间信息的目标语句;第三执行模块用于根据预设的时间正则表达式将所述目标语句进行时间词过滤生成所述口语化时间词。
在一些实施方式中,口语化时间标准化控制装置还包括:第一处理子模块和第二执行子模块,其中,第一处理子模块用于将所述口语化时间词进行无效词过滤处理生成目标时间词;第二执行子模块用于根据预设的聚合规则将所述目标时间词进行聚合生成所述第一时间信息。
在一些实施方式中,口语化时间标准化控制装置还包括:第二获取模块和第四执行模块,其中,第二获取模块用于获取预设的模型输入格式信息;第四执行模块用于根据所述模型输入格式信息将所述第一时间信息进行格式转换,以使格式转换后的所述第一时间信息符合所述日期格式处理模型的输入格式要求。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图7,图7为本实施例计算机设备基本结构框图。
如图7所示,计算机设备的内部结构示意图。如图7所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种口语化时间标准化控制方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种口语化时间标准化控制方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图6中第一获取模块2100、第一处理模块2200和第一执行模块2300,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有口语化时间标准化控制装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机通过获取用户输入的查询语句,该查询语句中包括用户通过语音方法输入的口语化时间词,然后根据口语化处理规则将该口语化时间词进行预处理从而生成第一时间信息,再将该第一时间信息输入至日期格式处理模型中,使得日期格式处理模型能将该第一时间信息进行标准化格式处理以生成标准格式的第二时间信息,通过将用户输入的口语化时间词转换成标准格式的第二时间信息,从而能根据该第二时间信息准确获取符合用户预期的查询结果。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述口语化时间标准化控制方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种口语化时间标准化控制方法,其特征在于,包括下述步骤:
获取用户输入的查询语句,其中,所述查询语句包括所述用户语音输入的口语化时间词;
根据预设的口语化处理规则将所述查询语句中的口语化时间词进行预处理得到第一时间信息;
将所述第一时间信息输入至预设的日期格式处理模型中,以使所述日期格式处理模型将所述第一时间信息进行标准化格式处理生成标准格式的第二时间信息。
2.根据权利要求1所述的口语化时间标准化控制方法,其特征在于,所述将所述第一时间信息输入至预设的日期格式处理模型中,以使所述日期格式处理模型将所述第一时间信息进行标准化格式处理生成标准格式的第二时间信息的步骤之后,还包括如下述步骤:
删除所述查询语句中的所述口语化时间词以生成查询内容语句;
根据预设的常规处理规则将所述查询内容语句进行常规处理得到目标查询内容;
将所述目标查询内容与所述第二时间信息进行合并生成与所述查询语句相对应的目标查询语句。
3.根据权利要求2所述的口语化时间标准化控制方法,其特征在于,所述常规化处理规则包括分词、语音分析以及排序中的至少一种。
4.根据权利要求1所述的口语化时间标准化控制方法,其特征在于,所述根据预设的口语化处理规则将所述查询语句中的口语化时间词进行预处理得到第一时间信息的步骤之前,包括如下述步骤:
将所述查询语句进行关键词匹配以获取所述查询语句中携带有时间信息的目标语句;
根据预设的时间正则表达式将所述目标语句进行时间词过滤生成所述口语化时间词。
5.根据权利要求1所述的口语化时间标准化控制方法,其特征在于,所述根据预设的口语化处理规则将所述查询语句中的口语化时间词进行预处理得到第一时间信息的步骤,包括如下述步骤:
将所述口语化时间词进行无效词过滤处理生成目标时间词;
根据预设的聚合规则将所述目标时间词进行聚合生成所述第一时间信息。
6.根据权利要求1所述的口语化时间标准化控制方法,其特征在于,所述将所述第一时间信息输入至预设的日期格式处理模型中,以使所述日期格式处理模型将所述第一时间信息进行标准化格式处理生成标准格式的第二时间信息的步骤之前,还包括如下述步骤:
获取预设的模型输入格式信息;
根据所述模型输入格式信息将所述第一时间信息进行格式转换,以使格式转换后的所述第一时间信息符合所述日期格式处理模型的输入格式要求。
7.一种口语化时间标准化控制装置,其特征在于,包括:
第一获取模块,用于获取用户输入的查询语句,其中,所述查询语句包括所述用户语音输入的口语化时间词;
第一处理模块,用于根据预设的口语化处理规则将所述查询语句中的口语化时间词进行预处理得到第一时间信息;
第一执行模块,用于将所述第一时间信息输入至预设的日期格式处理模型中,以使所述日期格式处理模型将所述第一时间信息进行标准化格式处理生成标准格式的第二时间信息。
8.根据权利要求7所述的口语化时间标准化控制装置,其特征在于,还包括:
删除模块,用于删除所述查询语句中的所述口语化时间词以生成查询内容语句;
第二处理模块,用于根据预设的常规处理规则将所述查询内容语句进行常规处理得到目标查询内容;
第二执行模块,用于将所述目标查询内容与所述第二时间信息进行合并生成与所述查询语句相对应的目标查询语句。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项权利要求所述口语化时间标准化控制方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至6中任一项权利要求所述口语化时间标准化控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811512387.3A CN109800338A (zh) | 2018-12-11 | 2018-12-11 | 口语化时间标准化控制方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811512387.3A CN109800338A (zh) | 2018-12-11 | 2018-12-11 | 口语化时间标准化控制方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109800338A true CN109800338A (zh) | 2019-05-24 |
Family
ID=66556572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811512387.3A Pending CN109800338A (zh) | 2018-12-11 | 2018-12-11 | 口语化时间标准化控制方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109800338A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781305A (zh) * | 2019-10-30 | 2020-02-11 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
CN112420027A (zh) * | 2020-11-04 | 2021-02-26 | 北京致远互联软件股份有限公司 | 一种基于对口语化时间段语音识别率提升方法 |
CN112687265A (zh) * | 2020-12-28 | 2021-04-20 | 苏州思必驰信息科技有限公司 | 逆文本标准化方法及系统 |
CN112825087A (zh) * | 2019-11-21 | 2021-05-21 | 浙江大搜车软件技术有限公司 | 用户信息查找方法、装置、计算机设备和存储介质 |
CN113672622A (zh) * | 2021-08-23 | 2021-11-19 | 泰康保险集团股份有限公司 | 一种业务处理方法和装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110004624A1 (en) * | 2009-07-02 | 2011-01-06 | International Business Machines Corporation | Method for Customer Feedback Measurement in Public Places Utilizing Speech Recognition Technology |
CN105702252A (zh) * | 2016-03-31 | 2016-06-22 | 海信集团有限公司 | 一种语音识别方法及装置 |
CN106164892A (zh) * | 2014-03-26 | 2016-11-23 | 微软技术许可有限责任公司 | 用于语言转换的时间转换语法 |
CN106571139A (zh) * | 2016-11-09 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索结果处理方法及装置 |
US20170125015A1 (en) * | 2014-06-24 | 2017-05-04 | Nuance Communications, Inc. | Methods and apparatus for joint stochastic and deterministic dictation formatting |
CN106970913A (zh) * | 2017-05-12 | 2017-07-21 | 湖南中周至尚信息技术有限公司 | 一种时间的提取方法及装置 |
CN107729314A (zh) * | 2017-09-29 | 2018-02-23 | 东软集团股份有限公司 | 一种中文时间识别方法、装置及存储介质、程序产品 |
CN107783962A (zh) * | 2017-11-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于查询指令的方法及装置 |
CN108257593A (zh) * | 2017-12-29 | 2018-07-06 | 深圳和而泰数据资源与云技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN108920500A (zh) * | 2018-05-24 | 2018-11-30 | 众安信息技术服务有限公司 | 一种时间解析方法 |
-
2018
- 2018-12-11 CN CN201811512387.3A patent/CN109800338A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110004624A1 (en) * | 2009-07-02 | 2011-01-06 | International Business Machines Corporation | Method for Customer Feedback Measurement in Public Places Utilizing Speech Recognition Technology |
CN106164892A (zh) * | 2014-03-26 | 2016-11-23 | 微软技术许可有限责任公司 | 用于语言转换的时间转换语法 |
US20170125015A1 (en) * | 2014-06-24 | 2017-05-04 | Nuance Communications, Inc. | Methods and apparatus for joint stochastic and deterministic dictation formatting |
CN105702252A (zh) * | 2016-03-31 | 2016-06-22 | 海信集团有限公司 | 一种语音识别方法及装置 |
CN106571139A (zh) * | 2016-11-09 | 2017-04-19 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音搜索结果处理方法及装置 |
CN106970913A (zh) * | 2017-05-12 | 2017-07-21 | 湖南中周至尚信息技术有限公司 | 一种时间的提取方法及装置 |
CN107729314A (zh) * | 2017-09-29 | 2018-02-23 | 东软集团股份有限公司 | 一种中文时间识别方法、装置及存储介质、程序产品 |
CN107783962A (zh) * | 2017-11-23 | 2018-03-09 | 百度在线网络技术(北京)有限公司 | 用于查询指令的方法及装置 |
CN108257593A (zh) * | 2017-12-29 | 2018-07-06 | 深圳和而泰数据资源与云技术有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN108920500A (zh) * | 2018-05-24 | 2018-11-30 | 众安信息技术服务有限公司 | 一种时间解析方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781305A (zh) * | 2019-10-30 | 2020-02-11 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
CN110781305B (zh) * | 2019-10-30 | 2023-06-06 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
CN112825087A (zh) * | 2019-11-21 | 2021-05-21 | 浙江大搜车软件技术有限公司 | 用户信息查找方法、装置、计算机设备和存储介质 |
CN112420027A (zh) * | 2020-11-04 | 2021-02-26 | 北京致远互联软件股份有限公司 | 一种基于对口语化时间段语音识别率提升方法 |
CN112687265A (zh) * | 2020-12-28 | 2021-04-20 | 苏州思必驰信息科技有限公司 | 逆文本标准化方法及系统 |
CN113672622A (zh) * | 2021-08-23 | 2021-11-19 | 泰康保险集团股份有限公司 | 一种业务处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800338A (zh) | 口语化时间标准化控制方法、装置、计算机设备及存储介质 | |
CN109670163B (zh) | 信息识别方法、信息推荐方法、模板构建方法及计算设备 | |
CN108874878A (zh) | 一种知识图谱的构建系统及方法 | |
CN109522011B (zh) | 一种基于编程现场上下文深度感知的代码行推荐方法 | |
CN110020422A (zh) | 特征词的确定方法、装置和服务器 | |
CN110795932B (zh) | 基于地质本体的地质报告文本信息提取方法 | |
EP3483747A1 (en) | Preserving and processing ambiguity in natural language | |
CN108345686A (zh) | 一种基于搜索引擎技术的数据分析方法及系统 | |
CN107704539A (zh) | 大规模文本信息批量结构化的方法及装置 | |
CN109740159B (zh) | 用于命名实体识别的处理方法及装置 | |
CN109947921A (zh) | 一种基于自然语言处理的智能问答系统 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN113869066A (zh) | 一种基于农业领域文本的语义理解方法及系统 | |
CN112732969A (zh) | 图像语义分析方法、装置、存储介质及电子设备 | |
CN117195829A (zh) | 文本标注方法、文本标注装置及电子设备 | |
CN115146118B (zh) | 信息检索方法、装置、设备及存储介质 | |
CN103544167A (zh) | 一种基于中文检索的逆向分词方法及装置 | |
CN113076468B (zh) | 一种基于领域预训练的嵌套事件抽取方法 | |
CN113392202A (zh) | 基于知识图谱的问答系统和方法 | |
CN109657047B (zh) | 一种基于爬虫技术和机器学习的语音自动问答方法及系统 | |
KR101225333B1 (ko) | 구문론적으로 분석된 텍스트 코퍼스로부터 정보를 추출하는 트리 패턴 표현식을 이용한 시스템 및 방법 | |
CN113010642A (zh) | 语义关系的识别方法、装置、电子设备及可读存储介质 | |
CN105895091A (zh) | 一种eswfst构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |