CN109284362A - 一种内容检索方法及系统 - Google Patents

一种内容检索方法及系统 Download PDF

Info

Publication number
CN109284362A
CN109284362A CN201811335789.0A CN201811335789A CN109284362A CN 109284362 A CN109284362 A CN 109284362A CN 201811335789 A CN201811335789 A CN 201811335789A CN 109284362 A CN109284362 A CN 109284362A
Authority
CN
China
Prior art keywords
regular expression
content
target
keyword
voice messaging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811335789.0A
Other languages
English (en)
Other versions
CN109284362B (zh
Inventor
魏誉荧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Genius Technology Co Ltd
Original Assignee
Guangdong Genius Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Genius Technology Co Ltd filed Critical Guangdong Genius Technology Co Ltd
Priority to CN201811335789.0A priority Critical patent/CN109284362B/zh
Publication of CN109284362A publication Critical patent/CN109284362A/zh
Application granted granted Critical
Publication of CN109284362B publication Critical patent/CN109284362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据处理技术领域,公开了一种内容检索方法及系统,其方法包括:建立包括多个正则表达式的正则表达式库;获取正则表达式中的关键字对应的语义槽;获取用户输入的语音信息;将语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式;根据所述目标正则表达式及目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,得到检索结果。本发明根据目标正则表达式及目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,当目标正则表达式检索不到时,可根据关键字对应的语义槽中的词语进行检索,以确保能检索到所需的内容,防止出现检索失败的情况,提高检索的成功率。

Description

一种内容检索方法及系统
技术领域
本发明属于数据处理技术领域,特别涉及一种内容检索方法及系统。
背景技术
随着智能终端及网络技术的迅速发展,人们越来越习惯地使用智能终端完成各种需求,如在学习的过程中,碰到不理解的知识点、不会解的习题时,在智能学习设备中语音输入相关知识点,检索对应的答案和知识讲解,以便对用户进行学习辅导。
目前,在人机交互场景中,通过语音对内容进行检索的方法,一般是通过关键字语查找来进行检索,但是如果用户无法精确说明需要检索的关键字,则会造成检索失败的情况,因此,通过关键字检索的方法具备很大的局限性,不利于用户的使用。
发明内容
本发明的目的是提供一种内容检索方法及系统,通过正则表达式对内容进行检索,以提高检索的成功率。
本发明提供的技术方案如下:
一方面,提供一种内容检索方法,包括:
建立包括多个正则表达式的正则表达式库;
获取所述正则表达式中的关键字对应的语义槽;
获取用户输入的语音信息;
将所述语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式;
根据所述目标正则表达式及所述目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,得到检索结果。
优选地,所述建立包括多个正则表达式的正则表达式库具体包括:
获取大量语料信息;
对每个所述语料信息进行分词并提取语料信息中的关键字;
根据每个所述语料信息中的关键字和语法结构,生成每个所述语料信息对应的正则表达式;
根据每个所述语料信息对应的正则表达式,建立包括多个正则表达式的正则表达式库。
优选地,所述将所述语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式具体包括:
将所述语音信息与所述正则表达式库中的正则表达式的每个匹配项进行匹配;
若所述语音信息与所述正则表达式库中的某一正则表达式的每个匹配项都匹配,且与所述匹配项相匹配的匹配信息在所述语音信息中的排列顺序与所述匹配项在所述某一正则表达式中的排列顺序相同,则所述某一正则表达式为目标正则表达式。
优选地,所述根据所述目标正则表达式及所述目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,得到检索结果具体包括:
利用所述目标正则表达式中的关键字对应的语义槽中的字词替换所述目标正则表达式中对应的关键字;
根据所述目标正则表达式和替换关键字后的目标正则表达式,对存储的内容进行检索,得到检索结果。
优选地,所述根据所述目标正则表达式和替换关键字后的目标正则表达式,对存储的内容进行检索,得到检索结果具体包括:
根据所述目标正则表达式,对存储的内容进行检索,并标记检索到的内容;
根据替换关键字后的目标正则表达式,对存储的内容进行检索,并标记检索到的内容;
统计标记的内容中,相同内容出现的频率;
根据频率大小,对标记的内容进行排序,得到检索结果。
另一方面,还提供一种内容检索系统,包括:
正则表达式库建立模块,用于建立包括多个正则表达式的正则表达式库;
语义槽获取模块,用于获取所述正则表达式中的关键字对应的语义槽;
语音信息获取模块,用于获取用户输入的语音信息;
匹配查找模块,用于将所述语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式;
检索模块,用于根据所述目标正则表达式及所述目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,得到检索结果。
优选地,所述正则表达式库建立模块包括:
语料信息获取单元,用于获取大量语料信息;
关键字提取单元,用于对每个所述语料信息进行分词并提取语料信息中的关键字;
正则表达式生成单元,用于根据每个所述语料信息中的关键字和语法结构,生成每个所述语料信息对应的正则表达式;
正则表达式库建立单元,用于根据每个所述语料信息对应的正则表达式,建立包括多个正则表达式的正则表达式库。
优选地,所述匹配查找模块包括:
匹配查找单元,用于将所述语音信息与所述正则表达式库中的正则表达式的每个匹配项进行匹配;若所述语音信息与所述正则表达式库中的某一正则表达式的每个匹配项都匹配,且与所述匹配项相匹配的匹配信息在所述语音信息中的排列顺序与所述匹配项在所述某一正则表达式中的排列顺序相同,则所述某一正则表达式为目标正则表达式。
优选地,所述检索模块包括:
替换单元,用于利用所述目标正则表达式中的关键字对应的语义槽中的字词替换所述目标正则表达式中对应的关键字;
检索单元,用于根据所述目标正则表达式和替换关键字后的目标正则表达式,对存储的内容进行检索,得到检索结果。
优选地,所述检索单元包括:
检索标记子单元,用于根据所述目标正则表达式,对存储的内容进行检索,并标记检索到的内容;
所述检索标记子单元,还用于根据替换关键字后的目标正则表达式,对存储的内容进行检索,并标记检索到的内容;
统计子单元,用于统计标记的内容中,相同内容出现的频率;
排序子单元,用于根据频率大小,对标记的内容进行排序,得到检索结果。
与现有技术相比,本发明提供的一种内容检索方法及系统具有以下有益效果:
1、本发明根据目标正则表达式及目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,当目标正则表达式检索不到时,可根据关键字对应的语义槽中的词语进行检索,以确保能检索到所需的内容,防止出现检索失败的情况,提高检索的成功率。
2、在本发明优选的实施例中,在查找目标正则表达式时,通过将语音信息与正则表达式库中的每个正则表达式的每个匹配项进行匹配,可提高查找的准确率。
3、在本发明优选的实施例中,通过相同内容出现的频率,对检索到的内容进行排序,来确定最终检索结果,可提高检索的准确率。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种内容检索方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种内容检索方法的第一实施例的流程示意图;
图2是本发明一种内容检索方法的第二实施例的流程示意图;
图3是本发明一种内容检索方法的第三实施例的流程示意图;
图4是本发明一种内容检索方法的第四实施例的流程示意图;
图5是本发明一种内容检索方法的第五实施例的流程示意图;
图6是本发明一种内容检索系统的一个实施例的结构示意框图;
图7是本发明一种内容检索系统的另一个实施例的结构示意框图。
附图标号说明
100、正则表达式库建立模块; 110、语料信息获取单元;
120、关键字提取单元; 130、正则表达式生成单元;
140、正则表达式库建立单元; 200、语义槽获取模块;
300、语音信息获取模块; 400、匹配查找模块;
410、匹配查找单元; 500、检索模块;
510、替换单元; 520、检索单元;
521、检索标记子单元; 522、统计子单元;
523、排序子单元。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
根据本发明提供的第一实施例,如图1所示,一种内容检索方法,包括:
S100建立包括多个正则表达式的正则表达式库;
具体地,正则表达式又称规则表达式,其描述了一种字符串匹配的模式,可以用来检索和/或替换那些符合某个模式的文本内容。正则表达式一般由普通字符和元字符组成,普通字符包括数字和大小写的字母,而元字符是具有特殊的含义的字符。
例如,“s”表示任何空白字符,包括空格、制表符、换页符等,“.”表示除换行元字符“”以外的任意字符,“*”表示前面的子表达式重复零次或多次。
在实际操作时,可根据不同的业务类型,获取对应的正则表达式,然后根据获取的正则表达式,建立一个包括多种不同业务类型的正则表达式的正则表达式库。
例如,与音乐相关的正则表达式可为(听).*(歌),该正则表达式所制定的字符规则为:“听”后面连接“歌”,且“听”与“歌”之间可以存在若干个字符或者不存在字符。其可以匹配的语料为我想听歌、我要听a的歌或我不想听a唱的歌等。
S200获取所述正则表达式中的关键字对应的语义槽;
具体地,建立正则表达式库后,获取正则表达式库中的正则表达式中的关键字对应的语义槽。语义槽是指包括具有相似语义的词语等的集合。
如“春天”语义槽中包括“春天、春季、早春、晚春、阳春”等;查询语义槽包括“查询、查下、看下、问下、搜寻、搜索、查找、寻找”等;“时间”语义槽包括“昨天、今天、明天、去年、明年、今年、2018年”等;“城市”语义槽包括“北京、上海、广州、深圳”等;“天气”语义槽包括“天气、气候、气温、气象、天色”等。
例如,某一与比赛相关的正则表达式为(比赛).*(战胜),该正则表达式中的关键字为“比赛”和“战胜”,则获取比赛的语义槽和战胜的语义槽,比赛的语义槽可包括“竞争、较量、竞赛”等,战胜的语义槽可包括“征服、制服、打败、克制、击败”等。
S300获取用户输入的语音信息;
具体地,用户输入的语音信息可以是用户实时输入的语音,例如用户与智能产品进行语音交互时输入的信息;还可以是从网上下载下来的音频或事先录制好的音频。
S400将所述语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式;
具体地,获取到用户输入的语音信息后,将该语音信息与正则表达式库中的每个正则表达式进行匹配,若语音信息与某一正则表达式相匹配,则该某一正则表达式为目标正则表达式。
例如,用户输入的语音信息为我想听a唱的歌,正则表达式库中有一个正则表达式为(听).*(歌),则用户输入的语音信息与该正则表达式(听).*(歌)匹配,该正则表达式即为目标正则表达式。
S500根据所述目标正则表达式及所述目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,得到检索结果。
具体地,在正则表达式库中匹配到目标正则表达式后,获取该目标正则表达式中的关键字对应的语义槽,然后根据目标正则表达式和目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,以得到检索结果。
例如目标正则表达式(听).*(歌)中的关键字“听”的语义槽中可包括“闻、聆”等,关键字“歌”的语义槽中可包括“歌曲、曲”等。根据该目标正则表达式(听).*(歌)以及该目标正则表达式中的关键词对应的语义槽,对存储的内容进行检索,得到检索结果。
本发明根据目标正则表达式及目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,当目标正则表达式检索不到时,可根据关键字对应的语义槽中的词语进行检索,以确保能检索到所需的内容,防止出现检索失败的情况,提高检索的成功率。
根据本发明提供的第二实施例,如图2所示,一种内容检索方法,包括:
S110获取大量语料信息;
具体地,搜集大量用户的语料信息,该语料信息可是从网络上直接下载得到,还可以是与用户在历史交互过程中获取到的信息。该语料信息可以是文字信息也可以是语音信息。
S120对每个所述语料信息进行分词并提取语料信息中的关键字;
具体地,获取用户的语料信息后,对每个语料信息进行分词,提取语料信息中的关键字。当语料信息为文字信息时,可直接利用分词软件对该语料信息进行分词提取关键字;当语料信息为语音信息时,可先将语料信息转换为文本信息,然后再对转换后的文本信息进行分词,提取文本信息中的关键字。
S130根据每个所述语料信息中的关键字和语法结构,生成每个所述语料信息对应的正则表达式;
具体地,提取出每个语料信息中的关键字后,根据语法结构和正则表达式的字符规则,将每个语料信息中的关键字按一定规则生成每个语料信息对应的正则表达式。
S140根据每个所述语料信息对应的正则表达式,建立包括多个正则表达式的正则表达式库;
具体地,将每个语料信息生成对应的正则表达式后,还可将匹配规则相同的正则表达式进行合并,然后将这些正则表达式建立成正则表达式库。将匹配规则相同的正则表达式进行合并,可减少正则表达式库中的正则表达式的数量,使得将用户输入的语音信息与正则表达式库中的正则表达式进行匹配时,缩短匹配时间,提高匹配效率。
S200获取所述正则表达式中的关键字对应的语义槽;
S300获取用户输入的语音信息;
S400将所述语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式;
S500根据所述目标正则表达式及所述目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,得到检索结果。
根据本发明提供的第三实施例,如图3所示,一种内容检索方法,包括:
S100建立包括多个正则表达式的正则表达式库;
S200获取所述正则表达式中的关键字对应的语义槽;
S300获取用户输入的语音信息;
S410将所述语音信息与所述正则表达式库中的正则表达式的每个匹配项进行匹配;
具体地,将语音信息与正则表达式库中的正则表达式进行匹配时,需要将语音信息与正则表达式中的每个匹配项进行匹配。
例如正则表达式为(听).*(歌),则将语音信息与正则表达式中的每个匹配项“听”、“.*”、“歌”进行匹配。
S420若所述语音信息与所述正则表达式库中的某一正则表达式的每个匹配项都匹配,且与所述匹配项相匹配的匹配信息在所述语音信息中的排列顺序与所述匹配项在所述某一正则表达式中的排列顺序相同,则所述某一正则表达式为目标正则表达式;
具体地,若语音信息与某一正则表达式的每个匹配项都匹配,且与匹配项相匹配的匹配信息在语音信息中的排列顺序与匹配项在该正则表达式中的排列顺序相同,则该正则表达式为目标正则表达式。
例如正则表达式为(听).*(歌),语音信息为“我想听a唱的歌”,语音信息中“听”与该正则表达式中第一个匹配项(听)匹配,语音信息中的“a唱的”与正则表达式中的第二个匹配项(.*)相匹配,语音信息中的“歌”与正则表达式中的第三个匹配项(歌)相匹配,且与正则表达式中的匹配项相匹配的匹配信息“听”、“a唱的”、“歌”在语音信息中的排列顺序与匹配项(听)、(.*)、(歌)在正则表达式中的排列顺序相同,则该正则表达式为(听).*(歌)为语音信息“我想听a唱的歌”的目标正则表达式。
S500根据所述目标正则表达式及所述目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,得到检索结果。
本实施例中,在查找目标正则表达式时,通过将语音信息与正则表达式库中的每个正则表达式的每个匹配项进行匹配,可提高查找的准确率。
根据本发明提供的第四实施例,如图4所示,一种内容检索方法,包括:
S100建立包括多个正则表达式的正则表达式库;
S200获取所述正则表达式中的关键字对应的语义槽;
S300获取用户输入的语音信息;
S400将所述语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式;
S510利用所述目标正则表达式中的关键字对应的语义槽中的字词替换所述目标正则表达式中对应的关键字;
具体地,匹配到目标正则表达式后,利用目标正则表达式中的关键字对应的语义槽中的字或词替换目标正则表达式中对应的关键字,得到替换关键字后的目标正则表达式。
S520根据所述目标正则表达式和替换关键字后的目标正则表达式,对存储的内容进行检索,得到检索结果。
具体地,得到替换关键字后的目标正则表达式后,利用替换前的目标正则表达式和替换后的目标正则表达式是,对存储的内容进行检索,得到符合替换前的目标正则表达式或替换后的目标正则表达式的匹配规则的检索结果。
根据本发明提供的第五实施例,如图5所示,一种内容检索方法,包括:
S100建立包括多个正则表达式的正则表达式库;
S200获取所述正则表达式中的关键字对应的语义槽;
S300获取用户输入的语音信息;
S400将所述语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式;
S510利用所述目标正则表达式中的关键字对应的语义槽中的字词替换所述目标正则表达式中对应的关键字;
S521根据所述目标正则表达式,对存储的内容进行检索,并标记检索到的内容;
S522根据替换关键字后的目标正则表达式,对存储的内容进行检索,并标记检索到的内容;
S523统计标记的内容中,相同内容出现的频率;
S524根据频率大小,对标记的内容进行排序,得到检索结果。
具体地,得到替换关键字前的目标正则表达式和替换关键字后的目标正则表达式后,先根据替换关键字前的目标正则表达式对存储的内容进行检索,并将检索到的符合替换关键字前的目标正则表达式的匹配规则的内容进行标记;然后根据替换关键字后的目标正则表达式对存储的内容进行检索,并标记检索到的内容。
最后在所有标记的内容,统计相同内容被标记的频率,然后根据内容被标记的频率大小,对标记的内容进行排序,即按频率由高到低的顺序对标记的内容进行排序,排序后的标记内容即为得到的检索结果。
本实施例中,通过相同内容出现的频率,对检索到的内容进行排序,来确定最终检索结果,可提高检索的准确率。
根据本发明提供的第六实施例,如图6所示,一种内容检索系统,包括:
正则表达式库建立模块100,用于建立包括多个正则表达式的正则表达式库;
具体地,正则表达式又称规则表达式,其描述了一种字符串匹配的模式,可以用来检索和/或替换那些符合某个模式的文本内容。正则表达式一般由普通字符和元字符组成,普通字符包括数字和大小写的字母,而元字符是具有特殊的含义的字符。
例如,“s”表示任何空白字符,包括空格、制表符、换页符等,“.”表示除换行元字符“”以外的任意字符,“*”表示前面的子表达式重复零次或多次。
在实际操作时,可根据不同的业务类型,获取对应的正则表达式,然后根据获取的正则表达式,建立一个包括多种不同业务类型的正则表达式的正则表达式库。
例如,与音乐相关的正则表达式可为(听).*(歌),该正则表达式所制定的字符规则为:“听”后面连接“歌”,且“听”与“歌”之间可以存在若干个字符或者不存在字符。其可以匹配的语料为我想听歌、我要听a的歌或我不想听a唱的歌等。
语义槽获取模块200,用于获取所述正则表达式中的关键字对应的语义槽;
具体地,建立正则表达式库后,获取正则表达式库中的正则表达式中的关键字对应的语义槽。语义槽是指包括具有相似语义的词语等的集合。
如“春天”语义槽中包括“春天、春季、早春、晚春、阳春”等;查询语义槽包括“查询、查下、看下、问下、搜寻、搜索、查找、寻找”等;“时间”语义槽包括“昨天、今天、明天、去年、明年、今年、2018年”等;“城市”语义槽包括“北京、上海、广州、深圳”等;“天气”语义槽包括“天气、气候、气温、气象、天色”等。
例如,某一与比赛相关的正则表达式为(比赛).*(战胜),该正则表达式中的关键字为“比赛”和“战胜”,则获取比赛的语义槽和战胜的语义槽,比赛的语义槽可包括“竞争、较量、竞赛”等,战胜的语义槽可包括“征服、制服、打败、克制、击败”等。
语音信息获取模块300,用于获取用户输入的语音信息;
具体地,用户输入的语音信息可以是用户实时输入的语音,例如用户与智能产品进行语音交互时输入的信息;还可以是从网上下载下来的音频或事先录制好的音频。
匹配查找模块400,用于将所述语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式;
具体地,获取到用户输入的语音信息后,将该语音信息与正则表达式库中的每个正则表达式进行匹配,若语音信息与某一正则表达式相匹配,则该某一正则表达式为目标正则表达式。
例如,用户输入的语音信息为我想听a唱的歌,正则表达式库中有一个正则表达式为(听).*(歌),则用户输入的语音信息与该正则表达式(听).*(歌)匹配,该正则表达式即为目标正则表达式。
检索模块500,用于根据所述目标正则表达式及所述目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,得到检索结果。
具体地,在正则表达式库中匹配到目标正则表达式后,获取该目标正则表达式中的关键字对应的语义槽,然后根据目标正则表达式和目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,以得到检索结果。例如目标正则表达式(听).*(歌)中的关键字“听”的语义槽中可包括“闻、聆”等,关键字“歌”的语义槽中可包括“歌曲、曲”等。根据该目标正则表达式(听).*(歌)以及该目标正则表达式中的关键词对应的语义槽,对存储的内容进行检索,得到检索结果。
本发明根据目标正则表达式及目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,当目标正则表达式检索不到时,可根据关键字对应的语义槽中的词语进行检索,以确保能检索到所需的内容,防止出现检索失败的情况,提高检索的成功率。
根据本发明提供的第七实施例,如图7所示,一种内容检索系统,包括:
正则表达式库建立模块100,用于建立包括多个正则表达式的正则表达式库;
具体地,通过正则表达式库建立模块100建立一个包括多种不同正则表达式的正则表达式库。例如,与音乐相关的正则表达式可为(听).*(歌),该正则表达式所制定的字符规则为:“听”后面连接“歌”,且“听”与“歌”之间可以存在若干个字符或者不存在字符。其可以匹配的语料为我想听歌、我要听a的歌或我不想听a唱的歌等。
语义槽获取模块200,用于获取所述正则表达式中的关键字对应的语义槽;
例如,某一与比赛相关的正则表达式为(比赛).*(战胜),该正则表达式中的关键字为“比赛”和“战胜”,则获取比赛的语义槽和战胜的语义槽,比赛的语义槽可包括“竞争、较量、竞赛”等,战胜的语义槽可包括“征服、制服、打败、克制、击败”等。
语音信息获取模块300,用于获取用户输入的语音信息;
匹配查找模块400,用于将所述语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式;
例如,用户输入的语音信息为我想听a唱的歌,正则表达式库中有一个正则表达式为(听).*(歌),则用户输入的语音信息与该正则表达式(听).*(歌)匹配,该正则表达式即为目标正则表达式。
检索模块500,用于根据所述目标正则表达式及所述目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,得到检索结果。
具体地,在正则表达式库中匹配到目标正则表达式后,获取该目标正则表达式中的关键字对应的语义槽,然后根据目标正则表达式和目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,以得到检索结果。
例如目标正则表达式(听).*(歌)中的关键字“听”的语义槽中可包括“闻、聆”等,关键字“歌”的语义槽中可包括“歌曲、曲”等。根据该目标正则表达式(听).*(歌)以及该目标正则表达式中的关键词对应的语义槽,对存储的内容进行检索,得到检索结果。
本实施例根据目标正则表达式及目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,当目标正则表达式检索不到时,可根据关键字对应的语义槽中的词语进行检索,以确保能检索到所需的内容,防止出现检索失败的情况,提高检索的成功率。
优选地,所述正则表达式库建立模块100包括:
语料信息获取单元110,用于获取大量语料信息;
具体地,搜集大量用户的语料信息,该语料信息可是从网络上直接下载得到,还可以是与用户在历史交互过程中获取到的信息。该语料信息可以是文字信息也可以是语音信息。
关键字提取单元120,用于对每个所述语料信息进行分词并提取语料信息中的关键字;
具体地,获取用户的语料信息后,对每个语料信息进行分词,提取语料信息中的关键字。当语料信息为文字信息时,可直接利用分词软件对该语料信息进行分词提取关键字;当语料信息为语音信息时,可先将语料信息转换为文本信息,然后再对转换后的文本信息进行分词,提取文本信息中的关键字。
正则表达式生成单元130,用于根据每个所述语料信息中的关键字和语法结构,生成每个所述语料信息对应的正则表达式;
具体地,提取出每个语料信息中的关键字后,根据语法结构和正则表达式的字符规则,将每个语料信息中的关键字按一定规则生成每个语料信息对应的正则表达式。
正则表达式库建立单元140,用于根据每个所述语料信息对应的正则表达式,建立包括多个正则表达式的正则表达式库。
具体地,将每个语料信息生成对应的正则表达式后,还可将匹配规则相同的正则表达式进行合并,然后将这些正则表达式建立成正则表达式库。将匹配规则相同的正则表达式进行合并,可减少正则表达式库中的正则表达式的数量,使得将用户输入的语音信息与正则表达式库中的正则表达式进行匹配时,缩短匹配时间,提高匹配效率。
优选地,所述匹配查找模块400包括:
匹配查找单元410,用于将所述语音信息与所述正则表达式库中的正则表达式的每个匹配项进行匹配;若所述语音信息与所述正则表达式库中的某一正则表达式的每个匹配项都匹配,且与所述匹配项相匹配的匹配信息在所述语音信息中的排列顺序与所述匹配项在所述某一正则表达式中的排列顺序相同,则所述某一正则表达式为目标正则表达式。
具体地,将语音信息与正则表达式库中的正则表达式进行匹配时,需要将语音信息与正则表达式中的每个匹配项进行匹配。
例如正则表达式为(听).*(歌),则将语音信息与正则表达式中的每个匹配项“听”、“.*”、“歌”进行匹配。
若语音信息与某一正则表达式的每个匹配项都匹配,且与匹配项相匹配的匹配信息在语音信息中的排列顺序与匹配项在该正则表达式中的排列顺序相同,则该正则表达式为目标正则表达式。
例如正则表达式为(听).*(歌),语音信息为“我想听a唱的歌”,语音信息中“听”与该正则表达式中第一个匹配项(听)匹配,语音信息中的“a唱的”与正则表达式中的第二个匹配项(.*)相匹配,语音信息中的“歌”与正则表达式中的第三个匹配项(歌)相匹配,且与正则表达式中的匹配项相匹配的匹配信息“听”、“a唱的”、“歌”在语音信息中的排列顺序与匹配项(听)、(.*)、(歌)在正则表达式中的排列顺序相同,则该正则表达式为(听).*(歌)为语音信息“我想听a唱的歌”的目标正则表达式。
在查找目标正则表达式时,通过将语音信息与正则表达式库中的每个正则表达式的每个匹配项进行匹配,可提高查找的准确率。
优选地,所述检索模块500包括:
替换单元510,用于利用所述目标正则表达式中的关键字对应的语义槽中的字词替换所述目标正则表达式中对应的关键字;、
具体地,匹配到目标正则表达式后,利用目标正则表达式中的关键字对应的语义槽中的字或词替换目标正则表达式中对应的关键字,得到替换关键字后的目标正则表达式。
检索单元520,用于根据所述目标正则表达式和替换关键字后的目标正则表达式,对存储的内容进行检索,得到检索结果。
具体地,得到替换关键字后的目标正则表达式后,利用替换前的目标正则表达式和替换后的目标正则表达式是,对存储的内容进行检索,得到符合替换前的目标正则表达式或替换后的目标正则表达式的匹配规则的检索结果。
优选地,所述检索单元520包括:
检索标记子单元521,用于根据所述目标正则表达式,对存储的内容进行检索,并标记检索到的内容;
所述检索标记子单元521,还用于根据替换关键字后的目标正则表达式,对存储的内容进行检索,并标记检索到的内容;
统计子单元522,用于统计标记的内容中,相同内容出现的频率;
排序子单元523,用于根据频率大小,对标记的内容进行排序,得到检索结果。
具体地,得到替换关键字前的目标正则表达式和替换关键字后的目标正则表达式后,先根据替换关键字前的目标正则表达式对存储的内容进行检索,并将检索到的符合替换关键字前的目标正则表达式的匹配规则的内容进行标记;然后根据替换关键字后的目标正则表达式对存储的内容进行检索,并标记检索到的内容。
最后在所有标记的内容,统计相同内容被标记的频率,然后根据内容被标记的频率大小,对标记的内容进行排序,即按频率由高到低的顺序对标记的内容进行排序,排序后的标记内容即为得到的检索结果。
通过相同内容出现的频率,对检索到的内容进行排序,来确定最终检索结果,可提高检索的准确率。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种内容检索方法,其特征在于,包括:
建立包括多个正则表达式的正则表达式库;
获取所述正则表达式中的关键字对应的语义槽;
获取用户输入的语音信息;
将所述语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式;
根据所述目标正则表达式及所述目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,得到检索结果。
2.根据权利要求1所述的一种内容检索方法,其特征在于,所述建立包括多个正则表达式的正则表达式库具体包括:
获取大量语料信息;
对每个所述语料信息进行分词并提取语料信息中的关键字;
根据每个所述语料信息中的关键字和语法结构,生成每个所述语料信息对应的正则表达式;
根据每个所述语料信息对应的正则表达式,建立包括多个正则表达式的正则表达式库。
3.根据权利要求1所述的一种内容检索方法,其特征在于,所述将所述语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式具体包括:
将所述语音信息与所述正则表达式库中的正则表达式的每个匹配项进行匹配;
若所述语音信息与所述正则表达式库中的某一正则表达式的每个匹配项都匹配,且与所述匹配项相匹配的匹配信息在所述语音信息中的排列顺序与所述匹配项在所述某一正则表达式中的排列顺序相同,则所述某一正则表达式为目标正则表达式。
4.根据权利要求1-3任一项所述的一种内容检索方法,其特征在于,所述根据所述目标正则表达式及所述目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,得到检索结果具体包括:
利用所述目标正则表达式中的关键字对应的语义槽中的字词替换所述目标正则表达式中对应的关键字;
根据所述目标正则表达式和替换关键字后的目标正则表达式,对存储的内容进行检索,得到检索结果。
5.根据权利要求4所述的一种内容检索方法,其特征在于,所述根据所述目标正则表达式和替换关键字后的目标正则表达式,对存储的内容进行检索,得到检索结果具体包括:
根据所述目标正则表达式,对存储的内容进行检索,并标记检索到的内容;
根据替换关键字后的目标正则表达式,对存储的内容进行检索,并标记检索到的内容;
统计标记的内容中,相同内容出现的频率;
根据频率大小,对标记的内容进行排序,得到检索结果。
6.一种内容检索系统,其特征在于,包括:
正则表达式库建立模块,用于建立包括多个正则表达式的正则表达式库;
语义槽获取模块,用于获取所述正则表达式中的关键字对应的语义槽;
语音信息获取模块,用于获取用户输入的语音信息;
匹配查找模块,用于将所述语音信息与所述正则表达式库中的正则表达式进行匹配,找到匹配后的正则表达式作为目标正则表达式;
检索模块,用于根据所述目标正则表达式及所述目标正则表达式中的关键字对应的语义槽,对存储的内容进行检索,得到检索结果。
7.根据权利要求6所述的一种内容检索系统,其特征在于,所述正则表达式库建立模块包括:
语料信息获取单元,用于获取大量语料信息;
关键字提取单元,用于对每个所述语料信息进行分词并提取语料信息中的关键字;
正则表达式生成单元,用于根据每个所述语料信息中的关键字和语法结构,生成每个所述语料信息对应的正则表达式;
正则表达式库建立单元,用于根据每个所述语料信息对应的正则表达式,建立包括多个正则表达式的正则表达式库。
8.根据权利要求6所述的一种内容检索系统,其特征在于,所述匹配查找模块包括:
匹配查找单元,用于将所述语音信息与所述正则表达式库中的正则表达式的每个匹配项进行匹配;若所述语音信息与所述正则表达式库中的某一正则表达式的每个匹配项都匹配,且与所述匹配项相匹配的匹配信息在所述语音信息中的排列顺序与所述匹配项在所述某一正则表达式中的排列顺序相同,则所述某一正则表达式为目标正则表达式。
9.根据权利要求6-8任一项所述的一种内容检索系统,其特征在于,所述检索模块包括:
替换单元,用于利用所述目标正则表达式中的关键字对应的语义槽中的字词替换所述目标正则表达式中对应的关键字;
检索单元,用于根据所述目标正则表达式和替换关键字后的目标正则表达式,对存储的内容进行检索,得到检索结果。
10.根据权利要求9所述的一种内容检索系统,其特征在于,所述检索单元包括:
检索标记子单元,用于根据所述目标正则表达式,对存储的内容进行检索,并标记检索到的内容;
所述检索标记子单元,还用于根据替换关键字后的目标正则表达式,对存储的内容进行检索,并标记检索到的内容;
统计子单元,用于统计标记的内容中,相同内容出现的频率;
排序子单元,用于根据频率大小,对标记的内容进行排序,得到检索结果。
CN201811335789.0A 2018-11-11 2018-11-11 一种内容检索方法及系统 Active CN109284362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811335789.0A CN109284362B (zh) 2018-11-11 2018-11-11 一种内容检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811335789.0A CN109284362B (zh) 2018-11-11 2018-11-11 一种内容检索方法及系统

Publications (2)

Publication Number Publication Date
CN109284362A true CN109284362A (zh) 2019-01-29
CN109284362B CN109284362B (zh) 2022-02-01

Family

ID=65175379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811335789.0A Active CN109284362B (zh) 2018-11-11 2018-11-11 一种内容检索方法及系统

Country Status (1)

Country Link
CN (1) CN109284362B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949799A (zh) * 2019-03-12 2019-06-28 广东小天才科技有限公司 一种语义解析方法及系统
CN110737687A (zh) * 2019-09-06 2020-01-31 平安普惠企业管理有限公司 数据查询方法、装置、设备及存储介质
CN111831865A (zh) * 2019-04-22 2020-10-27 广东小天才科技有限公司 一种正则表达式的扩充方法及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8762406B2 (en) * 2011-12-01 2014-06-24 Oracle International Corporation Real-time data redaction in a database management system
CN104598464A (zh) * 2013-10-31 2015-05-06 联想(北京)有限公司 一种信息处理方法及电子设备
CN106021404A (zh) * 2016-05-12 2016-10-12 北京北大英华科技有限公司 检索方法
US9507880B2 (en) * 2010-06-30 2016-11-29 Oracle International Corporation Regular expression optimizer
CN106326363A (zh) * 2016-08-11 2017-01-11 海信集团有限公司 一种基于正则表达式的匹配方法及装置
CN107247783A (zh) * 2017-06-14 2017-10-13 上海思依暄机器人科技股份有限公司 一种语音搜索音乐的方法及装置
CN107256260A (zh) * 2017-06-13 2017-10-17 浪潮软件股份有限公司 一种智能语义识别方法、搜索方法、装置及系统
CN108280225A (zh) * 2018-02-12 2018-07-13 北京吉高软件有限公司 一种语义检索方法及检索系统
CN108664568A (zh) * 2018-04-24 2018-10-16 科大讯飞股份有限公司 语义技能创建方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9507880B2 (en) * 2010-06-30 2016-11-29 Oracle International Corporation Regular expression optimizer
US8762406B2 (en) * 2011-12-01 2014-06-24 Oracle International Corporation Real-time data redaction in a database management system
CN104598464A (zh) * 2013-10-31 2015-05-06 联想(北京)有限公司 一种信息处理方法及电子设备
CN106021404A (zh) * 2016-05-12 2016-10-12 北京北大英华科技有限公司 检索方法
CN106326363A (zh) * 2016-08-11 2017-01-11 海信集团有限公司 一种基于正则表达式的匹配方法及装置
CN107256260A (zh) * 2017-06-13 2017-10-17 浪潮软件股份有限公司 一种智能语义识别方法、搜索方法、装置及系统
CN107247783A (zh) * 2017-06-14 2017-10-13 上海思依暄机器人科技股份有限公司 一种语音搜索音乐的方法及装置
CN108280225A (zh) * 2018-02-12 2018-07-13 北京吉高软件有限公司 一种语义检索方法及检索系统
CN108664568A (zh) * 2018-04-24 2018-10-16 科大讯飞股份有限公司 语义技能创建方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李威杰: "支持正则表达式的密文检索方案的研究", 《计算机应用与软件》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109949799A (zh) * 2019-03-12 2019-06-28 广东小天才科技有限公司 一种语义解析方法及系统
CN109949799B (zh) * 2019-03-12 2021-02-19 广东小天才科技有限公司 一种语义解析方法及系统
CN111831865A (zh) * 2019-04-22 2020-10-27 广东小天才科技有限公司 一种正则表达式的扩充方法及装置
CN110737687A (zh) * 2019-09-06 2020-01-31 平安普惠企业管理有限公司 数据查询方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109284362B (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
CN106484767B (zh) 一种跨媒体的事件抽取方法
CN105159996B (zh) 基于人工智能的深度问答服务提供方法和装置
CN1924858B (zh) 一种获取新词的方法、装置以及一种输入法系统
CN104076944B (zh) 一种聊天表情输入的方法和装置
CN111177591B (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN111143479A (zh) 基于dbscan聚类算法的知识图谱关系抽取与rest服务可视化融合方法
CN109871543B (zh) 一种意图获取方法及系统
CN103956169A (zh) 一种语音输入方法、装置和系统
CN110781668B (zh) 文本信息的类型识别方法及装置
CN109933774A (zh) 语义识别方法、装置存储介质和电子装置
CN107239512B (zh) 一种结合评论关系网络图的微博垃圾评论识别方法
CN103886034A (zh) 一种建立索引及匹配用户的查询输入信息的方法和设备
CN109284362A (zh) 一种内容检索方法及系统
CN103186633B (zh) 一种结构化信息抽取方法、搜索方法和装置
CN103984771B (zh) 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法
CN101820475A (zh) 基于智能语义理解的手机彩信生成方法
CN109271459B (zh) 基于Lucene和文法网络的聊天机器人及其实现方法
CN102262670A (zh) 一种基于移动可视设备的跨媒体信息检索系统及方法
CN107665188B (zh) 一种语义理解方法及装置
CN104462064A (zh) 一种移动终端信息通讯提示输入内容的方法和系统
CN104866511A (zh) 一种添加多媒体文件的方法及设备
CN108536667A (zh) 中文文本识别方法及装置
CN103186556A (zh) 得到和搜索结构化语义知识的方法及对应装置
CN107943919A (zh) 一种面向会话式实体搜索的查询扩展方法
CN104281565A (zh) 语义词典构建方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant