CN112580336A - 信息校准检索方法、装置、计算机设备及可读存储介质 - Google Patents

信息校准检索方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN112580336A
CN112580336A CN202011558436.4A CN202011558436A CN112580336A CN 112580336 A CN112580336 A CN 112580336A CN 202011558436 A CN202011558436 A CN 202011558436A CN 112580336 A CN112580336 A CN 112580336A
Authority
CN
China
Prior art keywords
entries
information
entry
input
retrieved
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011558436.4A
Other languages
English (en)
Inventor
马明信
卢孟余
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen One Account Technology Co ltd
OneConnect Smart Technology Co Ltd
Original Assignee
Shenzhen One Account Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen One Account Technology Co ltd filed Critical Shenzhen One Account Technology Co ltd
Priority to CN202011558436.4A priority Critical patent/CN112580336A/zh
Publication of CN112580336A publication Critical patent/CN112580336A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及人工智能,公开了一种信息校准检索方法、装置、计算机设备及可读存储介质,包括:获取输入信息;对所述输入信息进行拆分得到输入词条;提取所述输入词条中的文字词条,对所述文字词条进行校准得到待检索词条;调用搜索引擎根据所述待检索词条进行检索得到反馈信息。本发明还涉及区块链技术,信息可存储于区块链节点中。本发明保证了检索的文字词条的规范性,进而保证搜索引擎能够准确的检索到相应的反馈信息,以及避免了多个词条组合在一起导致检索匹配度下降的问题发生,提高了反馈信息检索的速度、准确度和匹配度。

Description

信息校准检索方法、装置、计算机设备及可读存储介质
技术领域
本发明涉及人工智能的语音语义技术领域,尤其涉及一种信息校准检索方法、装置、计算机设备及可读存储介质。
背景技术
搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术,其通过获取客户端在输入框中输入的一些中文/英文.数字,点击搜索可以进行检索。
当前的搜索引擎通常是以客户端输入的信息作为关键字进行检索,但是,发明人发现,一旦该信息中具有不规范的名称,或者将多个词汇作为一个关键字的检索方法,往往会造成检索到的信息不符合用户的检索预期,进而导致检索准确度低的问题发生。
发明内容
本发明的目的是提供一种信息校准检索方法、装置、计算机设备及可读存储介质,用于解决现有技术存在的当信息中具有不规范的名称,或者将多个词汇作为一个关键字的检索方法,将会造成检索到的信息不符合用户的检索预期,进而导致检索准确度低的问题。
为实现上述目的,本发明提供一种信息校准检索方法,包括:
获取输入信息;
对所述输入信息进行拆分得到输入词条;
提取所述输入词条中的文字词条,对所述文字词条进行校准得到待检索词条;
调用搜索引擎根据所述待检索词条进行检索得到反馈信息。
上述方案中,所述获取输入信息之前,所述方法还包括:
向客户端发送输入模板;
所述获取输入信息的步骤,包括:
获取所述客户端在所述输入模板中录入的输入信息;
所述获取输入信息的步骤,还包括:
识别客户端选定的目标文本,并将所述目标文本设为输入信息。
上述方案中,所述对所述输入信息进行拆分得到输入词条的步骤,包括:
采用最大匹配法或最少切分法对所述输入信息进行拆分得到文字词条;
以所述文字词条作为分隔符,对所述输入信息进行分割得到第一混合词条,采用英文分词规则对所述第一混合词条进行分词得到字母词条;
以所述文字词条和字母字条作为分隔符对所述输入信息进行分割得到第二混合词条,判断所述第二混合词条是否达到预置的标识长度;
若是,则判定所述混合词条为VIN码词条;
若否,则判定所述混合词条为英数词条;
汇总所述文字词条、字母词条、VIN码词条和英数词条得到输入词条。
上述方案中,所述对所述输入信息进行拆分得到输入词条之后,所述方法还包括:
提取所述输入词条中的VIN码词条,并判断所述数字信息是否符合预置的VIN码规则;若是,则将所述数字信息设为待检索词条;若否,则向所述客户端发送数字报错信息;
将所述输入词条中的字母词条和英数词条设为待检索词条。
上述方案中,所述判断所述数字信息是否符合预置的VIN码规则的步骤,包括:
通过头部正则表达式获取所述VIN码词条的头部码;
根据所述头部码从预置的规则库中,识别与所述VIN码词条对应的VIN码规则;
判断所述VIN码词条是否符合所述VIN码规则。
上述方案中,所述对所述文字词条进行校准得到待检索词条的步骤,包括:
调用预置的行业字典,判断所述文字词条是否为所述行业字典中记载的规范名称;
若是,则将所述文字词条设为待检索词条;
若否,则将所述行业字典中与所述文字词条对应的规范名称设为待检索词条。
上述方案中,所述调用搜索引擎根据所述待检索词条进行检索得到反馈信息的步骤,包括:
判断所述搜索引擎为常规搜索引擎还是智能搜索引擎;
若所述搜索引擎是常规搜索引擎,则调用所述搜索引擎并以所述待检索词条为关键字进行检索得到反馈信息;
若所述搜索引擎是智能搜索引擎,则从数据库中获取所述客户端的历史记录,使所述搜索引擎以所述待检索词条为关键字,并根据所述历史记录进行检索得到反馈信息;
所述调用搜索引擎根据所述待检索词条进行检索得到反馈信息之后,所述方法还包括:
将所述反馈信息上传至区块链中。
为实现上述目的,本发明还提供一种信息校准检索装置,包括:
输入模块,用于获取输入信息;
拆分模块,用于对所述输入信息进行拆分得到输入词条;
校准模块,用于提取所述输入词条中的文字词条,对所述文字词条进行校准得到待检索词条;
反馈模块,用于调用搜索引擎根据所述待检索词条进行检索得到反馈信息。
为实现上述目的,本发明还提供一种计算机设备,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述计算机设备的处理器执行所述计算机程序时实现上述信息校准检索方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,所述可读存储介质存储的所述计算机程序被处理器执行时实现上述信息校准检索方法的步骤。
本发明提供的信息校准检索方法、装置、计算机设备及可读存储介质,通过对所述输入信息进行拆分,得到能够反映所述输入信息含义的输入词条,实现识别输入信息所表达的含义的技术效果;通过提取所述输入词条中的文字词条,通过行业字典对所述文字词条进行校准,以获得与所述文字词条对应的规范名称并将其设为待检索词条,以保证获得的待检索词条的规范性,进而保证检索的准确度,进而保证检索的文字词条的规范性,以保证搜索引擎能够准确的检索到相应的反馈信息。因此,通过拆分输入信息并对其中的文字词条进行校准,保证了待检索词条的规范性,避免了多个词条组合在一起导致检索匹配度下降的问题发生,提高了反馈信息检索的速度、准确度和匹配度。
附图说明
图1为本发明信息校准检索方法实施例一的流程图;
图2为本发明信息校准检索方法实施例二中信息校准检索方法的环境应用示意图;
图3是本发明信息校准检索方法实施例二中信息校准检索方法的具体方法流程图;
图4为本发明信息校准检索装置实施例三的程序模块示意图;
图5为本发明计算机设备实施例四中计算机设备的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的信息校准检索方法、装置、计算机设备及可读存储介质,适用于人工智能的语音语义技术领域,为提供一种基于输入模块、拆分模块、校准模块、反馈模块、模板模块、校验模块、字母英数模块的信息校准检索方法。本发明通过对输入信息进行拆分得到输入词条,提取所述输入词条中的文字词条,对所述文字词条进行校准得到待检索词条,调用搜索引擎根据所述待检索词条进行检索得到反馈信息。
实施例一:
请参阅图1,本实施例的一种信息校准检索方法,包括:
S102:获取输入信息;
S103:对所述输入信息进行拆分得到输入词条;
S106:提取所述输入词条中的文字词条,对所述文字词条进行校准得到待检索词条;
S107:调用搜索引擎根据所述待检索词条进行检索得到反馈信息。
在示例性的实施例中,通过对所述输入信息进行拆分,得到能够反映所述输入信息含义的输入词条,实现识别输入信息所表达的含义的技术效果;通过提取所述输入词条中的文字词条,通过行业字典对所述文字词条进行校准,以获得与所述文字词条对应的规范名称并将其设为待检索词条,以保证获得的待检索词条的规范性,进而保证检索的准确度,进而保证检索的文字词条的规范性,以保证搜索引擎能够准确的检索到相应的反馈信息。所述搜索引擎可为基于关键字、爬虫等技术所创制的常规搜索引擎,也可为基于机器学习算法所创制的智能搜索引擎;因此,通过拆分输入信息并对其中的文字词条进行校准,保证了待检索词条的规范性,避免了多个词条组合在一起导致检索匹配度下降的问题发生,提高了反馈信息检索的速度、准确度和匹配度。
实施例二:
本实施例为上述实施例一的一种具体应用场景,通过本实施例,能够更加清楚、具体地阐述本发明所提供的方法。
下面,以在运行有信息校准检索方法的服务器中,对输入信息进行拆分并校准得到待检索词条,再根据所述待检索词条进行检索得到反馈信息为例,来对本实施例提供的方法进行具体说明。需要说明的是,本实施例只是示例性的,并不限制本发明实施例所保护的范围。
图2示意性示出了根据本申请实施例二的信息校准检索方法的环境应用示意图。
在示例性的实施例中,信息校准检索方法所在的服务器2通过网络3分别连接客户端4;所述服务器2可以通过一个或多个网络3提供服务,网络3可以包括各种网络设备,例如路由器,交换机,多路复用器,集线器,调制解调器,网桥,中继器,防火墙,代理设备和/或等等。网络3可以包括物理链路,例如同轴电缆链路,双绞线电缆链路,光纤链路,它们的组合和/或类似物。网络3可以包括无线链路,例如蜂窝链路,卫星链路,Wi-Fi链路和/或类似物;所述客户端4可为智能手机、平板电脑、笔记本电脑、台式电脑等计算机设备。
图3是本发明一个实施例提供的一种信息校准检索方法的具体方法流程图,该方法具体包括步骤S201至S207。
具体包括以下步骤:
S201:向客户端发送输入模板。
本步骤中,通过向客户端发送输入模板保证客户端能够规范化的录入输入信息。
可选的,使用XML格式文件作为所述输入模板。
S202:获取输入信息。
于本实施例中,所述获取输入信息的步骤,包括:
S21:获取所述客户端在所述输入模板中录入的输入信息。
于本实施例中,所述获取输入信息的步骤,还包括:
S22:识别客户端选定的目标文本,并将所述目标文本设为输入信息。
本步骤中,识别客户端在其展示的文本中勾选或圈定的目标文本,并将所述目标文本设为输入信息,以对其进行检索。
S203:对所述输入信息进行拆分得到输入词条。
为识别输入信息所表达的含义,本步骤通过对所述输入信息进行拆分,得到能够反映所述输入信息含义的输入词条。
在一个优选的实施例中,所述对所述输入信息进行拆分得到输入词条的步骤,包括:
S31:采用最大匹配法或最少切分法对所述输入信息进行拆分得到文字词条。
本步骤中,最大匹配法是指以词典为依据,取词典中最长词为第一个次取字数量的扫描串,在词典中进行扫描,例如:词典中最长词为“中华人民共和国”共7个汉字,则最大匹配起始字数为7个汉字。然后逐字递减,在对应的词典中进行查找。
于本实施例中,为提升扫描效率,还可以跟据字数多少设计多个字典,然后根据字数分别从不同字典中进行扫描,例如:包含有二字词的二字词典,包含有三字词的三字词典,以此类推。
所述最大匹配法包括正向最大匹配规则、逆向最大匹配规则和双向最大匹配规则;
1、正向最大匹配规则:
正向即从前往后取词,从7->1,每次减一个字,直到词典命中或剩下1个单字。
第1次:“我们在野生动物”,扫描7字词典,无
第2次:“我们在野生动”,扫描6字词典,无
。。。。
第6次:“我们”,扫描2字词典,有
扫描中止,输出第1个词为“我们”,去除第1个词后开始第2轮扫描,即:
第2轮扫描:
第1次:“在野生动物园玩”,扫描7字词典,无
第2次:“在野生动物园”,扫描6字词典,无
。。。。
第6次:“在野”,扫描2字词典,有
扫描中止,输出第2个词为“在野”,去除第2个词后开始第3轮扫描,以此类推。
2、逆向最大匹配规则:
逆向即从后往前取词,其他逻辑和正向相同。即:
第1轮扫描:“在野生动物园玩”
第1次:“在野生动物园玩”,扫描7字词典,无
第2次:“野生动物园玩”,扫描6字词典,无
。。。。
第7次:“玩”,扫描1字词典,有
扫描中止,输出“玩”,单字字典词加1,开始第2轮扫描
第2轮扫描:“们在野生动物园”
第1次:“们在野生动物园”,扫描7字词典,无
第2次:“在野生动物园”,扫描6字词典,无
第3次:“野生动物园”,扫描5字词典,有
扫描中止,输出“野生动物园”,开始第3轮扫描,以此类推。
3、双向最大匹配规则:
正向最大匹配法和逆向最大匹配法,都有其局限性,我举得例子是正向最大匹配法局限性的例子,逆向也同样存在(如:长春药店,逆向切分为“长/春药店”),因此双向最大匹配规则,即,两种最大匹配规则都切一遍,然后根据大颗粒度词越多越好,非词典词和单字词越少越好的原则,选取其中一种分词结果输出。
基于上述举例:“我们在野生动物园玩”,采用正向最大匹配规则,最终切分结果为:“我们/在野/生动/物/园/玩”,其中,两字词3个,单字字典词为2,非词典词为1。采用逆向最大匹配规则,最终切分结果为:“我们/在/野生动物园/玩”,其中,五字词1个,两字词1个,单字字典词为2,非词典词为0。非字典词:正向(1)>逆向(0)(越少越好),单字字典词:正向(2)=逆向(2)(越少越好),总词数:正向(6)>逆向(4)(越少越好),因此最终输出为逆向结果。
S32:以所述文字词条作为分隔符,对所述输入信息进行分割得到第一混合词条,采用英文分词规则对所述第一混合词条进行分词得到字母词条。
所述英文分词规则包括:空格/符号分词子规则,其通过正则表达式识别所述第一混合词条中的空格和符号,以对所述第一混合词条进行分词得到字母词条,
例如:采用以下代码对所述第一混合词条进行分词
Figure BDA0002859500140000091
排除中止词(stop word)子规则,其通过将类似a/an/and/are/then的这类高频词作为中止词,并以所述中止词为分隔符对所述第一混合词条进行分词得到字母词条。
词干提取(Stemming)子规则,比如说英文单词有单数复数的变形,-ing和-ed的变形,但是在计算相关性的时候,应该当做同一个单词。比如apple和apples是同一个词,那么apple就是词干,doing和done是同一个词,那么do就是词干,提取所述第一混合词条中的词干作为所述字母词条,以避免对同一含义从词汇进行重复检索。
其中,可采用Porter Stemming、Lovins stemmer、Lancaster Stemming这三个算法中任一算法执行所述词干提取子规则。
S33:以所述文字词条和字母字条作为分隔符对所述输入信息进行分割得到第二混合词条,判断所述第二混合词条是否达到预置的标识长度。
S34:若是,则判定所述混合词条为VIN码词条
S35:若否,则判定所述混合词条为英数词条;
S36:汇总所述文字词条、字母词条、VIN码词条和英数词条得到输入词条。
S204:提取所述输入词条中的VIN码词条,并判断所述数字信息是否符合预置的VIN码规则;若是,则将所述数字信息设为待检索词条;若否,则向所述客户端发送数字报错信息。
为保证输入词条中的VIN码词条符合VIN码规则,实现能够根据所述VIN码词条检索到准确的反馈信息,本步骤通过提取所述输入词条中的VIN码词条,并判断所述数字信息是否符合预置的VIN码规则的方式,保证VIN码词条的准确度。
在一个优选的实施例中,所述判断所述数字信息是否符合预置的VIN码规则的步骤,包括:
S41:通过头部正则表达式获取所述VIN码词条的头部码。
本步骤中,所述头部正则表达式用于获取所述VIN码词条中的第一个字码、第二个字码和第三个字码;
其中,第一个字码是是标明一个地理区域的字母数字,如非洲、亚洲、欧洲、大洋洲、北美洲和南美洲。
第二个字码是是标明一个特定地区内的一个国家的字母或数字。在美国,汽车工程师协会(SAE)负责分配国家代码。
第三个字码是标明某个特定的制造厂的字母或数字,由各国的授权机构负责分配。
S42:根据所述头部码从预置的规则库中,识别与所述VIN码词条对应的VIN码规则。
由于不同的不同地理区域、国家及制造厂的VIN码规则是不同的,因此,本步骤通过在所述规则库中保存不同地理区域、国家及制造厂的VIN码规则,根据所述头部码获得所述VIN码的地理区域、国家及制造厂,并根据所述地理区域、国家及制造厂从所述规则库中,识别与所述VIN码匹配的VIN码规则,以保证对VIN码进行验证的准确性。
S43:判断所述VIN码词条是否符合所述VIN码规则。
本步骤中,所述VIN码规则中具有验证规则,所述验证规则是基于世界汽车识别代号(VIN)资料手册所获得的加权计算公式,通过所述加权计算公式计算所述VIN码中的字码得到加权值,判断所述加权值与所述VIN码中的校验位的字码是否一致,以实现判断所述VIN码词条是否符合所述VIN码规则的技术效果。
于所述图3中,所述S204通过以下标注展示:
S204-1:提取所述输入词条中的VIN码词条,并判断所述数字信息是否符合预置的VIN码规则;
S204-2:若是,则将所述数字信息设为待检索词条;
S204-3:若否,则向所述客户端发送数字报错信息。
S205:将所述输入词条中的字母词条和英数词条设为待检索词条。
由于字母词条反映了具有某一特定含义的英文含义,因此,直接将所述字母词条设为待检索词条;而具有数字、单独字母以及数字和单独字母混合的英数词条,对于检索操作来说是具有特定含义的,为保证反馈信息的检索效率,就直接将所述英数词条作为待检索词条。
S206:提取所述输入词条中的文字词条,对所述文字词条进行校准得到待检索词条。
为保证检索的文字词条的规范性,以保证搜索引擎能够准确的检索到相应的反馈信息,本步骤通过提取所述输入词条中的文字词条,通过行业字典对所述文字词条进行校准,以获得与所述文字词条对应的规范名称并将其设为待检索词条,以保证获得的待检索词条的规范性,进而保证检索的准确度。
在一个优选的实施例中,所述对所述文字词条进行校准得到待检索词条的步骤,包括:
S61:调用预置的行业字典,判断所述文字词条是否为所述行业字典中记载的规范名称;
S62:若是,则将所述文字词条设为待检索词条;
S63:若否,则将所述行业字典中与所述文字词条对应的规范名称设为待检索词条。
所述行业字典是基于自然语言处理技术所创制的计算机字典,其包含了规范名称及与所述规范名称含义一致的俗语、近义词、省略语。
S207:调用搜索引擎根据所述待检索词条进行检索得到反馈信息。
本步骤中,所述搜索引擎可为基于关键字、爬虫等技术所创制的常规搜索引擎,也可为基于机器学习算法所创制的智能搜索引擎。
在一个优选的实施例中,所述调用搜索引擎根据所述待检索词条进行检索得到反馈信息的步骤,包括:
S71:判断所述搜索引擎为常规搜索引擎还是智能搜索引擎;
S72:若所述搜索引擎是常规搜索引擎,则调用所述搜索引擎并以所述所述待检索词条为关键字进行检索得到反馈信息。
S73:若所述搜索引擎是智能搜索引擎,则从数据库中获取所述客户端的历史记录,使所述搜索引擎以所述待检索词条为关键字,并根据所述历史记录进行检索得到反馈信息。
本步骤中,调用所述客户端的历史检索记录,通过词频计算算法获得所述历史检索记录中的重点词汇,将所述重点词汇作为所述待检索词条,以分析出客户端的热门输入,潜在输入对象,使所述搜索引擎以所述待检索词条作为关键字进行检索得到反馈信息,进而提高反馈信息与输入信息之间的匹配度和相关性
于本实施例中,可采用TF-IDF(词频-逆文档频次)算法作为所述词频计算算法,所述TF-IDF算法包含两部分:TF算法和IDF算法,TF(Term Frequency)算法是统计一个词在一篇文档中出现的频次,IDF(Inverse Document Frequency)算法是统计一个词在文档集的多少个文档中出现,通过TF算法和IDF算法获得反映客户端在历史上检索侧重点的重要词汇。
所述调用搜索引擎根据所述待检索词条进行检索得到反馈信息之后,所述方法还包括:
将所述反馈信息上传至区块链中。
需要说明的是,基于反馈信息得到对应的摘要信息,具体来说,摘要信息由反馈信息进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证反馈信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
实施例三:
请参阅图4,本实施例的一种信息校准检索装置1,包括:
输入模块12,用于获取输入信息;
拆分模块13,用于对所述输入信息进行拆分得到输入词条;
校准模块16,用于提取所述输入词条中的文字词条,对所述文字词条进行校准得到待检索词条;
反馈模块17,用于调用搜索引擎根据所述待检索词条进行检索得到反馈信息。
可选的,所述信息校准检索装置1还包括:
模板模块11,用于向客户端发送输入模板。
可选的,所述信息校准检索装置1还包括:
校验模块14,用于提取所述输入词条中的VIN码词条,并判断所述数字信息是否符合预置的VIN码规则;若是,则将所述数字信息设为待检索词条;若否,则向所述客户端发送数字报错信息。
可选的,所述信息校准检索装置1还包括:
字母英数模块15,用于将所述输入词条中的字母词条和英数词条设为待检索词条。
本技术方案应用于人工智能的语音语义领域,通过自然语言处理算法对输入信息进行拆分得到输入词条以实现语义解析,提取所述输入词条中的文字词条,对所述文字词条进行校准得到待检索词条,调用搜索引擎根据所述待检索词条进行检索得到反馈信息。
实施例四:
为实现上述目的,本发明还提供一种计算机设备5,实施例三的信息校准检索装置的组成部分可分散于不同的计算机设备中,计算机设备5可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个应用服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器51、处理器52,如图5所示。需要指出的是,图5仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器51可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例三的信息校准检索装置的程序代码等。此外,存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中,处理器52用于运行存储器51中存储的程序代码或者处理数据,例如运行信息校准检索装置,以实现实施例一和实施例二的信息校准检索方法。
实施例五:
为实现上述目的,本发明还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储信息校准检索装置,被处理器52执行时实现实施例一和实施例二的信息校准检索方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种信息校准检索方法,其特征在于,包括:
获取输入信息;
对所述输入信息进行拆分得到输入词条;
提取所述输入词条中的文字词条,对所述文字词条进行校准得到待检索词条;
调用搜索引擎根据所述待检索词条进行检索得到反馈信息。
2.根据权利要求1所述的信息校准检索方法,其特征在于,所述获取输入信息之前,所述方法还包括:
向客户端发送输入模板;
所述获取输入信息的步骤,包括:
获取所述客户端在所述输入模板中录入的输入信息;
所述获取输入信息的步骤,还包括:
识别客户端选定的目标文本,并将所述目标文本设为输入信息。
3.根据权利要求1所述的信息校准检索方法,其特征在于,所述对所述输入信息进行拆分得到输入词条的步骤,包括:
采用最大匹配法或最少切分法对所述输入信息进行拆分得到文字词条;
以所述文字词条作为分隔符,对所述输入信息进行分割得到第一混合词条,采用英文分词规则对所述第一混合词条进行分词得到字母词条;
以所述文字词条和字母字条作为分隔符对所述输入信息进行分割得到第二混合词条,判断所述第二混合词条是否达到预置的标识长度;
若是,则判定所述混合词条为VIN码词条;
若否,则判定所述混合词条为英数词条;
汇总所述文字词条、字母词条、VIN码词条和英数词条得到输入词条。
4.根据权利要求1所述的信息校准检索方法,其特征在于,所述对所述输入信息进行拆分得到输入词条之后,所述方法还包括:
提取所述输入词条中的VIN码词条,并判断所述数字信息是否符合预置的VIN码规则;若是,则将所述数字信息设为待检索词条;若否,则向所述客户端发送数字报错信息;
将所述输入词条中的字母词条和英数词条设为待检索词条。
5.根据权利要求4所述的信息校准检索方法,其特征在于,所述判断所述数字信息是否符合预置的VIN码规则的步骤,包括:
通过头部正则表达式获取所述VIN码词条的头部码;
根据所述头部码从预置的规则库中,识别与所述VIN码词条对应的VIN码规则;
判断所述VIN码词条是否符合所述VIN码规则。
6.根据权利要求1所述的信息校准检索方法,其特征在于,所述对所述文字词条进行校准得到待检索词条的步骤,包括:
调用预置的行业字典,判断所述文字词条是否为所述行业字典中记载的规范名称;
若是,则将所述文字词条设为待检索词条;
若否,则将所述行业字典中与所述文字词条对应的规范名称设为待检索词条。
7.根据权利要求1所述的信息校准检索方法,其特征在于,所述调用搜索引擎根据所述待检索词条进行检索得到反馈信息的步骤,包括:
判断所述搜索引擎为常规搜索引擎还是智能搜索引擎;
若所述搜索引擎是常规搜索引擎,则调用所述搜索引擎并以所述待检索词条为关键字进行检索得到反馈信息;
若所述搜索引擎是智能搜索引擎,则从数据库中获取所述客户端的历史记录,使所述搜索引擎以所述待检索词条为关键字,并根据所述历史记录进行检索得到反馈信息;
所述调用搜索引擎根据所述待检索词条进行检索得到反馈信息之后,所述方法还包括:
将所述反馈信息上传至区块链中。
8.一种信息校准检索装置,其特征在于,包括:
输入模块,用于获取输入信息;
拆分模块,用于对所述输入信息进行拆分得到输入词条;
校准模块,用于提取所述输入词条中的文字词条,对所述文字词条进行校准得到待检索词条;
反馈模块,用于调用搜索引擎根据所述待检索词条进行检索得到反馈信息。
9.一种计算机设备,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机设备的处理器执行所述计算机程序时实现权利要求1至7任一项所述信息校准检索方法的步骤。
10.一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,其特征在于,所述可读存储介质存储的所述计算机程序被处理器执行时实现权利要求1至7任一项所述信息校准检索方法的步骤。
CN202011558436.4A 2020-12-25 2020-12-25 信息校准检索方法、装置、计算机设备及可读存储介质 Pending CN112580336A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011558436.4A CN112580336A (zh) 2020-12-25 2020-12-25 信息校准检索方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011558436.4A CN112580336A (zh) 2020-12-25 2020-12-25 信息校准检索方法、装置、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112580336A true CN112580336A (zh) 2021-03-30

Family

ID=75140484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011558436.4A Pending CN112580336A (zh) 2020-12-25 2020-12-25 信息校准检索方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112580336A (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000200281A (ja) * 1999-01-05 2000-07-18 Matsushita Electric Ind Co Ltd 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2003173348A (ja) * 2001-12-06 2003-06-20 Canon Inc 情報検索方法、情報検索装置、および記憶媒体
US20030171914A1 (en) * 2000-04-18 2003-09-11 Il-Hyung Jung Method and system for retrieving information based on meaningful core word
KR20040017008A (ko) * 2002-08-20 2004-02-26 주식회사 케이랩 검색엔진을 활용한 정보 제공 시스템 및 그 방법
US6741959B1 (en) * 1999-11-02 2004-05-25 Sap Aktiengesellschaft System and method to retrieving information with natural language queries
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
WO2015043075A1 (zh) * 2013-09-29 2015-04-02 广东工业大学 面向微博的情感实体搜索系统
WO2015196909A1 (zh) * 2014-06-27 2015-12-30 北京奇虎科技有限公司 一种分词方法和装置
WO2017215242A1 (zh) * 2016-06-17 2017-12-21 广州视源电子科技股份有限公司 简历搜索方法及装置
CN111177532A (zh) * 2019-12-02 2020-05-19 平安资产管理有限责任公司 一种垂直搜索方法、装置、计算机系统及可读存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000200281A (ja) * 1999-01-05 2000-07-18 Matsushita Electric Ind Co Ltd 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
US6741959B1 (en) * 1999-11-02 2004-05-25 Sap Aktiengesellschaft System and method to retrieving information with natural language queries
US20030171914A1 (en) * 2000-04-18 2003-09-11 Il-Hyung Jung Method and system for retrieving information based on meaningful core word
JP2003173348A (ja) * 2001-12-06 2003-06-20 Canon Inc 情報検索方法、情報検索装置、および記憶媒体
KR20040017008A (ko) * 2002-08-20 2004-02-26 주식회사 케이랩 검색엔진을 활용한 정보 제공 시스템 및 그 방법
WO2015043075A1 (zh) * 2013-09-29 2015-04-02 广东工业大学 面向微博的情感实体搜索系统
CN103678684A (zh) * 2013-12-25 2014-03-26 沈阳美行科技有限公司 一种基于导航信息检索的中文分词方法
WO2015196909A1 (zh) * 2014-06-27 2015-12-30 北京奇虎科技有限公司 一种分词方法和装置
WO2017215242A1 (zh) * 2016-06-17 2017-12-21 广州视源电子科技股份有限公司 简历搜索方法及装置
CN111177532A (zh) * 2019-12-02 2020-05-19 平安资产管理有限责任公司 一种垂直搜索方法、装置、计算机系统及可读存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
吴亮;李树广;: "基于关键词筛选分词算法的企业级搜索引擎", 微型电脑应用, no. 07 *
吴栋, 滕育平: "中文信息检索引擎中的分词与检索技术", 计算机应用, no. 07 *
唐培丽;胡明;解飞;刘钢;: "全文检索搜索引擎中文信息处理技术研究", 情报科学, no. 06 *
张映海;: "基于概念语义同义扩展的文本检索研究", 计算机与数字工程, no. 04 *
张映海;张宇薇;: "基于查询扩展词条加权的文本检索研究", 计算机工程与科学, no. 01 *
申兵一;巩青歌;: "中文分词技术在搜索引擎中的应用研究", 计算机与网络, no. 01 *

Similar Documents

Publication Publication Date Title
CN108334533B (zh) 关键词提取方法和装置、存储介质及电子装置
US8095547B2 (en) Method and apparatus for detecting spam user created content
CN111814466A (zh) 基于机器阅读理解的信息抽取方法、及其相关设备
CN111177184A (zh) 基于自然语言的结构化查询语言转换方法、及其相关设备
CN110929125B (zh) 搜索召回方法、装置、设备及其存储介质
CN112417885A (zh) 基于人工智能的答案生成方法、装置、计算机设备及介质
CN109189888B (zh) 电子装置、侵权分析的方法及存储介质
US10417269B2 (en) Systems and methods for verbatim-text mining
CN110825949A (zh) 基于卷积神经网络的信息检索方法、及其相关设备
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN111931935A (zh) 基于One-shot学习的网络安全知识抽取方法和装置
CN112307747A (zh) 车辆配件检索方法、装置、计算机设备及可读存储介质
CN112528294A (zh) 漏洞匹配方法、装置、计算机设备和可读存储介质
CN112364625A (zh) 文本筛选方法、装置、设备及存储介质
CN115314236A (zh) 在域名系统(dns)记录集中检测网络钓鱼域的系统和方法
CN113177407A (zh) 数据字典的构建方法、装置、计算机设备及存储介质
CN111985212A (zh) 文本关键字识别方法、装置、计算机设备及可读存储介质
CN113688240B (zh) 威胁要素提取方法、装置、设备及存储介质
CN116800518A (zh) 一种网络防护策略的调整方法及装置
CN110705258A (zh) 文本实体识别方法及装置
CN112580336A (zh) 信息校准检索方法、装置、计算机设备及可读存储介质
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN114003737A (zh) 基于人工智能的双录审查辅助方法、装置、设备及介质
CN114398518A (zh) 一种日志快速匹配范化策略的方法及系统
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination