CN114692618A - 检索词识别方法、装置、电子设备及存储介质 - Google Patents
检索词识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114692618A CN114692618A CN202210260677.3A CN202210260677A CN114692618A CN 114692618 A CN114692618 A CN 114692618A CN 202210260677 A CN202210260677 A CN 202210260677A CN 114692618 A CN114692618 A CN 114692618A
- Authority
- CN
- China
- Prior art keywords
- search term
- training data
- search
- data set
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种检索词识别方法、装置、电子设备及存储介质,涉及数据处理技术领域,尤其涉及云计算、智能搜索技术领域,包括:获取用户输入的检索词;利用第一检索词识别模型对检索词进行识别,得到检索词识别结果和检索词标识;根据检索词识别结果确定检索词是否为第一特定类型;响应于检索词为第一特定类型,根据检索词标识从第一预设数据库中进行匹配;响应于匹配成功,得到该检索词对应的匹配结果并将该匹配结果发送给用户。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及云计算、智能搜索技术领域。
背景技术
目前检索词识别方法有两种,一种是人工去识别,该方法需要消耗大量 的人力成本,另一种是使用机器算法,通过统计特征或者基于语言模型对检 索词进行识别,但是该方法对于检索词进行识别的准确度不够。
发明内容
本公开提供了一种检索词识别方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种检索词识别方法,包括:
获取用户输入的检索词;
利用第一检索词识别模型对所述检索词进行识别,得到检索词识别结果 和检索词标识;
根据所述检索词识别结果确定所述检索词是否为第一特定类型;
响应于所述检索词为第一特定类型,根据所述检索词标识从第一预设数 据库中进行匹配;
响应于匹配成功,得到该检索词对应的匹配结果并将该匹配结果发送给 用户。
根据本公开的另一方面,提供了一种检索词识别装置,包括:
采集模块,用于获取用户输入的检索词;
识别模块,用于利用第一检索词识别模型对所述检索词进行识别,得到 检索词识别结果和检索词标识;
处理模块,用于根据所述检索词识别结果确定所述检索词是否为第一特 定类型;
匹配模块,用于响应于所述检索词为第一特定类型,根据所述检索词标 识从第一预设数据库中进行匹配;
通信模块,用于响应于匹配成功,得到该检索词对应的匹配结果并将 该匹配结果发送给用户。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所 述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述 的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机 可读存储介质,其中,所述计算机指令用于使所述计算机执行上述任一项所 述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程 序,所述计算机程序在被处理器执行时实现上述任一项所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键 或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下 的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例提供的检索词识别方法的流程示意图;
图2是根据本公开实施例提供的第一特定类型检索词示意图;
图3是根据本公开实施例提供的第二、第三检索词识别模型的结构示 意图;
图4是根据本公开实施例提供的第二特定类型检索词示意图;
图5是根据本公开实施例提供的检索词识别装置的结构示意图;
图6是用来实现本公开实施例的检索词识别方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实 施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本 领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和 修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的 描述中省略了对公知功能和结构的描述。
为了提高对检索词的识别效果,减少人力成本,如图1所示,本公开 一实施例提供了一种检索词识别方法,该方法包括:
步骤101,获取用户输入的检索词。
获取用户在搜索引擎或者任何搜索输入框中输入的检索词。
步骤102,利用第一检索词识别模型对所述检索词进行识别,得到检索 词识别结果和检索词标识。
利用预先训练好的第一检索词识别模型对检索词进行识别,得到该检索 词的识别结果和检索词标识;
检索词标识可以是该检索词的关键词、特征数据或者任何能够代表该检 索词特征的标识。
步骤103,根据所述检索词识别结果确定所述检索词是否为第一特定类 型。
根据第一检索词识别模型对该检索词识别后得到的识别结果确定该检索 词是否为第一特定类型;
如图2所示,第一特定类型是指检索词是否为网络用语类、方言类、专 业术语类或者普通实体类,网络用语类是指检索词完全由网络产生的字词、 短语、句子等,方言类是指检索词为非普通话的通用表达方法,一般仅属于 某地区或有单独含义词汇表达,专业术语类是指检索词为某一领域下的专业 内容,属于实体词的衍生内容,普通实体类是指具体实体的含义、释义,多 为客观存在并可相互区别的事物。
步骤104,响应于所述检索词为第一特定类型,根据所述检索词标识从 第一预设数据库中进行匹配。
当检索词被确定为第一特定类型时,根据检索词标识从第一预设数据库 中进行匹配;
第一预设数据库中包含多个词条和与各个词条对应的检索词标识,词条 有预设的检索词释义,对于第一特定类型的检索词,匹配成功得到的匹配结 果中存在至少一个词条,词条中的内容能够更好地满足用户的检索需求,提 高用户的使用体验。
步骤105,响应于匹配成功,得到该检索词对应的匹配结果并将该匹配 结果发送给用户。
匹配成功,则将该检索词匹配得到的匹配结果发送给用户。
通过利用预先训练的第一检索词识别模型对检索词进行识别,得到检索 词识别结果和检索词标识,然后根据检索词识别结果确定所述检索词是否为 第一特定类型,当确定检索词为第一特定类型时,根据所述检索词标识从第 一预设数据库中进行匹配,最后将匹配结果发送给用户,将检索词确定为第 一特定类型后,再根据该检索词的检索词标识从第一预设数据库中匹配匹配 结果,能够有效提高对检索词进行识别的准确率,且识别过程无需人工参与, 减少了大量的人力成本。
在步骤101中,获取用户输入的检索词之前,在一可实施方式中,还包 括:
步骤201,采集第一训练数据集。
采集第一训练数据集,第一训练数据集中包含多个训练数据。
步骤202,利用所述第二检索词识别模型对所述第一训练数据集中的多 个训练数据进行识别,得到与各个训练数据对应的标签。
利用预先训练的第二检索词识别模型对第一训练数据集中的多个训练数 据进行识别,得到与各个训练数据对应的标签。
步骤203,对所述第二检索词识别模型进行模型蒸馏,得到第三检索词 识别模型。
对第二检索词识别模型进行模型蒸馏,得到第三检索词识别模型;
将第二检索词识别模型中的Transformer模块的数量进行精简,从而得到 第三检索词识别模型,第二检索词识别模型的输入为字级别的数据,而第三 检索词识别模型的输入为词级别的数据;
如图3所示,图3中左侧为第二检索词识别模型的结构,右侧为第三检 索词识别模型的结构,第二检索词识别模型中的Transformer模块共有12层, 而经过精简后的第三检索词识别模型中的Transformer模块只有3层,大大减 少了数据处理所需要的时间,提高了对检索词进行识别的效率,图3中输入 第二检索词识别模型的数据为{9,9,9,7,7,是,什,么,梗},而输入第 三检索词识别模型的数据为{99977,是,什么,梗}。
步骤204,利用带标签的第一训练数据集对所述第三检索词识别模型进 行训练,得到第一检索词识别模型。
利用带标签的第一训练数据集对第三检索词识别模型进行训练,得到第 一检索词识别模型;
第一训练数据集中每个训练数据的标签是第二检索词识别模型进行识别 得到的,所以利用带标签的第一训练数据集对第三检索词识别模型进行训练 所得到的第一检索词识别模型能够获得第二检索词识别模型对于检索词的识 别能力,使得第一检索词识别模型对于检索词的识别能力得到了大幅度的提 升。
在步骤201中,采集第一训练数据集之前,在一可实施方式中,还包括:
步骤301,采集第二训练数据集,所述第二训练数据集中的每个训练数 据都有对应的标签。
采集第二训练数据集,第二训练数据集中的每个训练数据都有自带的标 签。
步骤302,利用所述第二训练数据集对语言模型进行训练,得到第二检 索词识别模型。
利用第二训练数据集对语言模型进行训练,得到第二检索词识别模型;
利用自带标签的第二训练数据集对语言模型进行训练,使得得到的第二 检索词识别模型具备能够对检索词准确进行识别的能力;
语言模型在本实施例中可选择文心预训练语言模型。
在步骤103中,根据所述检索词识别结果确定所述检索词是否为第一特 定类型之后,在一可实施方式中,还包括:
步骤401,响应于所述检索词为第二特定类型,根据所述检索词从预设 数据库中匹配检索结果。
当检索词被确定为第二特定类型时,根据检索词从预设数据库中匹配检 索结果;
预设数据库中包含多个检索结果和与各个检索结果对应的检索词;
如图4所示,第二特定类型是指检索词是否为多实体类、主义项不明确 类、语言解释类、翻译类、方法类、黄反类、医疗类、音乐类、人名类或者 餐饮类,多实体类是指检索词中包含多个实体,主义项不明确类是指检索词 中的实体义项不明确,语言解释类是指检索词为词语、成语、古语、谚语、 歇后语或者文学作品句子,翻译类是指检索词为某一外语单词的解释词为某 一外语单词的解释,方法类是指检索词为经验类需求,包含怎么做、为什么 等字眼,黄反类是指检索词中包含非正能量信息,医疗类是指检索词为药品 的功效和作用说明,音乐类是指检索词中包含音乐相关内容,人名类是指检 索词为人物真名、艺名、外号,餐饮类是指检索词中包含食物相关内容。
步骤402,响应于匹配成功,得到该检索词对应的匹配结果并将该匹配 结果发送给用户。
当检索词被确定为第二特定类型时,说明该检索词不存在对应的词条, 那么从第二预设数据库中进行匹配并将匹配结果发送给用户,能够提高识别 的稳定性和可用性。
在步骤204中,得到第一检索词识别模型之后,在一可实施方式中,还 包括:
步骤501,采集第三训练数据集。
第三训练数据集中包含多个训练数据和各个训练数据对应的标签。
步骤502,将所述第三训练数据集划分为多个第四训练数据集。
将第三训练数据集划分为多个第四训练数据集;
例如,将第三训练数据集随机划分为5个第四训练数据集。
步骤503,利用所述多个第四训练数据集对多个第一检索词识别模型进 行训练,得到多个训练后的第一检索词识别模型。
利用多个第四训练数据集对多个第一检索词识别模型进行训练,得到多 个训练后的第一检索词识别模型;
例如,利用5个第四训练数据集分别对5个第一检索词识别模型进行训 练,得到了训练后的第一检索词识别模型A、第一检索词识别模型B、第一 检索词识别模型C、第一检索词识别模型D和第一检索词识别模型E,5个 第一检索词识别模型对于检索词进行识别的能力都不同,所以需要进行检验。
步骤504,利用所述多个训练后的第一检索词识别模型对第三训练数据 集进行识别,得到识别结果。
利用多个训练后的第一检索词识别模型对第三训练数据集进行识别,得 到识别结果;
例如,利用5个训练后的第一检索词识别模型A、第一检索词识别模型 B、第一检索词识别模型C、第一检索词识别模型D和第一检索词识别模型E 分别对第三训练数据集进行识别,得到识别结果A、识别结果B、识别结果C、 识别结果D和识别结果E。
步骤505,根据所述识别结果确定识别效果最好的第一检索词识别模型。
根据识别结果确定识别效果最好的第一检索词识别模型。
通过多个不同的第四训练数据集对第一检索词识别模型进行训练,并在 训练后利用第三训练数据集对训练后的多个第一检索词识别模型进行验证, 能够确定出检索准确率最高、效果最好的第一检索词识别模型,显著提高对 检索词的识别能力。
在步骤104中,根据所述检索词标识从第一预设数据库中进行匹配之后, 在一可实施方式中,还包括:
当根据检索词标识与第一预设数据库中的数据匹配失败时,说明该检索 词不存在对应的词条内容,那么将该检索词下发至人工部门,由人工部门创 建该检索词对应的词条,以使后续用户继续搜索该检索词时能够返回该检索 词的词条,提高用户的使用体验。
本公开一实施例提供了一种检索词识别装置,如图5所示,该装置包 括:
采集模块10,用于获取用户输入的检索词;
识别模块20,用于利用第一检索词识别模型对所述检索词进行识别,得 到检索词识别结果和检索词标识;
处理模块30,用于根据所述检索词识别结果确定所述检索词是否为第一 特定类型;
匹配模块40,用于响应于所述检索词为第一特定类型,根据所述检索词 标识从第一预设数据库中进行匹配;
通信模块50,用于响应于匹配成功,得到该检索词对应的匹配结果并将 该匹配结果发送给用户。
其中,所述采集模块10,还用于采集第一训练数据集;
所述识别模块20,还用于利用所述第二检索词识别模型对所述第一训练 数据集中的多个训练数据进行识别,得到与各个训练数据对应的标签;
所述处理模块30,还用于对所述第二检索词识别模型进行模型蒸馏,得 到第三检索词识别模型;
所述处理模块30,还用于利用带标签的第一训练数据集对所述第三检索 词识别模型进行训练,得到第一检索词识别模型。
其中,所述采集模块10,还用于采集第二训练数据集,所述第二训练数 据集中的每个训练数据都有对应的标签;
所述处理模块30,还用于利用所述第二训练数据集对语言模型进行训练, 得到第二检索词识别模型。
其中,所述匹配模块40,还用于响应于所述检索词为第二特定类型,根 据所述检索词从第二预设数据库中进行匹配;
所述通信模块50,还用于响应于匹配成功,得到该检索词对应的匹配结 果并将该匹配结果发送给用户。
其中,所述采集模块10,还用于采集第三训练数据集;
所述处理模块30,还用于将所述第三训练数据集划分为多个第四训练数 据集;
所述处理模块30,还用于利用所述多个第四训练数据集对多个第一检索 词识别模型进行训练,得到多个训练后的第一检索词识别模型;
所述识别模块20,还用于利用所述多个训练后的第一检索词识别模型对 第三训练数据集进行识别,得到识别结果;
所述处理模块30,还用于根据所述识别结果确定识别效果最好的第一 检索词识别模型。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等, 均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储 介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意 性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、 台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算 机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸 如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算 装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示 例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存 储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存 储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在 RAM603中,还可存储设备600操作所需的各种程序和数据。计算单元601、 ROM602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605 也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606, 例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等; 存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制 解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网 的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理 组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图 形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机 器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的 处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如检索词识别方法。例如,在一些实施例中,检索词识别方法 可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储 单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM602 和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载 到RAM603并由计算单元601执行时,可以执行上文描述的检索词识别方 法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过 其他任何适当的方式(例如,借助于固件)而被配置为执行检索词识别方 法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路 系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、 专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设 备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些 各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者 多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储 系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将 数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出 装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的 任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其 他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控 制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可 以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机 器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含 或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设 备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读 储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电 磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组 合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、 可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑 盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的 任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术, 该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线 管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠 标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算 机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的 反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉 反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如, 作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、 或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器 的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处 描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部 件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络 的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此 并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具 有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器 可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的 服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或 删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地 执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望 的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术 人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、 子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和 改进等,均应包含在本公开保护范围之内。
Claims (13)
1.一种检索词识别方法,包括:
获取用户输入的检索词;
利用第一检索词识别模型对所述检索词进行识别,得到检索词识别结果和检索词标识;
根据所述检索词识别结果确定所述检索词是否为第一特定类型;
响应于所述检索词为第一特定类型,根据所述检索词标识从第一预设数据库中进行匹配;
响应于匹配成功,得到该检索词对应的匹配结果并将该匹配结果发送给用户。
2.根据权利要求1所述的方法,获取用户输入的检索词之前,还包括:
采集第一训练数据集;
利用所述第二检索词识别模型对所述第一训练数据集中的多个训练数据进行识别,得到与各个训练数据对应的标签;
对所述第二检索词识别模型进行模型蒸馏,得到第三检索词识别模型;
利用带标签的第一训练数据集对所述第三检索词识别模型进行训练,得到第一检索词识别模型。
3.根据权利要求2所述的方法,所述采集第一训练数据集之前,还包括:
采集第二训练数据集,所述第二训练数据集中的每个训练数据都有对应的标签;
利用所述第二训练数据集对语言模型进行训练,得到第二检索词识别模型。
4.根据权利要求1所述的方法,所述根据所述检索词识别结果确定所述检索词是否为第一特定类型之后,还包括:
响应于所述检索词为第二特定类型,根据所述检索词从第二预设数据库中进行匹配;
响应于匹配成功,得到该检索词对应的匹配结果并将该匹配结果发送给用户。
5.根据权利要求2所述的方法,所述得到第一检索词识别模型之后,还包括:
采集第三训练数据集;
将所述第三训练数据集划分为多个第四训练数据集;
利用所述多个第四训练数据集对多个第一检索词识别模型进行训练,得到多个训练后的第一检索词识别模型;
利用所述多个训练后的第一检索词识别模型对第三训练数据集进行识别,得到识别结果;
根据所述识别结果确定识别效果最好的第一检索词识别模型。
6.一种检索词识别装置,包括:
采集模块,用于获取用户输入的检索词;
识别模块,用于利用第一检索词识别模型对所述检索词进行识别,得到检索词识别结果和检索词标识;
处理模块,用于根据所述检索词识别结果确定所述检索词是否为第一特定类型;
匹配模块,用于响应于所述检索词为第一特定类型,根据所述检索词标识从第一预设数据库中进行匹配;
通信模块,用于响应于匹配成功,得到该检索词对应的匹配结果并将该匹配结果发送给用户。
7.根据权利要求6所述的装置,包括:
所述采集模块,还用于采集第一训练数据集;
所述识别模块,还用于利用所述第二检索词识别模型对所述第一训练数据集中的多个训练数据进行识别,得到与各个训练数据对应的标签;
所述处理模块,还用于对所述第二检索词识别模型进行模型蒸馏,得到第三检索词识别模型;
所述处理模块,还用于利用带标签的第一训练数据集对所述第三检索词识别模型进行训练,得到第一检索词识别模型。
8.根据权利要求7所述的装置,包括:
所述采集模块,还用于采集第二训练数据集,所述第二训练数据集中的每个训练数据都有对应的标签;
所述处理模块,还用于利用所述第二训练数据集对语言模型进行训练,得到第二检索词识别模型。
9.根据权利要求6所述的装置,包括:
所述匹配模块,还用于响应于所述检索词为第二特定类型,根据所述检索词从第二预设数据库中进行匹配;
所述通信模块,还用于响应于匹配成功,得到该检索词对应的匹配结果并将该匹配结果发送给用户。
10.根据权利要求7所述的装置,包括:
所述采集模块,还用于采集第三训练数据集;
所述处理模块,还用于将所述第三训练数据集划分为多个第四训练数据集;
所述处理模块,还用于利用所述多个第四训练数据集对多个第一检索词识别模型进行训练,得到多个训练后的第一检索词识别模型;
所述识别模块,还用于利用所述多个训练后的第一检索词识别模型对第三训练数据集进行识别,得到识别结果;
所述处理模块,还用于根据所述识别结果确定识别效果最好的第一检索词识别模型。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。
13.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210260677.3A CN114692618A (zh) | 2022-03-15 | 2022-03-15 | 检索词识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210260677.3A CN114692618A (zh) | 2022-03-15 | 2022-03-15 | 检索词识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114692618A true CN114692618A (zh) | 2022-07-01 |
Family
ID=82139794
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210260677.3A Pending CN114692618A (zh) | 2022-03-15 | 2022-03-15 | 检索词识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114692618A (zh) |
-
2022
- 2022-03-15 CN CN202210260677.3A patent/CN114692618A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113836314B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
CN112925883B (zh) | 搜索请求处理方法、装置、电子设备及可读存储介质 | |
CN113553412A (zh) | 问答处理方法、装置、电子设备和存储介质 | |
CN113657100A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
JP7369228B2 (ja) | ユーザ興味画像の生成方法、装置、電子機器及び記憶媒体 | |
CN112699237B (zh) | 标签确定方法、设备和存储介质 | |
CN112560480B (zh) | 任务社区发现方法、装置、设备和存储介质 | |
CN113157877A (zh) | 多语义识别方法、装置、设备和介质 | |
CN117271884A (zh) | 确定推荐内容的方法、装置、电子设备及存储介质 | |
CN114461665B (zh) | 用于生成语句转换模型的方法、装置及计算机程序产品 | |
CN114841172A (zh) | 文本匹配双塔模型的知识蒸馏方法、装置及程序产品 | |
CN114020888A (zh) | 文本生成的方法、装置、设备以及存储介质 | |
CN113641724A (zh) | 知识标签挖掘方法、装置、电子设备及存储介质 | |
CN114490709A (zh) | 文本生成方法、装置、电子设备及存储介质 | |
CN114048315A (zh) | 确定文档标签的方法、装置、电子设备和存储介质 | |
CN114692618A (zh) | 检索词识别方法、装置、电子设备及存储介质 | |
CN113033179A (zh) | 知识获取方法、装置、电子设备及可读存储介质 | |
CN112632999A (zh) | 命名实体识别模型获取及命名实体识别方法、装置及介质 | |
CN113032540B (zh) | 人机交互方法、装置、设备和存储介质 | |
CN114417871B (zh) | 模型训练及命名实体识别方法、装置、电子设备及介质 | |
CN116069914B (zh) | 训练数据的生成方法、模型训练方法以及装置 | |
CN114330364B (zh) | 模型训练方法、意图识别方法、装置和电子设备 | |
CN117688947A (zh) | 基于大模型的对话处理方法、装置、电子设备及存储介质 | |
CN114398469A (zh) | 搜索词权重的确定方法、装置及电子设备 | |
CN114461771A (zh) | 问答方法、装置、电子设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |