CN112925882A - 一种信息处理方法及装置 - Google Patents

一种信息处理方法及装置 Download PDF

Info

Publication number
CN112925882A
CN112925882A CN202110190176.8A CN202110190176A CN112925882A CN 112925882 A CN112925882 A CN 112925882A CN 202110190176 A CN202110190176 A CN 202110190176A CN 112925882 A CN112925882 A CN 112925882A
Authority
CN
China
Prior art keywords
information
response
query
matching
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110190176.8A
Other languages
English (en)
Inventor
沈强
谭松波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CN202110190176.8A priority Critical patent/CN112925882A/zh
Publication of CN112925882A publication Critical patent/CN112925882A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种信息处理方法及装置,所述方法包括:获得第一查询信息和与所述第一查询信息对应的第一应答列表,所述第一应答列表包含至少一个第一应答信息;根据特定条件对所述第一应答信息进行筛选,根据筛选获得的第一应答信息和所述第一查询信息确定第一映射关系;将所述第一映射关系存储到信息匹配库,所述信息匹配库用于根据来自第一用户的第二查询信息匹配所述第一映射关系,以确定与所述第二查询信息对应的第一应答信息;其中,所述第一查询信息为历史查询信息,应用本方法,能够反馈相关信息以供用户处理。

Description

一种信息处理方法及装置
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种信息处理方法及装置。
背景技术
目前,当第一用户需要在使用终端进行特定信息搜索时,一般操作是由第一用户输入搜索词,然后终端通过字符串扩展或匹配以理解第一用户意图,并输出与第一用户意图匹配的目标信息。如,当第一用户输入《软件A》时,终端会输出《软件A》的相关信息以供第一用户进行处理。
但是通过字符串扩展或匹配以理解第一用户意图的方式,当第一用户的输入搜索词与目标信息之间存在差异性的时候,终端无法返回正确结果,导致第一用户无法搜索到目标信息。如,当第一用户输入《software A》时,终端无法输出《软件A》的相关信息以供第一用户进行处理。
发明内容
本申请实施例提供了一种信息处理方法及装置,能够反馈相关信息以供用户处理。
本申请实施例一方面提供一种信息处理方法,所述方法包括:获得第一查询信息和与所述第一查询信息对应的第一应答列表,所述第一应答列表包含至少一个第一应答信息;根据特定条件对所述第一应答信息进行筛选,根据筛选获得的第一应答信息和所述第一查询信息确定第一映射关系;将所述第一映射关系存储到信息匹配库,所述信息匹配库用于根据来自第一用户的第二查询信息匹配所述第一映射关系,以确定与所述第二查询信息对应的第一应答信息;其中,所述第一查询信息为历史查询信息。
在另一可实施方式中,所述根据特定条件对所述第一应答信息进行筛选,包括:根据所述第一应答列表确定与所述第一应答信息对应的信息下载量;根据所述信息下载量对所述第一应答信息进行从大到小的排序,根据排序在前M位的第一应答信息确定第二应答列表,其中,M为大于或等于1的正整数;所述第二应答列表用于和所述第一查询信息确定第一映射关系。
在另一可实施方式中,所述方法还包括:根据信息存储库获得第二应答信息和与所述第二应答信息对应的特征信息;对所述特征信息进行关键字抽取,获得关键字信息;基于所述关键字信息和所述第二应答信息确定第二映射关系;将所述第二映射关系存储到所述信息匹配库,所述信息匹配库还用于根据来自所述第一用户的所述第二查询信息匹配所述第二映射关系,以确定与所述第二查询信息对应的第二应答信息;其中,所述第一应答信息和所述第二应答信息相同或不同。
在另一可实施方式中,所述方法还包括:根据所述第二查询信息匹配所述第一映射关系和所述第二映射关系,获得所述第一应答信息和所述第二应答信息;对所述第一应答信息进行相似度评分,获得第一相似度分值;对所述第二应答信息进行相似度评分,获得第二相似度分值;根据所述第一相似度分值和所述第二相似度分值,确定与所述第二查询信息对应的第三应答列表,所述第三应答列表包含所述第一应答信息和所述第二应答信息的其中至少之一。
在另一可实施方式中,所述方法还包括:对所述第二查询信息进行文本调整,获得第一匹配信息;根据所述第一匹配信息与所述信息匹配库进行匹配,以确定与所述第二查询信息对应的第三应答列表;输出所述第三应答列表。
在另一可实施方式中,所述对所述第二查询信息进行文本调整,获得第一匹配信息,包括:对所述第二查询信息进行格式转换,获得第一格式信息;对所述第一格式信息进行内容纠错,获得第一匹配信息;其中,所述第一格式信息与所述第一匹配特征的文本特征相同。
在另一可实施方式中,所述对第二查询信息进行格式转换,获得第一格式信息,包括:根据预设无效字符对所述第二查询信息进行字符删除,以获得第一格式信息。
在另一可实施方式中,所述对第二查询信息进行格式转换,获得第一格式信息,包括:根据预设目标格式对所述第二查询信息进行格式转换,获得第一格式信息。
在另一可实施方式中,所述对所述第一格式信息进行内容纠错,获得第一匹配信息,包括:对所述第一格式信息进行分词处理,获得与所述第一格式信息对应的第一分词信息;根据预设分词指标对所述第一分词信息进行筛选,获得不满足预设分词指标的第二分词信息;通过编辑距离和伯克哈德凯勒树对所述第二分词信息进行纠错,获得纠错信息;根据所述第一分词信息和纠错信息确定与所述第一格式信息对应的第一匹配信息。
本申请实施例另一方面提供一种信息处理装置,所述装置包括:获得模块,用于获得历史查询信息和与所述历史查询信息对应的多个历史应答信息;筛选模块,用于根据特定条件对所述多个历史应答信息进行筛选,获得应答信息;确定模块,用于基于所述历史查询信息和所述应答信息确定第一映射关系;存储模块,用于根据所述第一映射关系存储到信息匹配库,所述信息匹配库用于根据来自第一用户的第二查询信息匹配所述第一映射关系,以确定与所述第二查询信息对应的应答信息。
在另一可实施方式中,所述筛选模块,包括:确定子模块,用于根据所述第一应答列表确定与所述第一应答信息对应的信息下载量;排序子模块,用于根据所述信息下载量对所述第一应答信息进行从大到小的排序,根据排序在前M位的第一应答信息确定第二应答列表,其中,M为大于或等于1的正整数;所述确定子模块,还用于所述第二应答列表用于和所述第一查询信息确定第一映射关系。
在另一可实施方式中,所述获得模块,还用于根据信息存储库获得第二应答信息和与所述第二应答信息对应的特征信息;所述装置还包括:抽取模块,用于对所述特征信息进行关键字抽取,获得关键字信息;所述确定模块,还用于基于所述关键字信息和所述第二应答信息确定第二映射关系;所述存储模块,还用于将所述第二映射关系存储到所述信息匹配库,所述信息匹配库还用于根据来自所述第一用户的所述第二查询信息匹配所述第二映射关系,以确定与所述第二查询信息对应的第二应答信息;其中,所述第一应答信息和所述第二应答信息相同或不同。
在另一可实施方式中,所述装置还包括:匹配模块,用于根据所述第二查询信息匹配所述第一映射关系和所述第二映射关系,获得所述第一应答信息和所述第二应答信息;评分模块,用于对所述第一应答信息进行相似度评分,获得第一相似度分值;所述评分模块,还用于对所述第二应答信息进行相似度评分,获得第二相似度分值;所述确定模块,用于根据所述第一相似度分值和所述第二相似度分值,确定与所述第二查询信息对应的第三应答列表,所述第三应答列表包含所述第一应答信息和所述第二应答信息的其中至少之一。
在另一可实施方式中,所述装置还包括:调整模块,用于对所述第二查询信息进行文本调整,获得第一匹配信息;所述匹配模块,还用于根据所述第一匹配信息与所述信息匹配库进行匹配,以确定与所述第二查询信息对应的第三应答列表;输出模块,用于输出所述第三应答列表。
在另一可实施方式中,所述调整模块,包括:转换子模块,用于对所述第二查询信息进行格式转换,获得第一格式信息;对纠错子模块,用于所述第一格式信息进行内容纠错,获得第一匹配信息;其中,所述第一格式信息与所述第一匹配特征的文本特征相同。
在另一可实施方式中,所述转换子模块,包括:根据预设无效字符对所述第二查询信息进行字符删除,以获得第一格式信息。
在另一可实施方式中,所述转换子模块,包括:根据预设目标格式对所述第二查询信息进行格式转换,获得第一格式信息。
在另一可实施方式中,所述纠错子模块,包括:对所述第一格式信息进行分词处理,获得与所述第一格式信息对应的第一分词信息;根据预设分词指标对所述第一分词信息进行筛选,获得不满足预设分词指标的第二分词信息;通过编辑距离和伯克哈德凯勒树对所述第二分词信息进行纠错,获得纠错信息;根据所述第一分词信息和纠错信息确定与所述第一格式信息对应的第一匹配信息。
本申请实施例提供的信息处理方法及装置用于对用户的第一查询信息和对应历史查询信息的第一应答列表进行处理,通过特定条件对第一应答列表中的第一应答信息进行筛选,以确定第一查询信息和第一应答信息之间的第一映射关系,并将第一映射关系存储至信息匹配库中,当用户进行查询的时候,可以通过信息匹配的方式确定与第一查询信息进行匹配,确定用于应答的第一应答信息。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本申请实施例一种信息处理方法的实现流程示意图;
图2为本申请另一实施例一种信息处理方法确定第一映射关系的实现流程示意图;
图3为本申请另一实施例一种信息处理方法确定第二映射关系的实现流程示意图;
图4为本申请另一实施例一种信息处理方法确定第三应答列表的实现流程示意图;
图5为本申请另一实施例一种信息处理方法文本匹配的实现流程示意图;
图6为本申请另一实施例一种信息处理方法文本调整的实现流程示意图;
图7为本申请另一实施例一种信息处理装置的实现模块示意图。
具体实施方式
为使本申请的目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例一种信息处理方法的实现流程示意图。
参见图1,本申请实施例一方面提供一种信息处理方法,方法包括:操作101,获得第一查询信息和与第一查询信息对应的第一应答列表,第一应答列表包含至少一个第一应答信息;操作102,根据特定条件对第一应答信息进行筛选,根据筛选获得的第一应答信息和第一查询信息确定第一映射关系;操作103,将第一映射关系存储到信息匹配库,信息匹配库用于根据来自第一用户的第二查询信息匹配第一映射关系,以确定与第二查询信息对应的第一应答信息;其中,第一查询信息为历史查询信息。
本申请实施例提供的信息处理方法用于对用户的第一查询信息和对应历史查询信息的第一应答列表进行处理,通过特定条件对第一应答列表中的第一应答信息进行筛选,以确定第一查询信息和第一应答信息之间的第一映射关系,并将第一映射关系存储至信息匹配库中,当用户进行查询的时候,可以通过信息匹配的方式确定与第一查询信息进行匹配,确定用于应答的第一应答信息。本方法可以应用于各类数据库或信息库,通过第一查询信息表征用户的输入习惯,通过满足的特定条件的第一应答信息表征用户的目标信息,通过第一映射关系表征根据用户输入习惯确定的输入信息与应答信息之间的映射关系,当用户通过第二查询信息进行查询时,可以通过第一映射关系确定符合用户输入习惯的第一应答信息,以输出与第二查询信息对应的第一应答信息供用户处理。
在操作101中,第一查询信息为待查询信息库的某一特定信息的历史查询信息,第一应答列表可以为与历史查询信息对应的用于输出应答的历史应答列表,第一应答列表也可以为中间处理中的某一处理操作中所确定的应答列表。即,第一应答列表可以与历史用于输出应答的列表相同或不同。第一应答列表包含至少一个第一应答信息。根据待查询信息库的不同,第一应答信息可以适配性调整,如,当待查询信息库为软件库时,第一应答信息可以是对应的软件;当待查询信息库为论文库时,第一应答信息可以是对应的论文。第一应答列表根据待查询信息库中所有的第一查询信息确定,如,当第一查询信息为“微信”的情况下,获得待查询软件库中与“微信”对应的所有第一应答列表。第一应答列表也可以根据某一时间段内的第一查询信息确定,如,预设一特定查询时间段,当第一查询信息为“微信”的情况下,获得待查询软件库中与该特定查询时间段内对应的第一应答列表。第一应答列表还可以根据特定数量随机抽取获得,如,预设一特定数量,当第一查询信息为“微信”,在待查询软件库中随机抽取与“微信”匹配的特定数量的历史应答列表。具体的,待查询信息库可以包含历史记录库,第一查询信息和第一应答信息可以均记录在该历史记录库中。
在操作102中,特定条件可以设置为用户进行特定操作的第一应答信息,根据待查询信息库的具体类型,特定操作包括但不限于:下载、删除、复制、保存、剪切等中的任一项及与该操作相关的参数信息。如,当第一应答信息为软件时,特定条件可以设置为用户进行下载的软件,当第一应答信息为翻译信息时,特定条件可以设置为用户复制的翻译信息。根据特定条件对第一应答信息进行筛选,能够筛选获得的满足特定条件的第一应答信息,该满足特定条件的第一应答信息可以表征该信息为用户查找的目标信息,可以根据满足特定条件的第一应答信息和第一查询信息确定第一映射关系。其中,如果用户对多个第一应答信息进行操作,可以确定根据第一查询信息和多个第一应答信息确定第一映射关系。
在操作103中,第二查询信息指代用户需要查询的查询信息,通过将第一映射关系存储到信息匹配库,通过第二查询信息在信息匹配库中匹配第一映射关系,当第二查询信息与第一查询信息匹配一致的情况下,根据第一映射关系确定一个或多个第一应答信息。匹配获得的第一应答信息可以直接输出与第二查询信息对应的一个或多个目标应答信息,也可以进行后续处理后,再输出对应的第一或多个目标应答信息。如当用户在软件库中输入的第二查询信息为“vx”,通过“vx”在信息匹配库中进行匹配,匹配获得的第一映射关系为“vx→微信”,将软件“微信”确定为第一应答信息进行输出或进行其他后续处理。
图2为本申请另一实施例一种信息处理方法确定第一映射关系的实现流程示意图。
参见图2,在另一可实施方式中,操作102,根据特定条件对第一应答信息进行筛选,包括:操作1021,根据第一应答列表确定与第一应答信息对应的信息下载量;操作1022,根据信息下载量对第一应答信息进行从大到小的排序,根据排序在前M位的第一应答信息确定第二应答列表,其中,M为大于或等于1的正整数;第二应答列表用于和第一查询信息确定第一映射关系。
在操作102中,不同类型的待查询信息库所对应的特定条件不同,当待查询信息库为软件库的情况下,在操作1021中,第一查询信息可以为与某一特定软件对应的历史查询信息,第一应答列表为与历史查询信息对应的多个历史应答列表,特定条件可以为用户在第一应答列表中选择的具体软件及其下载量。如,当第一查询信息为“vx”,对应的第一应答列表中,包含有“微信”、“微博”、“QQ”等软件信息,其中,与“微信”对应的下载量为5000次,与微博对应的下载量为500次,与QQ对应的下载量为50次。
在操作1022中,根据软件的下载量对第一应答列表中的所有软件进行下载量从高到低的排序,根据排序最靠前的微信确定第二应答列表,从而确定软件“微信”与查询信息“VX”之间存在相关性,根据查询信息“VX”与软件“微信”确定第一映射关系并存储至信息匹配库。在另一种实施情况下,根据需要,还可以选取排序靠前的几个软件共同确定第一映射关系,如,都能够M为2的时候,可以将软件“微信”和软件“微博”确定为第二应答列表,其中,根据下载量排序,软件“微信”的优先级可以高于软件“微博”,根据查询信息“VX”与第二应答列表确定第一映射关系并存储至信息匹配库。
图3为本申请另一实施例一种信息处理方法确定第二映射关系的实现流程示意图。
参见图3,在另一可实施方式中,方法还包括:操作301,根据信息存储库获得第二应答信息和与第二应答信息对应的特征信息;操作302,对特征信息进行关键字抽取,获得关键字信息;操作303,基于关键字信息和第二应答信息确定第二映射关系;操作304,将第二映射关系存储到信息匹配库,信息匹配库还用于根据来自第一用户的第二查询信息匹配第二映射关系,以确定与第二查询信息对应的第二应答信息;其中,第一应答信息和第二应答信息相同或不同。
在本方法中,信息匹配库还存储有根据关键字信息确定第二映射关系。关键字信息通过对与第二应答信息对应的特征信息进行关键字抽取获得,第二应答信息对应的特征信息可以为多种类型的特征信息,从而关键字抽取获得的关键字信息也可以是对应多种类型的关键字。其中,第二应答信息指代与待查询信息库对应的所有信息,如,软件库内的所有软件信息。需要理解的是,软件库中可能存在从未被查询过的软件,基于此,存在一种具体实施场景,当第二查询信息与第一映射关系不匹配的情况下,可以通过第二映射关系确定与第二查询信息对应的第二应答信息。在另一种具体实施场景中,也可以根据第二查询信息同时确定第一映射关系和第二映射关系,根据与第一映射关系对应的第一应答信息和与第二映射关系对应的第二应答信息整合以确定用于输出的目标应答信息。
在操作301中,信息存储库用于存储待查询信息及相关特征信息。如,存储软件安装包及对应的特征信息。特征信息为包括多类别的特征信息:软件名称、软件版本、软件类型、软件ID、软件大小、软件宣传语、软件简介、软件详情介绍、软件网址、软件价格、软件关键字、软件适配系统等特征信息。特征信息可以通过结构性文本进行表征。
在操作302中,通过对上述一个或多个类别的特征信息进行关键字抽取,获得与一个或多个类别对应的关键字信息。如,根据软件“天翼Live”所对应的“软件网址”进行关键字抽取,通过提取软件地址的核心部分,如二级域名,来作为该软件的关键字,即可抽取获得关键字信息“elive”。根据软件“微信”进行拼音关键字的抽取,可以获得关键字信息,如“wei’xin”和“w’x”,还可以根据与软件“微信”对应的拼音,统计出所有可能存在的拼音组合,可以获得对应的关键字信息,如:“wei’xin”,“w’x”,“w’xin”,“wei’x”等。还可以根据与软件对应的英文名的首字母进行关键字抽取,如“英雄联盟”对应的英文名为“League ofLegends”,对首字母进行关键字抽取,可以获得对应的关键字信息“LOL”。对“AfterEffect”进行首字母关键字抽取,可以获得对应的关键字信息为“AE”。
在操作303中,本方法可以基于对应每一个类别的关键字信息与第二应答信息确定与每一个类别对应的第二映射关系,也可以整合所有关键字信息确定与第二应答信息对应的第二映射关系。
在操作304中,将第二映射关系存储到信息匹配库,在一种实施场景中,当第二映射关系为对应每一个类别的第二映射关系的情况下,可以根据输入信息与每一个类别对应的第二映射关系进行匹配,如输入为“weixin”,根据名称对应的拼音类别可以匹配到软件“微信”,根据软件网址的关键字也可以匹配到软件“微信”。对每一个类别对应的第二映射关系进行整合,确定对应的第二应答信息。其中,整合方式可以是选取匹配度最高的软件作为第二应答信息,也可以将所有匹配到的软件均确定为第二应答信息,从而获得包含多个第二应答信息的应答列表。
当第二查询信息无法匹配对应的第一映射关系的情况下,可以通过第二查询信息与第二映射关系进行匹配,以确定与第二查询信息对应的第二应答信息。在另一种实施场景下,第二查询信息可以同时匹配第一映射关系和第二映射关系,并根据第一映射关系和第二映射关系确定最终的输出目标应答信息。其中,输出的目标应答信息可以是一个或多个。
图4为本申请另一实施例一种信息处理方法确定第三应答列表的实现流程示意图。
参见图4,在另一可实施方式中,方法还包括:操作401,根据第二查询信息匹配第一映射关系和第二映射关系,获得第一应答信息和第二应答信息;操作402,对第一应答信息进行相似度评分,获得第一相似度分值;对第二应答信息进行相似度评分,获得第二相似度分值;操作403,根据第一相似度分值和第二相似度分值,确定与第二查询信息对应的第三应答列表,第三应答列表包含第一应答信息和第二应答信息的其中至少之一。
以下提供一种确定最终输出的第三应答列表的具体实施场景,在操作401,当获得来自用户的第二查询信息之后,根据第二查询信息与信息匹配库中的第一映射关系和第二映射关系进行匹配,获得第一应答信息和第二应答信息,当第二查询信息无法匹配到满足要求的第一映射关系的情况下,第一应答信息可以为空。
在操作402中,相似度评分可以提过编辑距离确定。如,第一相似度分值可以根据第二查询信息与第一查询信息之间的编辑距离进行计算,具体的,现将第二查询信息进行分词,通过词向量提取模型(word2vec)计算对应每一个分词的词向量,然后通过加和确定与第二查询信息对应的词向量,同理确定与第一查询信息对应的词向量,通过距离公式计算与第一查询信息对应的词向量和与第二查询信息对应的词向量的第一相似度分值。同理,第二相似度分值可以通过先对第二查询信息进行特征抽取,获得对应的查询特征,通过对查询特征和关键字特征分词和词向量提取模型提取后,获得与查询特征对应的词向量和与关键字特征对应的词向量,通过距离公式计算与查询特征对应的词向量和与关键字特征对应的词向量以确定第二相似度分值。可以理解的是,当第二映射关系为对应多个类别的第二映射关系时,第二相似度分值可以有多个。当第一映射关系中第一应答信息为多个的情况下,第一相似度分值同样为多个。可以理解的是,距离公式为用于计算两个词向量之间的相似性的公式。如,在软件库中,当获得来自用户的软件查询信息,根据第一映射关系确定至少一个历史应答软件,然后根据第二映射关系确定关键字符合要求的至少一个关键字应答软件,然后对每一个历史应答软件和关键字应答软件都与软件查询信息进行相似度评分,获得对应每一个软件的相似度分值。
在操作403中,根据第一相似度分值和第二相似度分值,确定与第二查询信息对应的第三应答列表,具体的,可以对第一相似度分值和第二相似度分值进行比较,将与分值较高的映射关系所对应的应答列表确定为第三应答列表。也可以根据第一相似度分值和第二相似度分值对第一应答信息和第二应答信息进行分别评分后,整合排序,选取评分靠前的应答信息确定第三应答列表以进行输出。
图5为本申请另一实施例一种信息处理方法文本匹配的实现流程示意图。
参见图5,在另一可实施方式中,方法还包括:操作501,对第二查询信息进行文本调整,获得第一匹配信息;操作502,根据第一匹配信息与信息匹配库进行匹配,以确定与第二查询信息对应的第三应答列表;操作503,输出第三应答列表。
本方法在根据第二查询信息与信息匹配库匹配之前,在操作501中,先对第二查询信息进行文本调整,获得第一匹配信息,第一匹配信息的文本特征能够与第一映射关系或第二映射关系的文本特征保持一致。其中,文本特征可以如:汉字均通过简体表达,拼音和英文均通过小写或大写表达等。
在操作502中,根据第一匹配信息与信息匹配库进行匹配,能够避免由于文本特征不一致导致匹配出错,从而能够确定更为准确的第三应答列表。
在操作503中,输出第三应答列表以实现对第二查询信息的应答。
图6为本申请另一实施例一种信息处理方法文本调整的实现流程示意图。
参见图6,在另一可实施方式中,操作501,对第二查询信息进行文本调整,获得第一匹配信息,包括:操作5011,对第二查询信息进行格式转换,获得第一格式信息;操作5012,对第一格式信息进行内容纠错,获得第一匹配信息;其中,第一格式信息与第一匹配特征的文本特征相同。
本方法的文本调整包括格式调整和内容纠错,通过格式调整以使文本特征能够与第一映射关系或第二映射关系的文本特征保持一致。通内容纠错能够对错别字进行纠错,避免错别字避免信息匹配的准确性。
在另一可实施方式中,操作5011,对第二查询信息进行格式转换,获得第一格式信息,包括:根据预设无效字符对第二查询信息进行字符删除,以获得第一格式信息。
用户在输入第二查询信息时,可能由于各种原因输入无效字符,本方法通过正则表达式可以删除第二查询信息中的无效字符,可以预设无效字符集合如下:[()#^&_/……%¥*()+=@!~、,。.?{}—;【——$】[\]|<>》《;::"‘’“”!,.\-!?:\\\'\r\n\t]。当第二查询信息为“%微+信%”的情况下,通过正则表达式对第二查询信息进行过滤,获得第一个格式信息为“微信”。
在另一可实施方式中,操作5011,对第二查询信息进行格式转换,获得第一格式信息,包括:根据预设目标格式对第二查询信息进行格式转换,获得第一格式信息。
用户在输入第二查询信息时,由于个人输入习惯或其他原因,可能会输入不同文本形体,本方法在格式转换中,还会对文本形体进行转换,文本形体转换包括但不限于,繁简体转换、英文的时态转换和数字转换。如“騰訊音樂”转换为“腾讯音乐”;“trying”转换为“try”;“③”转换为“3”。具体的,本方法可以预设目标文本形态,当用户输入第二查询信息的情况下,对第二查询信息进行形态识别,当第二查询信息的心态不满足目标文本形态的情况下,对第二查询信息进行形态转换。
需要补充的是,本方法在操作5011中,当第二查询信息既包括无效字符又不满足目标文本形态的情况下,可以先对第二查询信息进行无效字符删除,再进行文本转换,也可以先对第二查询信息进行文本转换,再进行字符删除。
在另一可实施方式中,操作5012,对第一格式信息进行内容纠错,获得第一匹配信息,包括:首先,对第一格式信息进行分词处理,获得与第一格式信息对应的第一分词信息;然后,根据预设分词指标对第一分词信息进行筛选,获得不满足预设分词指标的第二分词信息;再后,通过编辑距离和伯克哈德凯勒树对第二分词信息进行纠错,获得纠错信息;之后,根据第一分词信息和纠错信息确定与第一格式信息对应的第一匹配信息。
本方法的内容纠错通过使用编辑距离结合伯克哈德凯勒树(Burkhard-Keller-Tree)来进行纠错。如输入“wrixin”,纠正为“weixin”;输入“维信”纠正为“微信”。
具体的,本方法首先对第一格式信息进行分词处理,需要说明的是,如果第一格式信息本身就是一个完整的词,就不进行分词处理,如输入为“维信电脑版”,则分词为“维信”和“电脑版”,如输入为“维信”,属于完整词,就不进行分词处理。
然后,根据预设分词指标对第一分词信息进行筛选,具体的,通过预设的标准词库与每一个分词信息进行匹配,将无法匹配与预设的标准词库匹配的分词信息确定为第二分词信息。
再后,通过编辑距离和伯克哈德凯勒树(Burkhard-Keller-Tree)对第二分词信息进行纠错,具体的,可以通过Burkhard-Keller-Tree在预设的标准词库中查找与第二分词信息编剧距离接近的标准词,将该标准词确定为与第二分词信息对应的纠错信息,如,通过Burkhard-Keller-Tree查找与第二分词信息编辑距离为1的标准词确定为纠错信息,或通过Burkhard-Keller-Tree查找与第二分词信息编剧距离不超过2的标准词确定为纠错信息。需要说明的是,查找获得的编辑距离满足要求的标准词可以为一个或多个。之后,根据第一分词信息和纠错信息确定与第一格式信息对应的第一匹配信息。
图7为本申请另一实施例一种信息处理装置的实现模块示意图。
参见图7,本申请实施例另一方面提供一种信息处理装置,装置包括:获得模块701,用于获得历史查询信息和与历史查询信息对应的多个历史应答信息;筛选模块702,用于根据特定条件对多个历史应答信息进行筛选,获得应答信息;确定模块703,用于基于历史查询信息和应答信息确定第一映射关系;存储模块704,用于根据第一映射关系存储到信息匹配库,信息匹配库用于根据来自第一用户的第二查询信息匹配第一映射关系,以确定与第二查询信息对应的应答信息。
在另一可实施方式中,筛选模块702,包括:确定子模块7021,用于根据第一应答列表确定与第一应答信息对应的信息下载量;排序子模块7022,用于根据信息下载量对第一应答信息进行从大到小的排序,根据排序在前M位的第一应答信息确定第二应答列表,其中,M为大于或等于1的正整数;第二应答列表用于和第一查询信息确定第一映射关系。
在另一可实施方式中,获得模块701,还用于根据信息存储库获得第二应答信息和与第二应答信息对应的特征信息;装置还包括:抽取模块,用于对特征信息进行关键字抽取,获得关键字信息;确定模块703,还用于基于关键字信息和第二应答信息确定第二映射关系;存储模块704,还用于将第二映射关系存储到信息匹配库,信息匹配库还用于根据来自第一用户的第二查询信息匹配第二映射关系,以确定与第二查询信息对应的第二应答信息;其中,第一应答信息和第二应答信息相同或不同。
在另一可实施方式中,装置还包括:匹配模块705,用于根据第二查询信息匹配第一映射关系和第二映射关系,获得第一应答信息和第二应答信息;评分模块706,用于对第一应答信息进行相似度评分,获得第一相似度分值;评分模块706,还用于对第二应答信息进行相似度评分,获得第二相似度分值;确定模块703,用于根据第一相似度分值和第二相似度分值,确定与第二查询信息对应的第三应答列表,第三应答列表包含第一应答信息和第二应答信息的其中至少之一。
在另一可实施方式中,装置还包括:调整模块707,用于对第二查询信息进行文本调整,获得第一匹配信息;匹配模块705,还用于根据第一匹配信息与信息匹配库进行匹配,以确定与第二查询信息对应的第三应答列表;输出模块708,用于输出第三应答列表。
在另一可实施方式中,调整模块707,包括:转换子模块7071,用于对第二查询信息进行格式转换,获得第一格式信息;对纠错子模块7072,用于第一格式信息进行内容纠错,获得第一匹配信息;其中,第一格式信息与第一匹配特征的文本特征相同。
在另一可实施方式中,转换子模块7071,包括:根据预设无效字符对第二查询信息进行字符删除,以获得第一格式信息。
在另一可实施方式中,转换子模块7071,包括:根据预设目标格式对第二查询信息进行格式转换,获得第一格式信息。
在另一可实施方式中,纠错子模块7072,包括:对第一格式信息进行分词处理,获得与第一格式信息对应的第一分词信息;根据预设分词指标对第一分词信息进行筛选,获得不满足预设分词指标的第二分词信息;通过编辑距离和伯克哈德凯勒树对第二分词信息进行纠错,获得纠错信息;根据第一分词信息和纠错信息确定与第一格式信息对应的第一匹配信息。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种信息处理方法,所述方法包括:
获得第一查询信息和与所述第一查询信息对应的第一应答列表,所述第一应答列表包含至少一个第一应答信息;
根据特定条件对所述第一应答信息进行筛选,根据筛选获得的第一应答信息和所述第一查询信息确定第一映射关系;
将所述第一映射关系存储到信息匹配库,所述信息匹配库用于根据来自第一用户的第二查询信息匹配所述第一映射关系,以确定与所述第二查询信息对应的第一应答信息;
其中,所述第一查询信息为历史查询信息。
2.根据权利要求1所述的方法,所述根据特定条件对所述第一应答信息进行筛选,包括:
根据所述第一应答列表确定与所述第一应答信息对应的信息下载量;
根据所述信息下载量对所述第一应答信息进行从大到小的排序,根据排序在前M位的第一应答信息确定第二应答列表,其中,M为大于或等于1的正整数;所述第二应答列表用于和所述第一查询信息确定第一映射关系。
3.根据权利要求1所述的方法,所述方法还包括:
根据信息存储库获得第二应答信息和与所述第二应答信息对应的特征信息;
对所述特征信息进行关键字抽取,获得关键字信息;
基于所述关键字信息和所述第二应答信息确定第二映射关系;
将所述第二映射关系存储到所述信息匹配库,所述信息匹配库还用于根据来自所述第一用户的所述第二查询信息匹配所述第二映射关系,以确定与所述第二查询信息对应的第二应答信息;
其中,所述第一应答信息和所述第二应答信息相同或不同。
4.根据权利要求3所述的方法,所述方法还包括:
根据所述第二查询信息匹配所述第一映射关系和所述第二映射关系,获得所述第一应答信息和所述第二应答信息;
对所述第一应答信息进行相似度评分,获得第一相似度分值;
对所述第二应答信息进行相似度评分,获得第二相似度分值;
根据所述第一相似度分值和所述第二相似度分值,确定与所述第二查询信息对应的第三应答列表,所述第三应答列表包含所述第一应答信息和所述第二应答信息的其中至少之一。
5.根据权利要求4所述的方法,所述方法还包括:
对所述第二查询信息进行文本调整,获得第一匹配信息;
根据所述第一匹配信息与所述信息匹配库进行匹配,以确定与所述第二查询信息对应的第三应答列表;
输出所述第三应答列表。
6.根据权利要求5所述的方法,所述对所述第二查询信息进行文本调整,获得第一匹配信息,包括:
对所述第二查询信息进行格式转换,获得第一格式信息;
对所述第一格式信息进行内容纠错,获得第一匹配信息;
其中,所述第一格式信息与所述第一匹配特征的文本特征相同。
7.根据权利要求6所述的方法,所述对第二查询信息进行格式转换,获得第一格式信息,包括:
根据预设无效字符对所述第二查询信息进行字符删除,以获得第一格式信息。
8.根据权利要求6所述的方法,所述对第二查询信息进行格式转换,获得第一格式信息,包括:
根据预设目标格式对所述第二查询信息进行格式转换,获得第一格式信息。
9.根据权利要求6所述的方法,所述对所述第一格式信息进行内容纠错,获得第一匹配信息,包括:
对所述第一格式信息进行分词处理,获得与所述第一格式信息对应的第一分词信息;
根据预设分词指标对所述第一分词信息进行筛选,获得不满足预设分词指标的第二分词信息;
通过编辑距离和伯克哈德凯勒树对所述第二分词信息进行纠错,获得纠错信息;
根据所述第一分词信息和纠错信息确定与所述第一格式信息对应的第一匹配信息。
10.一种信息处理装置,所述装置包括:
获得模块,用于获得历史查询信息和与所述历史查询信息对应的多个历史应答信息;
筛选模块,用于根据特定条件对所述多个历史应答信息进行筛选,获得应答信息;
确定模块,用于基于所述历史查询信息和所述应答信息确定第一映射关系;
存储模块,用于根据所述第一映射关系存储到信息匹配库,所述信息匹配库用于根据来自第一用户的第二查询信息匹配所述第一映射关系,以确定与所述第二查询信息对应的应答信息。
CN202110190176.8A 2021-02-18 2021-02-18 一种信息处理方法及装置 Pending CN112925882A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110190176.8A CN112925882A (zh) 2021-02-18 2021-02-18 一种信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110190176.8A CN112925882A (zh) 2021-02-18 2021-02-18 一种信息处理方法及装置

Publications (1)

Publication Number Publication Date
CN112925882A true CN112925882A (zh) 2021-06-08

Family

ID=76169879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110190176.8A Pending CN112925882A (zh) 2021-02-18 2021-02-18 一种信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN112925882A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658684A (zh) * 2021-08-11 2021-11-16 挂号网(杭州)科技有限公司 一种咨询结果生成方法、装置、电子设备及存储介质
CN114491318A (zh) * 2021-12-16 2022-05-13 北京百度网讯科技有限公司 目标信息的确定方法、装置、设备以及存储介质
CN113658684B (zh) * 2021-08-11 2024-05-31 挂号网(杭州)科技有限公司 一种咨询结果生成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
US20130031082A1 (en) * 2011-07-27 2013-01-31 Wolfram Alpha Llc Method and system for using natural language to generate widgets
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及系统
CN111797217A (zh) * 2020-06-29 2020-10-20 中国平安财产保险股份有限公司 基于faq匹配模型的信息查询方法、及其相关设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464897A (zh) * 2009-01-12 2009-06-24 阿里巴巴集团控股有限公司 一种词匹配及信息查询方法及装置
US20130031082A1 (en) * 2011-07-27 2013-01-31 Wolfram Alpha Llc Method and system for using natural language to generate widgets
CN105989040A (zh) * 2015-02-03 2016-10-05 阿里巴巴集团控股有限公司 智能问答的方法、装置及系统
CN111797217A (zh) * 2020-06-29 2020-10-20 中国平安财产保险股份有限公司 基于faq匹配模型的信息查询方法、及其相关设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113658684A (zh) * 2021-08-11 2021-11-16 挂号网(杭州)科技有限公司 一种咨询结果生成方法、装置、电子设备及存储介质
CN113658684B (zh) * 2021-08-11 2024-05-31 挂号网(杭州)科技有限公司 一种咨询结果生成方法、装置、电子设备及存储介质
CN114491318A (zh) * 2021-12-16 2022-05-13 北京百度网讯科技有限公司 目标信息的确定方法、装置、设备以及存储介质
CN114491318B (zh) * 2021-12-16 2023-09-01 北京百度网讯科技有限公司 目标信息的确定方法、装置、设备以及存储介质

Similar Documents

Publication Publication Date Title
US11803596B2 (en) Efficient forward ranking in a search engine
CN108287858B (zh) 自然语言的语义提取方法及装置
US8713024B2 (en) Efficient forward ranking in a search engine
JP4129048B2 (ja) 固有表現抽出装置、方法、及びプログラム
US20060200464A1 (en) Method and system for generating a document summary
US10552467B2 (en) System and method for language sensitive contextual searching
CN110321408B (zh) 基于知识图谱的搜索方法、装置、计算机设备和存储介质
CN107577755B (zh) 一种搜索方法
CN110297880B (zh) 语料产品的推荐方法、装置、设备及存储介质
JP2011529600A (ja) 意味ベクトルおよびキーワード解析を使用することによるデータセットを関係付けるための方法および装置
JP6355840B2 (ja) ストップワード識別方法および装置
EP1312039B1 (en) System and method for automatic preparation and searching of scanned documents
CN114547253A (zh) 一种基于知识库应用的语义搜索方法
CN110209781B (zh) 一种文本处理方法、装置以及相关设备
CN112597274A (zh) 基于bm25算法的文档确定方法、装置、设备及存储介质
CN117171331B (zh) 基于大型语言模型的专业领域信息交互方法、装置及设备
CN112925882A (zh) 一种信息处理方法及装置
JP6787755B2 (ja) 文書検索装置
CN114706938A (zh) 一种文档标签确定方法、装置、电子设备及存储介质
CN100496091C (zh) 在有线电视单向机顶盒中进行全文检索的系统
CN115146030A (zh) 一种基于知识图谱的公务文书写作方法及系统
JP4497337B2 (ja) 概念検索装置およびコンピュータプログラムを記録した記録媒体
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
CN111831884A (zh) 一种基于信息查找的匹配系统与方法
CN111241313A (zh) 支持图像录入的检索方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination