CN110688559A - 一种检索方法及装置 - Google Patents
一种检索方法及装置 Download PDFInfo
- Publication number
- CN110688559A CN110688559A CN201910910360.8A CN201910910360A CN110688559A CN 110688559 A CN110688559 A CN 110688559A CN 201910910360 A CN201910910360 A CN 201910910360A CN 110688559 A CN110688559 A CN 110688559A
- Authority
- CN
- China
- Prior art keywords
- entity
- participles
- text
- concept
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种检索方法及装置,其中,所述方法包括:确定待检索文本中的特征信息;在索引库中确定与所述特征信息相匹配的索引集合;根据所述特征信息生成对应的特征空间向量;在索引集合对应的历史数据集合中确定检索结果。可见,本申请所提供的一种检索方法及装置,可以通过将待检索文本分类之后首先经过索引定位至一部分历史数据,再通过与历史数据之间计算多维语义相似度二次确定至检索结果,从而有效提高检索结果与待检索文本的匹配度。
Description
技术领域
本申请涉及文本信息处理技术领域,尤其涉及一种检索方法及装置。
背景技术
用户在网页或者本地搜索栏中通过输入文本信息检索需求的信息,通常,网页首先将用户输入的文本信息与索引库中的索引进行匹配,这些索引为具有逻辑指向性的指针,然后通过与用户输入的文本信息相匹配的索引指向与文本信息相匹配的历史数据,并向用户展示这些历史数据。通常,网页会直接将用户输入的文本信息与数据库中的历史数据进行匹配,例如计算两者的语义相似度值,并选择语义相似度较高的历史数据作为检索结果。
用户在使用上述方法时存在一些问题,数据库包含海量历史数据,同时各个历史数据之间的语义相似度也较高,如果只通过计算用户输入的文本信息与历史数据之间的语义相似度确定检索结果,不仅会耗费大量时间,同时,检索结果极有可能不符合用户的真正需求。
发明内容
本申请提供了一种检索方法及装置,可以有效提高检索结果与待检索文本信息之间的匹配度。
第一方面,本申请提供了一种检索方法,其特征在于,所述方法包括:
确定待检索文本中的特征信息,所述特征信息包括所述待检索文本中的概念分词、实体分词和具有指定词性的非实体分词;
在索引库中确定与所述特征信息相匹配的索引集合;
根据所述特征信息生成对应的特征空间向量;
在索引集合对应的历史数据集合中确定检索结果,所述检索结果为与所述特征空间向量的语义相似度大于或者等于预设相似度阈值的历史数据,所述历史数据为经过特征分类处理及对应特征分类分配权重得到的空间向量。
第二方面,本申请提供了一种检索装置,其特征在于,所述装置包括:
特征信息确定模块,用于确定待检索文本中的特征信息,所述特征信息包括所述待检索文本信息中的概念分词、实体分词和具有指定词性的非实体分词;
索引集合确定模块,用于在索引库中确定与所述特征信息相匹配的索引集合;
特征空间向量生成模块,用于根据所述特征信息生成对应的特征空间向量;
检索结果确定模块,用于在索引集合对应的历史数据集合中确定检索结果,所述检索结果为与所述特征空间向量的语义相似度大于或者等于预设相似度阈值的历史数据,所述历史数据为经过特征分类处理及对应特征分类分配权重得到的空间向量。
由以上技术可知,本申请提供了一种检索方法及装置,其中,首先确定待检索文本中的特征信息,所述特征信息包括所述待检索文本中的概念分词、实体分词和具有指定词性的非实体分词,从而令待检索文本具有分类特征。首先在索引库中确定与所述特征信息相匹配的索引集合,根据索引集合能够对应至相应的历史数据集合,然后根据特征信息生成对应的特征空间向量,再通过计算特征空间向量与历史数据集合中各历史数据的语义相似度,确定检索结果。可见,本申请所提供的一种检索方法及装置,可以通过将待检索文本分类之后首先经过索引定位至一部分历史数据,再通过与历史数据之间计算语义相似度二次确定至检索结果,从而有效挺高检索结果与待检索文本的匹配度。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1展示了一种检索方法的流程图;
图2展示了第一种确定特征信息的方法的流程图;
图3展示了第二种确定特征信息的方法的流程图;
图4展示了一种确定索引集合的方法的流程图;
图5展示了一种生成特征空间向量的方法的流程图;
图6展示了一种根据分类标签生成特征空间向量的方法的流程图;
图7展示了一种确定检索结果的方法的流程图;
图8展示了一种计算特征空间向量与历史数据之间的语义相似度的方法的流程图;
图9展示了一种确定检索结果的方法的流程图;
图10展示了一种检索装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
用户在网页或者本地搜索栏中通过输入文本信息检索需求的信息,通常,网页首先将用户输入的文本信息与索引库中的索引进行匹配,这些索引为具有逻辑指向性的指针,然后通过与用户输入的文本信息相匹配的索引指向与文本信息相匹配的历史数据,并向用户展示这些历史数据。通常,网页会直接将用户输入的文本信息与数据库中的历史数据进行匹配,例如计算两者的语义相似度值,并选择语义相似度较高的历史数据作为检索结果。
用户在使用上述方法时存在一些问题,数据库包含海量历史数据,同时各个历史数据之间的语义相似度也较高,如果只通过计算用户输入的文本信息与历史数据之间的语义相似度确定检索结果,不仅会耗费大量时间,同时,检索结果极有可能不符合用户的真正需求。
为了解决上述问题,本申请实施例提供了一种检索方法及装置。
下面是本申请的方法实施例。
图1展示了一种检索方法的流程图。该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种具有文本输入及搜寻功能的设备中。
请参见图1,该方法包括以下步骤:
S1、确定待检索文本中的特征信息,所述特征信息包括所述待检索文本中的概念分词、实体分词和具有指定词性的非实体分词。
通常待检索文本中包含多种类型的文本,可以通过概念特征、实体特征和非实体特征将待检索文本加以区分,进一步地,为了有效概括待检索文本,可以通过概念特征、实体特征和非实体特征确定待检索文本中具有代表性的分词,组成特征信息。相应的,所述特征信息由概念特征、实体特征和非实体特征对应的概念分词、实体分词和非实体分词组成。
具体地,概念特征具有按照具体概念划分待检索文本的作用,例如待检索文本为“需要多少苹果可以用来做成一罐果酱”,其中,“多少苹果”对应表示数量的概念特征,“用来做成一罐果酱”对应表示用途的概念特征。如果将不同类型的概念特征对应的待检索文本信息不加以区分地混杂在一起进行后续的匹配步骤,容易出现所匹配到的索引以及索引对应的历史数据所属的概念与待检索文本的真实概念无法准确对应的问题。因此,为了提高待检索文本匹配索引以及历史数据在概念上的准确度,可以首先根据概念特征确定出待检索文本中的预选概念分词,所述预选概念分词为根据预设检索需求将由概念特征确定的待检索文本中的部分或者全部文本划分得到的分词,此时,全部预选概念分词中包含多种词性,再结合后续实体特征与非实体特征进一步确定最终的概念分词。
实体特征与非实体特征均为基于概念特征进一步提取的特征,具体地,实体特征为可以代表待检索文本中出现的人名、地名、组织机构名称、时间等实体的文本,通过实体特征可以确定对应的实体分词,从而有效提高确定待检索文本中关键实体的准确性,进而有效提高待检索文本与索引针对实体特征的匹配准确度。
非实体特征为概念特征中剔除实体特征以外的文本,由于这些文本可能存在一些无意义的文本内容,容易影响待检索文本与索引的匹配效率和准确度,例如待检索文本为“小兰的妈妈一年前在北京的A公司主要做什么工作”,其中,非实体特征对应的文本为“的、妈妈、在、的、主要、做、什么、工作”。可见,在非实体特征对应的文本中存在一些无意义的分词“的、在、的、主要、什么”,剩余的分词可以用于进一步明确概念特征中提高与索引匹配准确度的分词,这些剩余的分词具有特定的词性,例如“妈妈”的词性为名词、“做”的词性为动词等,那么可以根据特定的词性从全部非实体特征对应的文本中确定具有特定词性的非实体特征对应的文本,进而确定具有指定词性的非实体分词。
具体地,至少可以按照以下两种方法确定特征信息。
在一种实现方式中,图2展示了第一种确定特征信息的方法的流程图,如图2所示,所述方法包括:
S111、根据预设概念特征确定所述待检索文本中的预选概念文本;
S112、根据预设实体特征确定所述预选概念文本中的实体文本和非实体文本;
S113、对应划分所述预选概念文本、所述实体文本和所述非实体文本为预选概念分词、实体分词和非实体分词;
S114、在所述非实体分词中确定与预设词性相匹配的目标非实体分词;
S115、从所述预选概念分词中剔除所述实体分词和所述目标非实体分词,得到概念分词;
S116、结合所述概念分词、所述实体分词和所述目标非实体分词,生成所述特征信息。
在本方法中,首先根据预设概念特征确定待检索文本中的预选概念文本,预设概念特征为根据用户需求预先设定的,或者根据历史需求数据自动生成的概念特征,例如,概念特征包括数量概念特征、用途概念特征和询问概念特征等,而预设概念特征可以包括数量概念特征和用途概念特征。示例地,待检索文本为“我一直很好奇,你知道小兰的妈妈在北京的A公司担任秘书职务吗,她一共干了多少年?”如果预设概念特征包括数量概念特征、用途概念特征、询问概念特征等,则上述待检索文本中包含两个预设概念特征,即询问概念特征和数量概念特征,其中,询问概念特征对应的文本为“你知道小兰的妈妈在北京的A公司担任秘书职务吗”;数量概念特征对应的文本为“她一共干了多少年”。
进一步地,可以采用正则表达式,提取待检索文本中与预设概念特征对应的文本。例如,数量概念特征对应的正则表达式为“有多少#总.{0,2}多少#一共多少”;用途概念特征对应的正则表达式为“什么(用途|作用|功能)#用(于|来|作)(作|干|做)什么”;询问概念特征对应的正则表达式为“(知道|清楚|了解).{0,2}(吗|多少)”。利用各种概念特征对应的正则表达式可以从待检索文本中准确确定相应的预选概念文本,示例中,根据数量概念特征和询问概念特征对应的正则表达式可以确定预选概念文本为“你知道小兰的妈妈在北京的A公司担任秘书职务吗”和“她一共干了多少年”。可见,通过预设概念特征可以将待检索文本中的无用信息例如“我比较好奇”,和无用符号例如“,”、“?”剔除,仅保留与预设概念特征对应的有效信息,不仅能够减少与索引库匹配的字符量,减少计算量,而且能够将待检索文本按照不同概念区分开来,有效提高与索引库的匹配准确度。
在确定预选概念文本之后,在所述预选概念文本的基础上,根据预设实体特征确定实体文本和非实体文本。所述预设实体特征可以包括人名(PER)、地名(POS)、组织机构名称(ORG)、时间(TIME),但不限于上述实体特征。
进一步地,可以将各个预设实体特征训练为命名实体识别模型,这些预设实体特征通常为人名、地名、各类组织结构名称和各类时间表达方式。通过命名实体识别模型可以从预选概念文本中确定相应的实体文本,接上例,实体文本为“小兰北京A公司”,相应的预选概念文本中实体文本之外的文本即为非实体文本,在上例中,非实体文本为“你知道的妈妈在的担任秘书职务吗她一共干了多少年”。
由以上步骤可以得到预选概念文本、实体文本以及非实体文本,可以利用语义分析技术划分三类文本为分词,对应各类文本分别得到预选概念分词、实体分词和非实体分词。例如上例中预选概念文本为“你知道小兰的妈妈在北京的A公司担任秘书职务吗她一共干了多少年”,对应得到预选概念分词为“你”、“知道”、“小兰”、“的”、“妈妈”、“在”、“北京”、“的”、“A公司”、“担任”、“秘书”、“职务”、“吗”、“她”、“一共”、“干”、“了”、“多少”、“年”。实体文本为“小兰北京A公司”,对应得到实体分词为“小兰”、“北京”、“A公司”。非实体文本为“你知道的妈妈在的担任秘书职务吗她一共干了多少年”,对应得到非实体分词为“你”、“知道”、“的”、“妈妈”、“在”、“的”、“担任”、“秘书”、“职务”、“吗”、“她”、“一共”、“干”、“了”、“多少”、“年”。
可见,当前得到的非实体分词中包含一些不被需要的分词,需要从这些非实体分词中确定需要的分词,可以利用词性选定需要的非实体分词。具体地,非实体分词中“你”、“她”的词性为代词;“妈妈”、“秘书”、“职务”、“年”的词性为名词;“知道”、“担任”、“干”的词性为动词;“的”、“的”、“吗”、“了”的词性为助词;“在”的词性为介词;“一共”、“多少”的词性为形容词。在本实施例中,如果所需的预设词性为名词和动词,则可以得到目标非实体分词为“知道”、“妈妈”、“担任”、“秘书”、“职务”、“干”、“年”。
此时可知,预选概念分词与实体分词和目标非实体分词之间存在差异分词,可以将这些差异分词定义为概念分词,即从预选概念分词中剔除实体分词和目标非实体分词之后可以得到概念分词,接上例,得到的概念分词即为“的”、“在”、“吗”、“一共”、“了”、“多少”。
结合概念分词、实体分词和目标非实体分词可以得到特征信息,此时的特征信息为分词集合的形式,即“小兰”、“北京”、“A公司”、“知道”、“妈妈”、“担任”、“秘书”、“职务”、“干”、“年”、“的”、“在”、“吗”、“一共”、“了”、“多少”。
在另一种实现方式中,图3展示了第二种确定特征信息的方法的流程图,如图3所示,所述方法包括:
S121、根据预设概念特征确定所述待检索文本中的预选概念文本;
S122、划分所述预选概念文本为预选概念分词;
S123、根据预设实体特征确定所述预选概念分词中的实体分词和非实体分词;
S124、在所述非实体分词中确定与预设词性相匹配的目标非实体分词;
S125、从所述预选概念分词中剔除所述实体分词和所述目标非实体分词,得到概念分词;
S126、结合所述概念分词、所述实体分词和所述目标非实体分词,生成所述特征信息。
在本实现方法中,首先根据预设特征确定待检索文本中的预选概念文本,具体步骤同上一实现方法,此处将不再赘述。然后可以利用语义分析技术划分得到的预选概念文本,得到预选概念分词。引用上例,预选概念文本为“你知道小兰的妈妈在北京的A公司担任秘书职务吗她一共干了多少年”,对应预选概念分词为“你”、“知道”、“小兰”、“的”、“妈妈”、“在”、“北京”、“的”、“A公司”、“担任”、“秘书”、“职务”、“吗”、“她”、“一共”、“干”、“了”、“多少”、“年”。
在获得预选概念分词之后,可以通过预设实体特征从预选概念分词中确定与预设实体特征相匹配的实体分词,例如预选实体特征包括人名(PER)、地名(POS)、组织机构名称(ORG)、时间(TIME)等,以此可以得到实体分词为“小兰”、“北京”、“A公司”,非实体分词为“知道”、“的”、“妈妈”、“在”、“的”、“担任”、“秘书”、“职务”、“吗”、“一共”、“干”、“了”、“多少”、“年”。
在获得非实体分词之后,为了提高特征信息与索引库的匹配准确度,需要从非实体分词中确定目标非实体分词,具体步骤如上一方法所述,此处将不再赘述。之后通过从预选概念分词中剔除实体分词和目标非实体分词得到概念分词,再结合概念分词、实体分词和目标非实体分词生成特征信息的步骤也如上一方法所述,此处也将不再赘述。
S2、在索引库中确定与所述特征信息相匹配的索引集合。
为了加快待检索文本与历史数据的匹配速度及匹配准确度,可以首先生成各历史数据对应的索引,可以选择提取历史数据的关键词,并建立关键词与历史数据之间的指向关系,进而生成历史数据的索引,将各历史数据的索引汇总生成索引库。由于索引可以代表历史数据的关键信息,同时索引具有较少的字符,因此,先通过匹配特征信息与索引,得到符合匹配阈值的目标索引,再进一步匹配这些目标索引对应的历史数据与特征信息,确定最终的检索结果。相较于直接匹配特征信息与全部历史数据,可以有效减少匹配时间,同时提高匹配准确性。
具体地,图4展示了一种确定索引集合的方法的流程图,如图4所示,所述方法包括:
S201、划分所述索引库中的索引为索引分词;
S202、计算所述概念分词、所述实体分词和所述目标非实体分词与各索引对应索引分词之间相同词语的重复率,得到匹配分值;
S203、汇总所述匹配分值大于或者等于预设匹配阈值的索引,得到索引集合。
由上述可知,索引库中包含若干索引,索引通常以较简短的语句、多个单词等形式出现。如果针对以简短的语句形式出现的索引,需要首先将索引划分为分词。例如索引为“小兰妈妈的职务简介”,可以通过语义分析技术划分得到索引分词“小兰”、“妈妈”、“的”、“职务”、“简介”。
通过上文中给出的待检索文本的示例,可知特征信息为“小兰”、“北京”、“A公司”、“知道”、“妈妈”、“担任”、“秘书”、“职务”、“干”、“年”、“的”、“在”、“吗”、“一共”、“了”、“多少”,对比特征信息中概念分词、实体分词、目标非实体分词与索引分词,可知,索引分词中“小兰”、“妈妈”、“的”、“职务”均出现于特征信息中,因此,这些分词为相同词语,在本实施例中可以定义为重复。索引分词一共有5个分词,其中,有4个分词为相同词语,因此,相同词语的重复率为80%,对应得到匹配分值为0.8。
通过以上方法,针对索引库中不同的索引,特征信息与各个索引之间会得到相应的匹配分值,可知,匹配分值越高,说明特征信息与索引之间的关联度越高,相应的待检索文本与索引对应的历史数据之间的关联度越高。因此,为了筛选出关联度最高的一部分历史数据,首先确定匹配分值大于或者等于预设匹配阈值的索引为进一步匹配的目标索引,并汇总这些目标索引得到索引集合,以进一步利用索引集合中的索引对应的历史数据筛选最终的检索结果。
S3、根据所述特征信息生成对应的特征空间向量。
当前通过上述方法得到的特征信息为分词集合的形式,由于历史数据为经过特征分类处理及对应特征分类分配权重得到的空间向量,因此,为了可以与历史数据进行计算,需要将特征信息变化为与历史数据统一的数据格式,即需要根据特征信息生成对应的特征空间向量。
具体地,图5展示了一种生成特征空间向量的方法的流程图,如图5所示,所述方法包括:
S301、赋予所述概念分词、所述实体分词和所述目标非实体分词相应的初始特征值;
S302、设定所述概念分词、所述实体分词和所述目标非实体分词相应的权重因子;
S303、计算对应初始特征值与权重因子的乘积,得到所述概念分词、所述实体分词和所述目标非实体分词的当前特征值;
S304、按照所述概念分词、所述实体分词和所述目标非实体分词与所述当前特征值对应的关系,生成所述特征信息对应的特征空间向量。
示例地,概念分词为“的”、“在”、“吗”、“一共”、“了”、“多少”;实体分词为“小兰”、“北京”、“A公司”;目标非实体分词为“知道”、“妈妈”、“担任”、“秘书”、“职务”、“干”、“年”。首先,赋予上述分词相应的初始特征值,实际上,初始特征值即为赋予各个分词的一个数值。可以选择赋予各类分词相同的初始特征值,例如各类分词的初始特征值均为1;也可以赋予不同类分词不同的初始特征值,例如赋予概念分词的初始特征值为1,赋予实体分词的初始特征值为3,赋予目标非实体分词的初始特征值为2;也可以根据需要赋予每一个分词不同的初始特征值。
相应的,不同类型的分词表示待检索文本的不同检索侧重点,即检索人员不同的关注点。因此,为了更加贴近检索人员的关注点,提高检索结果与待检索文本之间的匹配准确度,同时提高检索结果与检索人员的检索需求,可以为不同类型的分词设定相应的权重因子。例如,检索人员对各类分词的需求度按照从高到低为“实体分词-概念分词-目标非实体分词”,则可以设定实体分词的权重因子为0.5,设定概念分词的权重因子为0.3,设定目标非实体分词的权重因子为0.2;或者,如果检索人员对各类分词的需求度相同,并没有特殊的偏好,则可以设定各类分词为相同的权重因子。
通过计算各类分词对应的初始特征值与权重因子的乘积,可以得到各类分词的当前特征值。例如,概念分词的初始特征值为1,权重因子为0.3;实体分词的初始特征值为1,权重因子为0.5;目标非实体分词的初始特征值为1,权重因子为0.2,则可以得到各概念分词的当前特征值为0.3,各实体分词的当前特征值为0.5,各目标非实体分词的初始特征值为0.2。对应至上文给出的示例,概念分词为“的”、“在”、“吗”、“一共”、“了”、“多少”,则这些概念分词的当前特征值均为0.3;实体分词为“小兰”、“北京”、“A公司”,则这些实体分词的当前特征值均为0.5;目标非实体分词为“知道”、“妈妈”、“担任”、“秘书”、“职务”、“干”、“年”,则这些目标非实体分词的当前特征值均为0.2。
根据以上得到的当前特征值结果,按照各类分词与当前特征值对应的关系,可以生成特征信息对应的特征空间向量,利用概念分词“的”在特征空间向量中表示为“的:0.3”,以此为例,其余各分词均可表示为此种形式,最终可以得到特征空间向量{的:0.3,在:0.3,吗:0.3,一共:0.3,了:0.3,多少:0.3,小兰:0.5,北京:0.5,A公司:0.5,知道:0.2,妈妈:0.2,担任:0.2,秘书:0.2,职务:0.2,干:0.2,年:0.2}。此时,特征信息的表示方式为特征空间向量,与历史数据具有相同的数据格式,可以进行进一步匹配。
可选地,为了更加简洁清晰的表示各类分词,可以为各类分词标记分类标签以示区别,图6展示了一种根据分类标签生成特征空间向量的方法的流程图,如图6所示,所述方法包括:
S305、标记所述概念分词、所述实体分词和所述目标非实体分词不同的分类标签;
S306、按照所述概念分词、所述实体分词和所述目标非实体分词与所述当前特征值、所述分类标签对应的关系,生成所述特征信息对应的特征空间向量。
示例地,可以利用不同的分类标签标记概念分词、实体分词和目标非实体分词,例如,将概念分词标记为C,将实体分词标记为E,将目标非实体分词标记为P。此时,接上例,可以在特征空间向量中对应增添分类标签,得到特征空间向量为{的:C=0.3,在:C=0.3,吗:C=0.3,一共:C=0.3,了:C=0.3,多少:C=0.3,小兰:E=0.5,北京:E=0.5,A公司:E=0.5,知道:P=0.2,妈妈:P=0.2,担任:P=0.2,秘书:P=0.2,职务:P=0.2,干:P=0.2,年:P=0.2}。
S4、在索引集合对应的历史数据集合中确定检索结果,所述检索结果为与所述特征空间向量的语义相似度大于或者等于预设相似度阈值的历史数据,所述历史数据为经过特征分类处理及对应特征分类分配权重得到的空间向量。
通过上述得到待检索文本对应的特征空间向量之后,通过与上述得到的索引集合对应的历史数据进一步匹配,确定最终的检索结果。
具体地,图7展示了一种确定检索结果的方法的流程图,如图7所示,所述方法包括:
S401、计算所述特征空间向量与所述历史数据集合中各历史数据之间的语义相似度;
S402、汇总所述语义相似度大于或者等于预设相似度阈值的历史数据,得到检索结果。
索引集合中通常包含大量与特征信息初步匹配的索引,由于数量相对较多,因此,需要进一步从索引集合对应的历史数据集合中确定最终的检索结果,以呈现给检索人员。本申请通过计算特征信息对应的特征空间向量与历史数据集合中各历史数据之间的语义相似度,进一步匹配特征信息与历史数据。
具体地,图8展示了一种计算特征空间向量与历史数据之间的语义相似度的方法的流程图,如图8所示,所述方法包括:
S4011、利用预训练语言模型,分别将所述特征空间向量和所述历史数据中的同类分词转化为对应的特征向量;
S4012、分别计算所述特征空间向量对应的各特征向量的加和平均值,以及所述历史数据对应的各特征向量的加和平均值,得到所述特征空间向量的文本向量,以及所述历史数据的文本向量;
S4013、利用余弦相似度算法,计算所述特征空间向量的文本高维向量与所述历史数据的文本高维向量之间的距离,得到语义相似度。
其中,预训练语言模型可以采用Doc2vec模型、或者双向LSTM模型等具有转化空间向量至向量矩阵功能的模型,例如特征空间向量中包含三类分词,即概念分词、实体分词和目标非实体分词,其中,概念分词所包含的各个分词为同类分词,实体分词所包含的各个分词为同类分词,目标非实体分词所包含的各个分词为同类分词。为了方便计算,历史数据的获得方法优选与获得特征空间向量相同的方法,即历史数据为经过特征分类处理及对应特征分类分配权重得到的空间向量。具体地,历史数据也同样首先将对应于索引库的历史文本数据通过上述获得文本中的特征信息的方法,获得由概念分词、实体分词、目标非实体分词组成的历史文本数据的特征信息,具体过程参见上文,此处将不再赘述。然后,根据得到的特征信息,为特征信息中的各类特征,即概念分词、实体分词、目标非实体分词赋予初始特征值和预设权重。最后,根据赋予初始特征值和预设权重之后的各类特征,计算得到历史文本数据对应的特征空间向量,即本申请实施例中公开的历史数据。具体获得历史数据的过程与上文中公开的获得待检索文本的特征空间向量的过程相似,可以参见上文,此处将不再赘述。此时,历史数据与特征空间向量的匹配维度及形式一致,可以有效保证特征空间向量与历史数据之间的匹配准确度。可见,历史数据中也包括由概念分词、实体分词及目标非实体分词。
对于特征空间向量,利用预训练语言模型,可以分别将特征空间向量中的概念分词、实体分词、目标非实体分词转化为对应的特征高维向量。通过计算概念分词、实体分词、目标非实体分词对应的特征高维向量的加和平均值,可以得到特征空间向量对应的高维向量,即特征空间向量的文本高维向量。
对于历史数据,利用预训练语言模型,可以分别将历史数据中的概念分词、实体分词、目标非实体分词转化为对应的特征高维向量。通过计算概念分词、实体分词、目标非实体分词对应的特征高维向量的加和平均值,可以得到历史数据对应的高维向量,即历史数据的文本高维向量。
利用余弦相似度算法,可以计算特征空间向量的文本高维向量与历史数据的文本高维向量之间的距离,所述距离即为特征空间向量与历史数据之间的语义相似度。特征空间向量与历史数据之间的语义相似度越高,则说明特征空间向量的文本高维向量与历史数据的文本高维向量之间的距离越近,所述历史数据越贴近待检索文本。
进一步地,如果索引集合中的索引数量过多,展示索引集合中全部索引对应的历史数据,会消耗较多的展示资源,同时会浪费检索人员的浏览时间,为了解决上述问题,可以缩减展示的历史数据的数量以方便检索人员浏览。
图9展示了一种确定检索结果的方法的流程图,如图9所示,所述方法包括:
S4021、对语义相似度大于或者等于预设相似度阈值的历史数据按照语义相似度从高到低进行排序,得到数据展示排序;
S4022、汇总所述数据展示排序中大于或者等于预设排位数值的历史数据为检索结果。
在得到特征空间向量与历史数据之间的语义相似度之后,可以将语义相似度进行从高到低的排序,并从中选取预设数量的历史数据,即从展示排序中选择大于或者等于预设排位数值的历史数据,并汇总这些历史数据作为检索结果。这样,所述检索结果不仅与待检索文本高度贴近,同时具有较少的展示数量,方便检索人员快速浏览。
图10展示了一种检索装置的结构示意图,该装置可以为服务器、PC(个人电脑)、平板电脑、手机等多种具有文本输入及搜寻功能的设备。
如图10所示,该装置包括:
特征信息确定模块1,用于确定待检索文本中的特征信息,所述特征信息包括所述待检索文本信息中的概念分词、实体分词和具有指定词性的非实体分词;
索引集合确定模块2,用于在索引库中确定与所述特征信息相匹配的索引集合;
特征空间向量生成模块3,用于根据所述特征信息生成对应的特征空间向量;
检索结果确定模块4,用于在索引集合对应的历史数据集合中确定检索结果,所述检索结果为与所述特征空间向量的语义相似度大于或者等于预设相似度阈值的历史数据,所述历史数据为经过特征分类处理及对应特征分类分配权重得到的空间向量。
由以上技术可知,本申请提供了一种检索方法及装置,其中,首先确定待检索文本中的特征信息,所述特征信息包括所述待检索文本中的概念分词、实体分词和具有指定词性的非实体分词,从而令待检索文本具有分类特征。首先在索引库中确定与所述特征信息相匹配的索引集合,根据索引集合能够对应至相应的历史数据集合,然后根据特征信息生成对应的特征空间向量,再通过计算特征空间向量与历史数据集合中各历史数据的语义相似度,确定检索结果。可见,本申请所提供的一种检索方法及装置,可以通过将待检索文本分类之后首先经过索引定位至一部分历史数据,再通过与历史数据之间计算语义相似度二次确定至检索结果,从而有效挺高检索结果与待检索文本的匹配度。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种检索方法,其特征在于,所述方法包括:
确定待检索文本中的特征信息,所述特征信息包括所述待检索文本中的概念分词、实体分词和具有指定词性的非实体分词;
在索引库中确定与所述特征信息相匹配的索引集合;
根据所述特征信息生成对应的特征空间向量;
在索引集合对应的历史数据集合中确定检索结果,所述检索结果为与所述特征空间向量的语义相似度大于或者等于预设相似度阈值的历史数据,所述历史数据为经过特征分类处理及对应特征分类分配权重得到的空间向量。
2.根据权利要求1所述的方法,其特征在于,所述确定待检索文本中的特征信息包括:
根据预设概念特征确定所述待检索文本中的预选概念文本;
根据预设实体特征确定所述预选概念文本中的实体文本和非实体文本;
对应划分所述预选概念文本、所述实体文本和所述非实体文本为预选概念分词、实体分词和非实体分词;
在所述非实体分词中确定与预设词性相匹配的目标非实体分词;
从所述预选概念分词中剔除所述实体分词和所述目标非实体分词,得到概念分词;
结合所述概念分词、所述实体分词和所述目标非实体分词,生成所述特征信息。
3.根据权利要求1所述的方法,其特征在于,所述确定待检索文本中的特征信息包括:
根据预设概念特征确定所述待检索文本中的预选概念文本;
划分所述预选概念文本为预选概念分词;
根据预设实体特征确定所述预选概念分词中的实体分词和非实体分词;
在所述非实体分词中确定与预设词性相匹配的目标非实体分词;
从所述预选概念分词中剔除所述实体分词和所述目标非实体分词,得到概念分词;
结合所述概念分词、所述实体分词和所述目标非实体分词,生成所述特征信息。
4.根据权利要求2或3所述的方法,其特征在于,所述在索引库中确定与特征信息相匹配的索引集合包括:
划分所述索引库中的索引为索引分词;
计算所述概念分词、所述实体分词和所述目标非实体分词与各索引对应索引分词之间相同词语的重复率,得到匹配分值;
汇总所述匹配分值大于或者等于预设匹配阈值的索引,得到索引集合。
5.根据权利要求2或3所述的方法,其特征在于,所述根据特征信息生成对应的特征空间向量包括:
赋予所述概念分词、所述实体分词和所述目标非实体分词相应的初始特征值;
设定所述概念分词、所述实体分词和所述目标非实体分词相应的权重因子;
计算对应初始特征值与权重因子的乘积,得到所述概念分词、所述实体分词和所述目标非实体分词的当前特征值;
按照所述概念分词、所述实体分词和所述目标非实体分词与所述当前特征值对应的关系,生成所述特征信息对应的特征空间向量。
6.根据权利要求5所述的方法,其特征在于,所述按照所述概念分词、所述实体分词和所述目标非实体分词与所述当前特征值对应的关系,生成所述特征信息对应的特征空间向量包括:
标记所述概念分词、所述实体分词和所述目标非实体分词不同的分类标签;
按照所述概念分词、所述实体分词和所述目标非实体分词与所述当前特征值、所述分类标签对应的关系,生成所述特征信息对应的特征空间向量。
7.根据权利要求1所述的方法,其特征在于,所述在索引集合对应的历史数据集合中确定检索结果包括:
计算所述特征空间向量与所述历史数据集合中各历史数据之间的语义相似度;
汇总所述语义相似度大于或者等于预设相似度阈值的历史数据,得到检索结果。
8.根据权利要求7所述的方法,其特征在于,所述计算特征空间向量与历史数据集合中各历史数据的之间的语义相似度包括:
利用预训练语言模型,分别将所述特征空间向量和所述历史数据中的同类分词转化为对应的特征向量;
分别计算所述特征空间向量对应的各特征向量的加和平均值,以及所述历史数据对应的各特征向量的加和平均值,得到所述特征空间向量的文本向量,以及所述历史数据的文本向量;
利用余弦相似度算法,计算所述特征空间向量的文本向量与所述历史数据的文本向量之间的距离,得到语义相似度。
9.根据权利要求7所述的方法,其特征在于,所述汇总语义相似度大于或者等于预设相似度阈值的历史数据,得到检索结果包括:
对语义相似度大于或者等于预设相似度阈值的历史数据按照语义相似度从高到低进行排序,得到数据展示排序;
汇总所述数据展示排序中大于或者等于预设排位数值的历史数据为检索结果。
10.一种检索装置,其特征在于,所述装置包括:
特征信息确定模块,用于确定待检索文本中的特征信息,所述特征信息包括所述待检索文本信息中的概念分词、实体分词和具有指定词性的非实体分词;
索引集合确定模块,用于在索引库中确定与所述特征信息相匹配的索引集合;
特征空间向量生成模块,用于根据所述特征信息生成对应的特征空间向量;
检索结果确定模块,用于在索引集合对应的历史数据集合中确定检索结果,所述检索结果为与所述特征空间向量的语义相似度大于或者等于预设相似度阈值的历史数据,所述历史数据为经过特征分类处理及对应特征分类分配权重得到的空间向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910910360.8A CN110688559A (zh) | 2019-09-25 | 2019-09-25 | 一种检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910910360.8A CN110688559A (zh) | 2019-09-25 | 2019-09-25 | 一种检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110688559A true CN110688559A (zh) | 2020-01-14 |
Family
ID=69110592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910910360.8A Pending CN110688559A (zh) | 2019-09-25 | 2019-09-25 | 一种检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110688559A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111372108A (zh) * | 2020-02-03 | 2020-07-03 | 未来电视有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN112417091A (zh) * | 2020-10-16 | 2021-02-26 | 北京斗米优聘科技发展有限公司 | 一种文本检索方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160046A (zh) * | 2015-10-30 | 2015-12-16 | 成都博睿德科技有限公司 | 基于文本的数据检索方法 |
US20180060426A1 (en) * | 2016-08-30 | 2018-03-01 | Robert Francis Gluck | Systems and methods for issue management |
CN109359178A (zh) * | 2018-09-14 | 2019-02-19 | 华南师范大学 | 一种检索方法、装置、存储介质及设备 |
CN109766429A (zh) * | 2019-02-19 | 2019-05-17 | 北京奇艺世纪科技有限公司 | 一种语句检索方法及装置 |
-
2019
- 2019-09-25 CN CN201910910360.8A patent/CN110688559A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160046A (zh) * | 2015-10-30 | 2015-12-16 | 成都博睿德科技有限公司 | 基于文本的数据检索方法 |
US20180060426A1 (en) * | 2016-08-30 | 2018-03-01 | Robert Francis Gluck | Systems and methods for issue management |
CN109359178A (zh) * | 2018-09-14 | 2019-02-19 | 华南师范大学 | 一种检索方法、装置、存储介质及设备 |
CN109766429A (zh) * | 2019-02-19 | 2019-05-17 | 北京奇艺世纪科技有限公司 | 一种语句检索方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111372108A (zh) * | 2020-02-03 | 2020-07-03 | 未来电视有限公司 | 搜索方法、装置、电子设备及存储介质 |
CN112417091A (zh) * | 2020-10-16 | 2021-02-26 | 北京斗米优聘科技发展有限公司 | 一种文本检索方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Deepak et al. | A novel firefly driven scheme for resume parsing and matching based on entity linking paradigm | |
Kaushik et al. | A comprehensive study of text mining approach | |
Yi et al. | Sentiment analyzer: Extracting sentiments about a given topic using natural language processing techniques | |
JP5936698B2 (ja) | 単語意味関係抽出装置 | |
US8156097B2 (en) | Two stage search | |
CN112507715A (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN102214189B (zh) | 基于数据挖掘获取词用法知识的系统及方法 | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
CN102200975A (zh) | 一种利用语义分析的垂直搜索引擎系统与方法 | |
Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
US20230282018A1 (en) | Generating weighted contextual themes to guide unsupervised keyphrase relevance models | |
CN112905768A (zh) | 一种数据交互方法、装置及存储介质 | |
CN110888970A (zh) | 文本生成方法、装置、终端和存储介质 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN115794995A (zh) | 目标答案获取方法及相关装置、电子设备和存储介质 | |
CN110688559A (zh) | 一种检索方法及装置 | |
CN113591476A (zh) | 一种基于机器学习的数据标签推荐方法 | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
Schirmer et al. | A new dataset for topic-based paragraph classification in genocide-related court transcripts | |
CN111737607A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN115982322A (zh) | 一种水利行业设计领域知识图谱的检索方法及检索系统 | |
CN112949287A (zh) | 热词挖掘方法、系统、计算机设备和存储介质 | |
Selvadurai | A natural language processing based web mining system for social media analysis | |
Lupu et al. | An introduction to contemporary search technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province Applicant after: Dingfu Intelligent Technology Co.,Ltd. Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200114 |
|
RJ01 | Rejection of invention patent application after publication |