CN110597957B - 一种文本信息检索的方法及相关装置 - Google Patents

一种文本信息检索的方法及相关装置 Download PDF

Info

Publication number
CN110597957B
CN110597957B CN201910863042.0A CN201910863042A CN110597957B CN 110597957 B CN110597957 B CN 110597957B CN 201910863042 A CN201910863042 A CN 201910863042A CN 110597957 B CN110597957 B CN 110597957B
Authority
CN
China
Prior art keywords
keyword
target
aggregation
subset
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910863042.0A
Other languages
English (en)
Other versions
CN110597957A (zh
Inventor
王昊
冯晓
仲广沛
费昊
吕进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910863042.0A priority Critical patent/CN110597957B/zh
Publication of CN110597957A publication Critical patent/CN110597957A/zh
Application granted granted Critical
Publication of CN110597957B publication Critical patent/CN110597957B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种文本信息检索的方法及相关装置,能够提高检索成功率。该方法在获取待检索文本信息后,先根据待检索文本信息包括的目标词集合获取关键词集合。然后根据关键词集合生成聚合关键词集合,聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合。再根据聚合关键词集合生成目标聚合关键词子集合所对应的第一目标特征向量,其中,第一目标特征向量是基于原始特征向量以及区分度特征向量生成的,原始特征向量与目标聚合关键词子集合具有关联关系,区分度特征向量与至少一个聚合关键词子集合具有关联关系。最后通过目标分类模型获取第一目标特征向量所对应的检索分值,其中,检索分值用于确定检索结果。

Description

一种文本信息检索的方法及相关装置
技术领域
本申请涉及网络技术领域,尤其涉及一种文本信息检索的方法及相关装置。
背景技术
随着网络技术的快速发展,用户可在网络上进行信息检索。具体的,用户在终端设备上使用具备检索功能的软件时,可向其输入需进行检索的文本信息,软件可对该文本信息进行智能检索,并返回相应的检索结果。
上述智能检索的过程中,通常需要先确定文本信息中的关键词,例如当文本信息为张XX出生于哪里,可先确定该文本信息的主语为人,并获取与人相关联的谓词,如出生地、家庭成员和工作地点等等,然后通过神经网络计算文本信息与各个谓词之间的相似度,选择相似度最高的谓词,再从数据库中获取到该谓词所对应的检索结果,以供用户使用。
然而,上述过程中仅将文本信息和谓词直接映射为特征向量,进而计算两个特征向量之间的相似度,以确定与文本信息最相关的谓词。当多个谓词之间语义较为接近时,为了保证检索结果的准确率,则需要设置较高的相似度阈值,以将多个谓词区分开来。由于通常会设置较高的相似度阈值,会导致某些文本信息无法检索到结果,使得检索成功率较低。
发明内容
本申请实施例提供了一种文本信息检索的方法及相关装置,能够有效提高检索成功率。
本申请实施例第一方面提供一种文本信息检索的方法,包括:
获取待检索文本信息,其中,所述待检索文本信息包括目标词集合,所述目标词集合包括至少一个目标词;
根据所述目标词集合获取关键词集合,其中,所述关键词集合包括至少一个关键词;
根据所述关键词集合生成聚合关键词集合,其中,所述聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合,所述目标聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词子集合包括至少一个聚合关键词;
根据所述聚合关键词集合生成所述目标聚合关键词子集合所对应的第一目标特征向量,其中,所述第一目标特征向量是基于原始特征向量以及区分度特征向量生成的,所述原始特征向量与所述目标聚合关键词子集合具有关联关系,所述区分度特征向量与所述至少一个聚合关键词子集合具有关联关系;
通过目标分类模型获取所述第一目标特征向量所对应的检索分值,其中,所述检索分值用于确定检索结果。
本申请实施例第二方面提供了一种文本信息检索的装置,包括:
第一获取模块,用于获取待检索文本信息,其中,所述待检索文本信息包括目标词集合,所述目标词集合包括至少一个目标词;
第二获取模块,用于根据所述目标词集合获取关键词集合,其中,所述关键词集合包括至少一个关键词;
第一生成模块,用于根据所述关键词集合生成聚合关键词集合,其中,所述聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合,所述目标聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词子集合包括至少一个聚合关键词;
第二生成模块,用于根据所述聚合关键词集合生成所述目标聚合关键词子集合所对应的第一目标特征向量,其中,所述第一目标特征向量是基于原始特征向量以及区分度特征向量生成的,所述原始特征向量与所述目标聚合关键词子集合具有关联关系,所述区分度特征向量与所述至少一个聚合关键词子集合具有关联关系;
第三获取模块,用于通过目标分类模型获取所述第一目标特征向量所对应的检索分值,其中,所述检索分值用于确定检索结果。
基于第二方面,本申请实施例中第二方面的第一种实现方式中,所述第一生成模块还用于根据所述关键词集合和所述目标词集合生成聚合关键词集合。
基于第二方面或第二方面的第一种实现方式,本申请实施例中第二方面的第二种实现方式中,所述第二生成模块还用于:
生成所述目标聚合关键词子集合的原始特征向量,以及所述至少一个聚合关键词子集合的原始特征向量;
根据所述至少一个聚合关键词子集合的原始特征向量生成所述目标聚合关键词子集合的区分度特征向量;
根据所述目标聚合关键词子集合的原始特征向量和所述目标聚合关键词子集合的区分度特征向量生成所述目标聚合关键词子集合所对应的第一目标特征向量。
基于第二方面,本申请实施例中第二方面的第三种实现方式中,所述装置还包括:
第四获取模块,用于通过目标深度模型获取所述目标聚合关键词子集合所对应的第二目标特征向量;
第三获取模块,还用于将所述第二目标特征向量和所述第一目标特征向量输入所述目标分类模型,得到所述第一目标特征向量所对应的检索分值。
本申请实施例第三方面提供了一种模型训练的方法,其特征在于,包括:
获取第一待训练特征向量,所述第一带训练特征包括原始特征向量以及区分度特征向量,所述原始特征向量与目标聚合关键词子集合具有关联关系,区分度特征向量与所述至少一个聚合关键词子集合具有关联关系,聚合关键词集合包括所述目标聚合关键词子集合以及所述至少一个聚合关键词子集合,所述目标聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词集合是基于关键词集合生成的,所述关键词集合是基于待检索文本信息所包括的目标词集合所生成的,所述目标词集合包括至少一个目标词;
通过待训练分类模型获取所述第一待训练特征向量所对应的检索分数;
根据所述检索分数以及真实分数,采用目标损失函数对所述待训练分类模型进行训练,得到目标分类模型,所述目标损失函数包括与所述待训练分类模型对应的待训练第一损失函数。
本申请实施例第四方面提供了一种模型训练的装置,包括:
第一获取模块,用于获取第一待训练特征向量,所述第一带训练特征包括原始特征向量以及区分度特征向量,所述原始特征向量与目标聚合关键词子集合具有关联关系,区分度特征向量与所述至少一个聚合关键词子集合具有关联关系,聚合关键词集合包括所述目标聚合关键词子集合以及所述至少一个聚合关键词子集合,所述目标聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词集合是基于关键词集合生成的,所述关键词集合是基于待检索文本信息所包括的目标词集合所生成的,所述目标词集合包括至少一个目标词;
第二获取模块,用于通过待训练分类模型获取所述第一待训练特征向量所对应的检索分数;
训练模块,用于根据所述检索分数以及真实分数,采用目标损失函数对所述待训练分类模型进行训练,得到目标分类模型,所述目标损失函数包括与所述待训练分类模型对应的待训练第一损失函数。
基于第四方面,本申请实施例中第四方面的第一种实现方式,所述装置还包括:
第三获取模块,用于通过所述待训练深度模型获取所述目标聚合关键词子集合所对应的第二待训练特征向量;
所述第二获取模块,还用于将所述第二待训练特征向量和所述第一待训练特征向量输入待训练分类模型,得到所述第一待训练特征向量所对应的检索分数;
所述训练模块还用于根据所述检索分数以及真实分数,采用目标损失函数对所述待训练分类模型和所述待训练深度模型进行训练,得到目标分类模型和目标深度模型,所述目标损失函数还包括与待训练深度模型对应的第二损失函数。
本申请第五方面提供了一种终端设备,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待检索文本信息,其中,所述待检索文本信息包括目标词集合,所述目标词集合包括至少一个目标词;
根据所述目标词集合获取关键词集合,其中,所述关键词集合包括至少一个关键词;
根据所述关键词集合生成聚合关键词集合,其中,所述聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合,所述目标聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词子集合包括至少一个聚合关键词;
根据所述聚合关键词集合生成所述目标聚合关键词子集合所对应的第一目标特征向量,其中,所述第一目标特征向量是基于原始特征向量以及区分度特征向量生成的,所述原始特征向量与所述目标聚合关键词子集合具有关联关系,所述区分度特征向量与所述至少一个聚合关键词子集合具有关联关系;
通过目标分类模型获取所述第一目标特征向量所对应的检索分值,其中,所述检索分值用于确定检索结果。
本申请第六方面提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如第一方面或第三方面所述的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供了一种文本信息检索的方法及相关装置,其中,该方法在获取待检索文本信息后,先根据目标词集合获取关键词集合,其中,待检索文本信息包括目标词集合,目标词集合包括至少一个目标词,关键词集合包括至少一个关键词。然后根据关键词集合生成聚合关键词集合,聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合,目标聚合关键词子集合包括至少一个聚合关键词,聚合关键词子集合包括至少一个聚合关键词。再根据聚合关键词集合生成目标聚合关键词子集合所对应的第一目标特征向量,其中,第一目标特征向量是基于原始特征向量以及区分度特征向量生成的,原始特征向量与目标聚合关键词子集合具有关联关系,区分度特征向量与至少一个聚合关键词子集合具有关联关系。最后通过目标分类模型获取第一目标特征向量所对应的检索分值,其中,检索分值用于确定检索结果。上述方法中,由于每一个聚合关键词子集合对应关键词集合中的一个关键词,当获得目标聚合关键词子集合的第一目标特征向量后,相当于得到目标关键词的第一目标特征向量,且该目标关键词的第一目标特征向量不仅包含了该目标关键词本身的特征向量信息(即原始特征向量),还包含了其余关键词的特征向量信息(即区分度特征向量),可以使得该目标关键词对应的第一目标特征向量与其余关键词所对应的第一目标特征向量之间具备较大的差异。在分类模型对多个第一目标特征向量进行计算后,所得到的检索分数能够明显将较为接近的多个关键词区别开来,不需再设置较高的相似度阈值,能够提高检索成功率。
附图说明
图1为本申请实施例中文本信息检索的界面展示图;
图2为本申请实施例中文本信息检索的方法的一个流程示意图;
图3为本申请实施例中聚合关键词集合的一个示意图;
图4为本申请实施例聚合关键词集合的另一个示意图;
图5为生成第一目标特征向量的一个示意图;
图6为生成第一特征向量的另一个示意图;
图7为目标分类模型结合目标深度模型的应用示意图;
图8为本申请实施例中模型训练的方法的一个流程示意图;
图9为本申请实施例中文本信息检索的装置的一个结构示意图;
图10为本申请实施例中模型训练的装置的一个结构示意图;
图11为本申请实施例中终端设备的一个结构示意图。
具体实施方式
本申请实施例提供了一种文本信息检索的方法及相关装置,能够有效提高检索成功率。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用。本申请采用自然语言处理(Nature Language processing,NLP)技术进行文本信息检索,其中,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
具体地,文本信息检索场景通常指,当用户需要获取某个问题的答案时,可向终端设备上具备检索功能的软件输入包含该问题的文本信息,以使得软件自动获取该文本信息的检索结果,并展示于终端设备的显示界面上,以供用户使用的场景。图1为本申请实施例中文本信息检索的界面展示图,如图1所示,当用户打开终端设备上某个软件的搜索界面时,可在搜索栏输入文本信息,例如张XX出生于哪里,则软件可自动进行搜索,得到该文本信息的搜索结果后,将其显示于界面上。
为了提高检索的成功率,下面从终端设备的角度,对本申请实施例提供的一种文本信息检索的方法进行说明。图2为本申请实施例中文本信息检索的方法的一个流程示意图,请参阅图2,本申请实施例中文本信息检索的方法的一个实施例包括:
201、获取待检索文本信息,其中,待检索文本信息包括目标词集合,目标词集合包括至少一个目标词;
当用户需要检索某个问题的答案时,可以基于该问题生成相应的文本信息,并将其输入终端设备的软件中。终端设备上的软件获取到待检索文本信息后,则可以解析该待检索文本信息,进而获取文本信息中的目标词集合。需要说明的是,目标词集合通常指待检索文本信息的主语的集合,例如当文本信息为张XX出生于哪里,其目标词为张XX,又如,XX公司的创建人,其目标词则为XX公司等等。应理解,一个文本信息中的目标词也可以为多个,例如,周杰伦的歌曲,此时,终端设备会识别出该文本信息中的其中一个目标词为周杰伦,另一个目标词为周杰,此处不对目标词集合中目标词的数量进行限制。
202、根据目标词集合获取关键词集合,其中,关键词集合包括至少一个关键词;
当确定待检索文本信息中的目标词后,可基于目标词的类型将目标词替换为预先设置的用词,例如,人名可替换为人(person),此时,待检索文本信息可从张XX出生于哪里修改为person出生于哪里,而在软件的数据库中,存储有各类与“人”相关的问题模板,每一批相似的问题模板可以对应一个关键词(通常指谓词),例如,person的出生地、person出生在哪、person的故乡在哪里、person的故居等等,这一批问题模板对应的关键词为出生地,person的父亲、person的兄弟、person的母亲等等,这一批问题模板对应的关键词为家庭成员,因此,数据库基于目标词的类型,存储有与该目标词对应的关键词集合以及每个关键词所对应的问题模板,例如,当目标词为人时,关键词集合可以包括出生地、出生时间、家庭住址、工作等等关键词,当目标词为公司时,关键词集合可以包括公司人数、公司成立时间、公司地址等等关键词,且每一个关键词均对应有至少一个问题模板。
因此,当确定待检索文本信息中的目标词集合后,可以根据目标词与关键词之间的对应关系,获取与目标词集合相应的关键词集合。
由于本实施例可先基于目标词的类型确定相关联的关键词,可以过滤一些非相关联的关键词,即非相关的关键词被拒识(例如,当目标词的类型为人时,非相关的关键词可以为公司成立时间等等),能够初步提高本实施例的检索准确率。
203、根据关键词集合生成聚合关键词集合,其中,聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合,目标聚合关键词子集合包括至少一个聚合关键词,聚合关键词子集合包括至少一个聚合关键词;
得到关键词集合后,可以基于关键词集合生成聚合关键词集合。具体的,聚合关键词集合包含多个聚合关键词子集合,每一个聚合关键词子集合包括至少一个聚合关键词。需要说明的是,聚合关键词为问题模板和修改后的文本信息所构成的匹配对,并以“(问题模板,修改后的文本信息)”的格式呈现,依旧如上述例子,张XX出生于哪里被修改为person出生于哪里后,此时目标词为人,基于目标词的类型,可以获取到目标词对应的关键词集合,如出生地、出生时间、家庭住址、工作等等关键词,其中,出生地所对应的匹配对可以为(person的出生地,person出生于哪里),(person的故乡在哪里,person出生于哪里)等等,因此,一个关键词可以对应多个匹配对(即聚合关键词),且该多个匹配对可以聚合成一个聚合关键词子集合,即一个关键词对应一个聚合关键词子集合。
图3为本申请实施例中聚合关键词集合的一个示意图,如图3所示,修改后的文本信息为person(目标词)出生于哪里,其对应的关键词为出生地、出生时间、家庭成员、工作等等,每一个关键词为一个聚合点,每一个聚合点可以对应着一个聚合关键词子集合,即对应着多个聚合关键词(匹配对)。
204、根据聚合关键词集合生成目标聚合关键词子集合所对应的第一目标特征向量,其中,第一目标特征向量是基于原始特征向量以及区分度特征向量生成的,原始特征向量与目标聚合关键词子集合具有关联关系,区分度特征向量与至少一个聚合关键词子集合具有关联关系;
在得到聚合关键词集合后,需要生成每一个关键词的第一目标特征向量。由于每一个关键词对应一个聚合关键词子集合,可以基于聚合关键词子集合生成关键词的第一目标特征向量。依旧如图3为例,当前需要生成“出生地”的第一目标特征向量,此时则将“出生地”所对应的聚合关键词子集合确定为目标聚合关键词子集合,基于目标聚合关键词子集合生成“出生地”的原始特征向量,并基于其余关键词所对应的至少一个聚合关键词子集生成“出生地”的区分度特征向量,最后根据原始特征向量和区分度特征向量生成“出生地”的第一目标特征向量。
当生成“出生地”的第一目标特征向量后,可生成其余关键词的第一目标特征向量,例如“家庭成员”,此时,“家庭成员”所对应的聚合关键词子集合确定为目标聚合关键词子集合,其生成第一目标特征向量类似前述生成“出生地”第一目标特征向量的过程,此处不再赘述。
当生成所有关键词所对应的第一目标特征向量(即所有聚合关键词子集合所对应的第一目标特征向量)后,则执行下一步。
205、通过目标分类模型获取第一目标特征向量所对应的检索分值,其中,检索分值用于确定检索结果。
在得到所有关键词所对应的第一目标特征向量后,可调用目标分类模型,逐个将第一目标特征向量输入目标分类模型,得到每个第一目标特征向量的检索分值,即每个关键词的检索分值,此时,关键词的检索分值可用于表征该关键词与待检索文本信息之间的匹配程度,通常分值越高代表二者越匹配。具体的,本实施例可预先设置一个分数阈值,若有部分关键词的检索分值高于或等于该阈值,则选择分数最高的关键词作为最终选定的关键词,并根据该关键词和目标词从数据库中获取相应的检索结果,例如,当确定关键词为出生地后,且确定目标词为张XX,此时,则从数据库中获取预先存储的张XX的出生地信息(例如XX地区),并将该信息作为检索结果返回。若所有关键词的检索分值均低于该阈值,则返回检索失败的提示。
更进一步地,若有部分关键词的检索分数高于分数阈值,可对这一部分关键词按分数高低进行排序,进而将分数最高的关键词确定为最终选定的关键词,故其余分数较低的关键词则被拒识,能够进一步提高本实施例的检索准确率。
应理解,检索分数的取值通常位于[0,1]这一区间内,同理,分数阈值也可以在此区间内进行取值,例如,0.8。
本实施例中,由于每一个聚合关键词子集合对应关键词集合中的一个关键词,当获得目标聚合关键词子集合的第一目标特征向量后,相当于得到目标关键词的第一目标特征向量,且该目标关键词的第一目标特征向量不仅包含了该目标关键词本身的特征向量信息(即原始特征向量),还包含了其余关键词的特征向量信息(即区分度特征向量),可以使得该目标关键词对应的第一目标特征向量与其余关键词所对应的第一目标特征向量之间具备较大的差异。在分类模型对多个第一目标特征向量进行计算后,所得到的检索分数能够明显将较为接近的多个关键词区别开来,不需再设置较高的相似度阈值,能够提高检索成功率。
基于图2所对应的实施例,本申请实施例中文本信息检索的方法的一个可选实施例中,根据关键词集合生成聚合关键词集合包括:
根据关键词集合和目标词集合生成聚合关键词集合。
本实施例中,还提供了匹配对的另一种聚合方式。当目标词的数量为多个时,例如待检索文本信息为周杰伦的歌曲,此时,目标词可为周杰(修改后的文本信息为person伦的歌曲)或周杰伦(修改后的文本信息为person的歌曲),此时,“周杰伦”对应的关键词可以包括出生地、家庭成员、歌曲、电影等等,“周杰”对应的关键词可以包括出生地、家庭成员、电视剧等等,可见,两个目标词的关键词大部分相同,但也存在区别。因此,当目标词集合包含多个目标词时,本实施例还可以根据关键词集合和目标词集合生成聚合关键词集合,图4为本申请实施例聚合关键词集合的另一个示意图,请参阅图4,此时,匹配对的聚合点为关键词+目标词,例如出生地+周杰伦,出生地+周杰,歌曲+周杰伦,电视剧+周杰分别为四个不同的聚合点,每一个聚合点聚合了该关键词所对应的所有匹配对,即一个聚合关键词子集合。
基于图2所对应的各个实施例,本申请实施例中文本信息检索的方法的一个可选实施例中,根据聚合关键词集合生成目标聚合关键词子集合所对应的第一目标特征向量包括:
生成目标聚合关键词子集合的原始特征向量,以及至少一个聚合关键词子集合的原始特征向量;
根据至少一个聚合关键词子集合的原始特征向量生成目标聚合关键词子集合的区分度特征向量;
根据目标聚合关键词子集合的原始特征向量和目标聚合关键词子集合的区分度特征向量生成目标聚合关键词子集合所对应的第一目标特征向量。
图5为生成第一目标特征向量的一个示意图,图5为基于图3的基础上进行拓展的示意图,如图5所示,当目标词为一个时,每一个关键词仅对应一个聚合关键词子集合,可提取聚合关键词子集合中的每一个匹配对的多维特征,作为聚合关键词子集合的原始特征矩阵,然后降维得到聚合关键词子集合的原始特征向量。得到所有关键词的原始特征向量后,可以将向每个关键词添加区别度特征向量以得到每个关键词所对应的第一目标特征向量,区别度特征向量由除本关键词外的其余关键词的原始特征向量所构成的特征矩阵降维得到。例如,出生地所对应的匹配对(person的出生地,person出生于哪里),可对其进行多维特征提取,得到一维向量(0.743,0.369,0.159),另一个匹配对(person的故乡在哪里,person出生于哪里)的一维向量为(0.243,0.1,0.599),直至出生地所对应的所有匹配对均完成特征提取,则得到出生地这一关键词的原始特征矩阵,并对原始特征矩阵进行降维,得到一维的原始特征向量(0.456,0.852,0.411),同理,其余关键词也执行相同的操作,直至得到每个关键词的原始特征向量。然后向每个关键词添加区分度特征向量,依旧以出生地为例,将其余关键词的原始特征向量构建成一个区分度特征矩阵,然后降维得到一维的区分度特征向量(0.212,0.888,0.302),即为出生地的区分度特征向量,将区分度特征向量添加为原始特征向量之后即可得到出生地的第一目标特征向量。同理,其他关键词也可执行相同的操作,直至得到所有关键词的第一目标特征向量。
图6为生成第一特征向量的另一个示意图,图6为基于图4的基础上进行拓展的示意图,如图6所示,当目标词为多个时,此时聚合点为关键词+目标词,例如,周杰伦+出生地这一聚合点所对应的匹配对(person的出生地,person出生于哪里),可对其进行多维特征提取,得到一维向量(0.743,0.369,0.159),另一个匹配对(person的故乡在哪里,person出生于哪里)的一维向量为(0.243,0.1,0.599),直至该聚合点所对应的所有匹配对均完成特征提取,则得到该聚合点的原始特征矩阵,并对原始特征矩阵进行降维,得到一维的原始特征向量(0.456,0.852,0.411),同理,其余聚合点也执行相同的操作,直至得到每个聚合点的原始特征向量。然后向每个聚合点添加区分度特征向量,依旧周杰伦+出生地这一聚合点为例,将其余聚合点的原始特征向量构建成一个区分度特征矩阵,然后降维得到一维的区分度特征向量(0.212,0.888,0.302),即为周杰伦+出生地这一聚合点的区分度特征向量,将区分度特征向量添加为原始特征向量之后即可得到周杰伦+出生地这一聚合点的第一目标特征向量。同理,其他聚合点也可执行相同的操作,直至得到所有聚合点的第一目标特征向量。
应理解,上述降维的方式可从特征矩阵的每一列元素中取最大值,也可从每一列元素中取平均值,此处不对降维的方式做具体限制。
还应理解,上述各个向量的元素数量仅以三个进行示意性说明,并不对本申请中各个向量所包含的元素数量构成限制。
基于图2所对应的各个实施例,本申请实施例中文本信息检索的方法的一个可选实施例中,通过目标分类模型获取第一目标特征向量所对应的检索分值之前,还包括:
通过目标深度模型获取目标聚合关键词子集合所对应的第二目标特征向量;
通过目标分类模型获取第一目标特征向量所对应的检索分值包括:
将第二目标特征向量和第一目标特征向量输入目标分类模型,得到第一目标特征向量所对应的检索分值。
本实施例中,为了使得目标分类模型能更加准确地测试关检测的检索分值。在通过目标分类模型对某个聚合关键词子集合所对应的第一目标特征向量进行测试时,还可以先通过目标深度模型获取该聚合关键词子集合所对应的第二目标特征向量,再将第一目标特征向量和第二目标特征向量作一起输入至目标分类模型进行测试,进而得到检索分值。图7为目标分类模型结合目标深度模型的应用示意图,请参阅图7,若某个聚合关键词子集合的聚合点为关键词“出生地”,可将待检测文本信息如张XX出生于哪里和该聚合点对应的关键词“出生地”输入目标深度模型(具体可参考背景技术中的描述,此处不再赘述),得到二者之间的相似度,作为该聚合关键词子集合的第二目标特征向量,由于已经得到了该聚合关键词子集合的第一目标特征向量,则将关键词“出生地”所对应的第一目标特征向量和第二目标向量输入目标分类模型,得到关键词“出生地”的检索分值。
此外,若该聚合关键词子集合的聚合点为关键词+目标词,例如“出生地+周杰伦”,可将待检测文本信息如周杰伦的歌曲和该聚合点对应的关键词“出生地”输入目标深度模型,得到二者之间的相似度,作为该聚合关键词子集合的第二目标特征向量,由于已经得到了该聚合关键词子集合的第一目标特征向量,则将聚合点“出生地+周杰伦”所对应的第一目标特征向量和第二目标向量输入目标分类模型,得到关键词“出生地”的一个检索分值。同理,另一聚合点“出生地+周杰”也可执行相同的操作,因此,还可得到关键词“出生地”的另一个检索分值,分值较高的聚合点则为较优的选择。
应理解,上述目标分类模型可以为各种分类器,例如xgboost,目标深度模型可以为各种深度神经网络,此处不做具体限制。
此外,本申请实施例还提供了一种模型训练的方法,图8为本申请实施例中模型训练的方法的一个流程示意图,请参阅图8,本申请实施例中模型训练的方法的一个实施例,包括:
801、获取第一待训练特征向量,第一带训练特征包括原始特征向量以及区分度特征向量,原始特征向量与目标聚合关键词子集合具有关联关系,区分度特征向量与至少一个聚合关键词子集合具有关联关系,聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合,目标聚合关键词子集合包括至少一个聚合关键词,聚合关键词子集合包括至少一个聚合关键词,聚合关键词集合是基于关键词集合生成的,关键词集合是基于待检索文本信息所包括的目标词集合所生成的,目标词集合包括至少一个目标词;
本实施例中,可以获取预先准备的用于训练模型的待检索文本信息,并提取该待检索文本信息的第一待训练特征向量,需要说明的是,用于训练模型的待检索文本信息可以类似于上述实施例中的“张XX出生于哪里”以及“周杰伦的歌曲”等问题,获取第一待训练特征向量的过程可以参考上述各个实施例中获取第一目标特征向量的相关说明,此处不在赘述。
802、通过待训练分类模型获取第一待训练特征向量所对应的检索分数;
获取第一待训练特征向量后,可通过待训练分类模型获取第一待训练特征向量所对应的检索分数,步骤802的具体说明可参考上述实施例中步骤205的相关说明,此处不再赘述。
803、根据检索分数以及真实分数,采用目标损失函数对待训练分类模型进行训练,得到目标分类模型,目标损失函数包括与待训练分类模型对应的待训练第一损失函数。
相对于用于训练模型的待检索文本信息与该文本信息对应的关键词而言,已提前设置了用于反映两者之间匹配程度的真实分数,因此,待训练模型在测出关键词所对应的第一待训练特征向量的检索分数后,通过第一损失函数计算检索分数与真实分数之间的偏差,若偏差过大,则需要调整待训练分类模型的参数,并重新进行训练,直至偏差在允许范围内,则可得到目标分类模型。
基于图8所对应的实施例,本申请实施例中模型训练方法的一个可选实施例中,该方法还包括:
通过待训练深度模型获取目标聚合关键词子集合所对应的第二待训练特征向量;
通过待训练分类模型获取第一待训练特征向量所对应的检索分数包括:
将第二待训练特征向量和第一待训练特征向量输入待训练分类模型,得到第一待训练特征向量所对应的检索分数;
根据检索分数以及真实分数,采用目标损失函数对待训练分类模型进行训练,得到目标分类模型包括:
根据检索分数以及真实分数,采用目标损失函数对待训练分类模型和待训练深度模型进行训练,得到目标分类模型和目标深度模型,目标损失函数还包括与待训练深度模型对应的第二损失函数。
本实施例中,若需要在目标分类模型上搭载目标深度模型,同样的,也需要对深度模型进行训练。在待训练分类模型上搭载待训练深度模型,使得待训练深度模型的输出作为待训练分类模型的输入之一。同理,通过待训练深度模型获取第二待训练特征向量可参考上述实施例中获取第二目标特征向量的相关说明,此处不再赘述。
由于第一待训练特征向量和第二待训练特征向量为成对对应于同一关键词的,故每一对第一待训练特征向量和第二待训练特征向量均可作为待训练分类模型的输入,输入待训练分类模型后则可得到每一个关键词的检索分数。相对于用于训练模型的待检索文本信息与该文本信息对应的关键词而言,已提前设置了用于反映两者之间匹配程度的真实分数,且目标损失函数还包括与待训练深度模型对应的第二损失函数,此时第一损失函数和第二损失函数所构成的目标损失函数则可用于对由待训练分类模型和待训练深度模型组成的架构进行训练,因此在得到检索分数后,可通过目标损失函数计算检索分数与真实分数之间的偏差,若偏差过大,则需要调整待训练分类模型和待训练深度模型的参数,并重新进行训练,直至偏差在允许范围内,则可得到目标分类模型和目标深度模型。
以下将对本申请实施例中文本信息检索的装置的结构和连接关系进行介绍,图9为本申请实施例中文本信息检索的装置的一个结构示意图,请参阅图9,本申请实施例中文本信息检索的装置的一个实施例,包括:
第一获取模块901,用于获取待检索文本信息,其中,待检索文本信息包括目标词集合,目标词集合包括至少一个目标词;
第二获取模块902,用于根据目标词集合获取关键词集合,其中,关键词集合包括至少一个关键词;
第一生成模块903,用于根据关键词集合生成聚合关键词集合,其中,聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合,目标聚合关键词子集合包括至少一个聚合关键词,聚合关键词子集合包括至少一个聚合关键词;
第二生成模块904,用于根据聚合关键词集合生成目标聚合关键词子集合所对应的第一目标特征向量,其中,第一目标特征向量是基于原始特征向量以及区分度特征向量生成的,原始特征向量与目标聚合关键词子集合具有关联关系,区分度特征向量与至少一个聚合关键词子集合具有关联关系;
第三获取模块905,用于通过目标分类模型获取第一目标特征向量所对应的检索分值,其中,检索分值用于确定检索结果。
可选的,本申请实施例中文本信息检索的装置的一个可选实施例中,第一生成模块903还用于根据关键词集合和目标词集合生成聚合关键词集合。
可选的,本申请实施例中文本信息检索的装置的一个可选实施例中,第二生成模块904还用于:
生成目标聚合关键词子集合的原始特征向量,以及至少一个聚合关键词子集合的原始特征向量;
根据至少一个聚合关键词子集合的原始特征向量生成目标聚合关键词子集合的区分度特征向量;
根据目标聚合关键词子集合的原始特征向量和目标聚合关键词子集合的区分度特征向量生成目标聚合关键词子集合所对应的第一目标特征向量。
可选的,本申请实施例中文本信息检索的装置的一个可选实施例中,该装置,还包括:
第四获取模块,用于通过目标深度模型获取目标聚合关键词子集合所对应的第二目标特征向量;
第三获取模块905,还用于将第二目标特征向量和第一目标特征向量输入目标分类模型,得到第一目标特征向量所对应的检索分值。
本申请实施例还提供了一种模型训练的装置,图10为本申请实施例中模型训练的装置的一个结构示意图,请参阅图10,本申请实施例中模型训练的装置的一个实施例,包括:
第一获取模块1001,用于获取第一待训练特征向量,第一带训练特征包括原始特征向量以及区分度特征向量,原始特征向量与目标聚合关键词子集合具有关联关系,区分度特征向量与至少一个聚合关键词子集合具有关联关系,聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合,目标聚合关键词子集合包括至少一个聚合关键词,聚合关键词子集合包括至少一个聚合关键词,聚合关键词集合是基于关键词集合生成的,关键词集合是基于待检索文本信息所包括的目标词集合所生成的,目标词集合包括至少一个目标词;
第二获取模块1002,用于通过待训练分类模型获取第一待训练特征向量所对应的检索分数;
训练模块1003,用于根据检索分数以及真实分数,采用目标损失函数对待训练分类模型进行训练,得到目标分类模型,目标损失函数包括与待训练分类模型对应的待训练第一损失函数。
可选的,本申请实施例中模型训练的装置的一个可选实施例中,该装置还包括:
第三获取模块,用于通过待训练深度模型获取目标聚合关键词子集合所对应的第二待训练特征向量;
第二获取模块1002,还用于将第二待训练特征向量和第一待训练特征向量输入待训练分类模型,得到第一待训练特征向量所对应的检索分数;
训练模块1003,还用于根据检索分数以及真实分数,采用目标损失函数对待训练分类模型和待训练深度模型进行训练,得到目标分类模型和目标深度模型,目标损失函数还包括与待训练深度模型对应的第二损失函数。
本申请实施例还提供了一种终端设备,如图11所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant,PDA)、销售终端(point of sales,POS)、车载电脑等任意终端设备,以终端为手机为例:
图11为本申请实施例中终端设备的一个结构示意图。参考图11,手机包括:射频(radio frequency,RF)电路1110、存储器1120、输入单元1130、显示单元1140、传感器1150、音频电路1160、无线保真(wireless fidelity,WiFi)模块1170、处理器1180、以及电源1190等部件。本领域技术人员可以理解,图11中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图11对手机的各个构成部件进行具体的介绍:
RF电路1110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1180处理;另外,将设计上行的数据发送给基站。通常,RF电路1110包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier,LNA)、双工器等。此外,RF电路1110还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(globalsystem of mobile communication,GSM)、通用分组无线服务(general packet radioservice,GPRS)、码分多址(code division multiple access,CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution,LTE)、电子邮件、短消息服务(short messaging service,SMS)等。
存储器1120可用于存储软件程序以及模块,处理器1180通过运行存储在存储器1120的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1130可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1130可包括触控面板1131以及其他输入设备1132。触控面板1131,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1131上或在触控面板1131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1180,并能接收处理器1180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1131。除了触控面板1131,输入单元1130还可以包括其他输入设备1132。具体地,其他输入设备1132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1140可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1140可包括显示面板1141,可选的,可以采用液晶显示器(liquidcrystal display,LCD)、有机发光二极管(organic light-emitting diode,OLED)等形式来配置显示面板1141。进一步的,触控面板1131可覆盖显示面板1141,当触控面板1131检测到在其上或附近的触摸操作后,传送给处理器1180以确定触摸事件的类型,随后处理器1180根据触摸事件的类型在显示面板1141上提供相应的视觉输出。虽然在图11中,触控面板1131与显示面板1141是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1131与显示面板1141集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1141的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1141和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1160、扬声器1161,传声器1162可提供用户与手机之间的音频接口。音频电路1160可将接收到的音频数据转换后的电信号,传输到扬声器1161,由扬声器1161转换为声音信号输出;另一方面,传声器1162将收集的声音信号转换为电信号,由音频电路1160接收后转换为音频数据,再将音频数据输出处理器1180处理后,经RF电路1110以发送给比如另一手机,或者将音频数据输出至存储器1120以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图11示出了WiFi模块1170,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1180是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1120内的软件程序和/或模块,以及调用存储在存储器1120内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1180可包括一个或多个处理单元;可选的,处理器1180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1180中。
手机还包括给各个部件供电的电源1190(比如电池),可选的,电源可以通过电源管理系统与处理器1180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端所包括的处理器1180还具有以下功能:
获取待检索文本信息,其中,所述待检索文本信息包括目标词集合,所述目标词集合包括至少一个目标词;
根据所述目标词集合获取关键词集合,其中,所述关键词集合包括至少一个关键词;
根据所述关键词集合生成聚合关键词集合,其中,所述聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合,所述目标聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词子集合包括至少一个聚合关键词;
根据所述聚合关键词集合生成所述目标聚合关键词子集合所对应的第一目标特征向量,其中,所述第一目标特征向量是基于原始特征向量以及区分度特征向量生成的,所述原始特征向量与所述目标聚合关键词子集合具有关联关系,所述区分度特征向量与所述至少一个聚合关键词子集合具有关联关系;
通过目标分类模型获取所述第一目标特征向量所对应的检索分值,其中,所述检索分值用于确定检索结果。
本申请实施例还涉及一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上述文本信息检索的方法或模型训练的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种文本信息检索的方法,其特征在于,包括:
获取待检索文本信息,其中,所述待检索文本信息包括目标词集合,所述目标词集合包括至少一个目标词;所述目标词集合为所述待检索文本信息的主语的集合;
根据所述目标词集合获取关键词集合,其中,所述关键词集合包括至少一个关键词;所述关键词集合为所述目标词集合中目标词所对应的关键词的集合;
根据所述关键词集合生成聚合关键词集合,其中,所述聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合,所述目标聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词子集合包括至少一个聚合关键词;所述聚合关键词集合为问题模板和基于所述目标词修改后的文本信息所构成的匹配对集合;所述问题模板对应所述关键词;所述聚合关键词子集合为所述匹配对集合的子集合;所述目标聚合关键词子集合为所述聚合关键词子集合中的一个;
根据所述聚合关键词集合生成所述目标聚合关键词子集合所对应的第一目标特征向量,其中,所述第一目标特征向量是基于原始特征向量以及区分度特征向量生成的,所述原始特征向量与所述目标聚合关键词子集合具有关联关系,所述区分度特征向量与所述至少一个聚合关键词子集合具有关联关系;所述区分度特征向量为聚合关键词集合中除了目标聚合关键词子集合之外的至少一个聚合关键词子集所对应的特征向量信息;
通过目标分类模型获取所述第一目标特征向量所对应的检索分值,其中,所述检索分值用于当所述检索分值高于预设的分数阈值时根据关键词和目标词确定检索结果。
2.根据权利要求1所述的文本信息检索的方法,其特征在于,所述根据所述关键词集合生成聚合关键词集合包括:
根据所述关键词集合和所述目标词集合生成聚合关键词集合。
3.根据权利要求1或2所述的文本信息检索的方法,其特征在于,所述根据所述聚合关键词集合生成所述目标聚合关键词子集合所对应的第一目标特征向量包括:
生成所述目标聚合关键词子集合的原始特征向量,以及所述至少一个聚合关键词子集合的原始特征向量;
根据所述至少一个聚合关键词子集合的原始特征向量生成所述目标聚合关键词子集合的区分度特征向量;
根据所述目标聚合关键词子集合的原始特征向量和所述目标聚合关键词子集合的区分度特征向量生成所述目标聚合关键词子集合所对应的第一目标特征向量。
4.根据权利要求1所述的文本信息检索的方法,其特征在于,所述通过目标分类模型获取所述第一目标特征向量所对应的检索分值之前,还包括:
通过目标深度模型获取所述目标聚合关键词子集合所对应的第二目标特征向量;
通过目标分类模型获取所述第一目标特征向量所对应的检索分值包括:
将所述第二目标特征向量和所述第一目标特征向量输入所述目标分类模型,得到所述第一目标特征向量所对应的检索分值。
5.一种模型训练的方法,其特征在于,包括:
获取第一待训练特征向量,所述第一待训练特征包括原始特征向量以及区分度特征向量,所述原始特征向量与目标聚合关键词子集合具有关联关系,区分度特征向量与至少一个聚合关键词子集合具有关联关系,聚合关键词集合包括所述目标聚合关键词子集合以及所述至少一个聚合关键词子集合,所述目标聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词集合是基于关键词集合生成的,所述关键词集合是基于待检索文本信息所包括的目标词集合所生成的,所述目标词集合包括至少一个目标词;所述目标词集合为所述待检索文本信息的主语的集合;所述关键词集合为所述目标词集合中目标词所对应的关键词的集合;所述聚合关键词集合为问题模板和基于所述目标词修改后的文本信息所构成的匹配对集合;所述问题模板对应所述关键词;所述聚合关键词子集合为所述匹配对集合的子集合;所述目标聚合关键词子集合为所述聚合关键词子集合中的一个;所述区分度特征向量为聚合关键词集合中除了目标聚合关键词子集合之外的至少一个聚合关键词子集所对应的特征向量信息;
通过待训练分类模型获取所述第一待训练特征向量所对应的检索分数;
根据所述检索分数以及真实分数,采用目标损失函数对所述待训练分类模型进行训练,得到目标分类模型,所述目标损失函数包括与所述待训练分类模型对应的待训练第一损失函数;所述真实分数为提前设置的用于反映所述待检索文本信息与所述待检索文本信息对应的关键词之间的匹配程度。
6.根据权利要求5所述的模型训练的方法,其特征在于,所述方法还包括:
通过待训练深度模型获取所述目标聚合关键词子集合所对应的第二待训练特征向量;
所述通过待训练分类模型获取所述第一待训练特征向量所对应的检索分数包括:
将所述第二待训练特征向量和所述第一待训练特征向量输入待训练分类模型,得到所述第一待训练特征向量所对应的检索分数;
所述方法,还包括:
根据所述检索分数以及真实分数,采用目标损失函数对所述待训练分类模型和所述待训练深度模型进行训练,得到目标分类模型和目标深度模型,所述目标损失函数还包括与待训练深度模型对应的第二损失函数。
7.一种文本信息检索的装置,其特征在于,包括:
第一获取模块,用于获取待检索文本信息,其中,所述待检索文本信息包括目标词集合,所述目标词集合包括至少一个目标词;所述目标词集合为所述待检索文本信息的主语的集合;
第二获取模块,用于根据所述目标词集合获取关键词集合,其中,所述关键词集合包括至少一个关键词;所述关键词集合为所述目标词集合中目标词所对应的关键词的集合;
第一生成模块,用于根据所述关键词集合生成聚合关键词集合,其中,所述聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合,所述目标聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词子集合包括至少一个聚合关键词;所述聚合关键词集合为问题模板和基于所述目标词修改后的文本信息所构成的匹配对集合;所述问题模板对应所述关键词;所述聚合关键词子集合为所述匹配对集合的子集合;所述目标聚合关键词子集合为所述聚合关键词子集合中的一个;
第二生成模块,用于根据所述聚合关键词集合生成所述目标聚合关键词子集合所对应的第一目标特征向量,其中,所述第一目标特征向量是基于原始特征向量以及区分度特征向量生成的,所述原始特征向量与所述目标聚合关键词子集合具有关联关系,所述区分度特征向量与所述至少一个聚合关键词子集合具有关联关系;所述区分度特征向量为聚合关键词集合中除了目标聚合关键词子集合之外的至少一个聚合关键词子集所对应的特征向量信息;
第三获取模块,用于通过目标分类模型获取所述第一目标特征向量所对应的检索分值,其中,所述检索分值用于当所述检索分值高于预设的分数阈值时根据关键词和目标词确定检索结果。
8.一种模型训练的装置,其特征在于,包括:
第一获取模块,用于获取第一待训练特征向量,所述第一待 训练特征包括原始特征向量以及区分度特征向量,所述原始特征向量与目标聚合关键词子集合具有关联关系,区分度特征向量与至少一个聚合关键词子集合具有关联关系,聚合关键词集合包括所述目标聚合关键词子集合以及所述至少一个聚合关键词子集合,所述目标聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词集合是基于关键词集合生成的,所述关键词集合是基于待检索文本信息所包括的目标词集合所生成的,所述目标词集合包括至少一个目标词;所述目标词集合为所述待检索文本信息的主语的集合;所述关键词集合为所述目标词集合中目标词所对应的关键词的集合;所述聚合关键词集合为问题模板和基于所述目标词修改后的文本信息所构成的匹配对集合;所述问题模板对应所述关键词;所述聚合关键词子集合为所述匹配对集合的子集合;所述目标聚合关键词子集合为所述聚合关键词子集合中的一个;所述区分度特征向量为聚合关键词集合中除了目标聚合关键词子集合之外的至少一个聚合关键词子集所对应的特征向量信息;
第二获取模块,用于通过待训练分类模型获取所述第一待训练特征向量所对应的检索分数;
训练模块,用于根据所述检索分数以及真实分数,采用目标损失函数对所述待训练分类模型进行训练,得到目标分类模型,所述目标损失函数包括与所述待训练分类模型对应的待训练第一损失函数;所述真实分数为提前设置的用于反映所述待检索文本信息与所述待检索文本信息对应的关键词之间的匹配程度。
9.一种终端设备,其特征在于,包括:存储器、收发器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,包括如下步骤:
获取待检索文本信息,其中,所述待检索文本信息包括目标词集合,所述目标词集合包括至少一个目标词;所述目标词集合为所述待检索文本信息的主语的集合;
根据所述目标词集合获取关键词集合,其中,所述关键词集合包括至少一个关键词;
根据所述关键词集合生成聚合关键词集合,其中,所述聚合关键词集合包括目标聚合关键词子集合以及至少一个聚合关键词子集合,所述目标聚合关键词子集合包括至少一个聚合关键词,所述聚合关键词子集合包括至少一个聚合关键词;所述聚合关键词集合为问题模板和基于所述目标词修改后的文本信息所构成的匹配对集合;所述问题模板对应所述关键词;所述聚合关键词子集合为所述匹配对集合的子集合;所述目标聚合关键词子集合为所述聚合关键词子集合中的一个;
根据所述聚合关键词集合生成所述目标聚合关键词子集合所对应的第一目标特征向量,其中,所述第一目标特征向量是基于原始特征向量以及区分度特征向量生成的,所述原始特征向量与所述目标聚合关键词子集合具有关联关系,所述区分度特征向量与所述至少一个聚合关键词子集合具有关联关系;所述区分度特征向量为聚合关键词集合中除了目标聚合关键词子集合之外的至少一个聚合关键词子集所对应的特征向量信息;
通过目标分类模型获取所述第一目标特征向量所对应的检索分值,其中,所述检索分值用于当所述检索分值高于预设的分数阈值时根据关键词和目标词确定检索结果。
10.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至6中任一项所述的方法。
CN201910863042.0A 2019-09-11 2019-09-11 一种文本信息检索的方法及相关装置 Active CN110597957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910863042.0A CN110597957B (zh) 2019-09-11 2019-09-11 一种文本信息检索的方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910863042.0A CN110597957B (zh) 2019-09-11 2019-09-11 一种文本信息检索的方法及相关装置

Publications (2)

Publication Number Publication Date
CN110597957A CN110597957A (zh) 2019-12-20
CN110597957B true CN110597957B (zh) 2022-04-22

Family

ID=68859129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910863042.0A Active CN110597957B (zh) 2019-09-11 2019-09-11 一种文本信息检索的方法及相关装置

Country Status (1)

Country Link
CN (1) CN110597957B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269796B (zh) * 2020-10-23 2023-12-22 北京浪潮数据技术有限公司 一种数据检索方法及相关装置
CN113486138A (zh) * 2021-07-20 2021-10-08 北京明略软件系统有限公司 基于Elasticsearch的检索方法、系统和计算机可读存储介质
CN116340395B (zh) * 2023-05-29 2023-07-28 深圳市玩物科技有限公司 一种基于优化检索条件的设备信息检索方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN105528349A (zh) * 2014-09-29 2016-04-27 华为技术有限公司 知识库中问句解析的方法及设备
CN108717441A (zh) * 2018-05-16 2018-10-30 腾讯科技(深圳)有限公司 问题模板所对应的谓词的确定方法及装置
CN110147436A (zh) * 2019-03-18 2019-08-20 清华大学 一种基于教育知识图谱与文本的混合自动问答方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262062B2 (en) * 2015-12-21 2019-04-16 Adobe Inc. Natural language system question classifier, semantic representations, and logical form templates

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103699663A (zh) * 2013-12-27 2014-04-02 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
CN105528349A (zh) * 2014-09-29 2016-04-27 华为技术有限公司 知识库中问句解析的方法及设备
CN108717441A (zh) * 2018-05-16 2018-10-30 腾讯科技(深圳)有限公司 问题模板所对应的谓词的确定方法及装置
CN110147436A (zh) * 2019-03-18 2019-08-20 清华大学 一种基于教育知识图谱与文本的混合自动问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于全局知识和前后向序列学习的自然答案生成模型;何世柱;《南昌工程学院学报》;20181231;第37卷(第6期);第91-98页 *

Also Published As

Publication number Publication date
CN110597957A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110096580B (zh) 一种faq对话方法、装置及电子设备
CN109783798A (zh) 文本信息添加图片的方法、装置、终端及存储介质
CN109033156B (zh) 一种信息处理方法、装置及终端
CN110597957B (zh) 一种文本信息检索的方法及相关装置
CN104217717A (zh) 构建语言模型的方法及装置
CN112820299B (zh) 声纹识别模型训练方法、装置及相关设备
CN110704661A (zh) 一种图像分类方法和装置
CN110852109A (zh) 语料生成方法、语料生成装置、和存储介质
CN107633051A (zh) 桌面搜索方法、移动终端及计算机可读存储介质
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN109543014B (zh) 人机对话方法、装置、终端及服务器
CN113268572A (zh) 问答方法及装置
CN112214605A (zh) 一种文本分类方法和相关装置
JP2021532492A (ja) 文字入力方法及び端末
CN111159338A (zh) 一种恶意文本的检测方法、装置、电子设备及存储介质
CN113723159A (zh) 场景识别模型训练方法、场景识别方法及模型训练装置
CN108595107B (zh) 一种界面内容处理方法及移动终端
CN108765522B (zh) 一种动态图像生成方法及移动终端
CN114444579A (zh) 通用扰动获取方法、装置、存储介质及计算机设备
CN116070114A (zh) 数据集的构建方法、装置、电子设备及存储介质
CN110781274A (zh) 一种问答对生成的方法与装置
WO2021073434A1 (zh) 对象行为的识别方法、装置及终端设备
CN110390102B (zh) 一种情感分析的方法和相关装置
CN115412726B (zh) 视频真伪检测方法、装置及存储介质
CN107885887B (zh) 一种文件存储方法和移动终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40018853

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant