CN112989022B - 虚拟文本智能选取方法、装置以及计算机设备 - Google Patents

虚拟文本智能选取方法、装置以及计算机设备 Download PDF

Info

Publication number
CN112989022B
CN112989022B CN202110281618.XA CN202110281618A CN112989022B CN 112989022 B CN112989022 B CN 112989022B CN 202110281618 A CN202110281618 A CN 202110281618A CN 112989022 B CN112989022 B CN 112989022B
Authority
CN
China
Prior art keywords
text
virtual
virtual text
target virtual
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110281618.XA
Other languages
English (en)
Other versions
CN112989022A (zh
Inventor
梁小艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110281618.XA priority Critical patent/CN112989022B/zh
Publication of CN112989022A publication Critical patent/CN112989022A/zh
Application granted granted Critical
Publication of CN112989022B publication Critical patent/CN112989022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种虚拟文本智能选取方法、装置以及计算机设备,通过获取用户的身份信息和项目信息,并根据身份信息获取用户的特征信息;将所述项目信息与所述特征信息进行向量化处理,得到第一特征向量;根据公式计算所述用户与各个虚拟文本的相关性,根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本。本发明的有益效果:通过用户的身份信息和项目信息计算与各虚拟文本的相关性,从而可以自动实现自动选取对应的目标虚拟文本,节省了用户自行过滤不相关的虚拟文本所花的时间,另外,基于选取的目标虚拟文本,也可以对用户进行更好的目标虚拟文本推荐,使用户在选取虚拟文本时,体验效果更佳。

Description

虚拟文本智能选取方法、装置以及计算机设备
技术领域
本发明涉及人工智能技术领域,特别涉及一种虚拟文本智能选取方法、装置以及计算机设备。
背景技术
随着科技的发展,用户通过终端在网上自助办理的业务的现象屡见不鲜,但是现有技术中,用户只能通过给予的提示或者页面信息去选取对应的虚拟文本数据,当对应的虚拟文本数据较多时,用户需要自行过滤掉不需要的虚拟文本数据,花费的时间成本较多,因此亟需一种虚拟文本智能选取方法。
发明内容
本发明的主要目的为提供一种虚拟文本智能选取方法、装置以及计算机设备,旨在解决用户需要自行过滤掉不需要的虚拟文本数据的问题。
本发明提供了一种虚拟文本智能选取方法,包括:
获取用户的身份信息和项目信息,并根据身份信息获取用户的特征信息;
将所述项目信息与所述特征信息进行向量化处理,得到第一特征向量;
获取虚拟文本数据库中各类别的第四特征向量;其中所述虚拟文本数据库基于不同类别的虚拟文本构成;
分别计算各类别的所述第四特征向量与所述第一特征向量的第二相似度值;
根据所述第二相似度值获取对应类别的虚拟文本;
根据预设的相关性计算公式计算所述用户与各个虚拟文本的相关性;
根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本。
进一步地,根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本步骤之后,还包括:
获取用户输入的文本信息;其中,所述文本信息包括所述用户期望的目标虚拟文本的信息;
将所述文本信息和所述目标虚拟文本分别输入至bert模型中,得到对应的第二特征向量和第三特征向量;
将所述第二特征向量与第三特征向量分别进行加权和计算,使第二特征向量与第三特征向量的维度一致;
通过公式
Figure BDA0002978733490000021
计算所述第二特征向量与第三特征向量的第一相似度值,其中,
Figure BDA0002978733490000022
为所述第一相似度值,
Figure BDA0002978733490000023
表示第二向量,
Figure BDA0002978733490000024
表示第三向量,
Figure BDA0002978733490000025
表示第二向量的第i维,
Figure BDA0002978733490000026
表示第三向量的第i维;
判断所述第一相似度值是否大于相似度预设值;
将所述目标虚拟文本中大于所述相似度预设值的所述目标虚拟文本进行标记后发送给所述用户。
进一步地,所述根据预设的相关性计算公式计算所述用户与各个虚拟文本的相关性的步骤,包括:
根据预设的相关性计算公式
Figure BDA0002978733490000027
计算所述用户与各个虚拟文本的相关性;其中,H(Yj|X)表示所述相关性,Yj表示第j个虚拟文本,X表示所述第一特征向量,ai表示第一特征向量的第i个分量,H(Yj|X=ai)=-∑jP(yij)log2P(yij),Pj(ai)表示选择第j种虚拟文本中特征信息包括所述第一特征向量的第i个分量概率,P(yij)表示基于所述第一特征向量的第i个分量选择j个虚拟文本的概率。
进一步地,所述根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本进行排序的步骤之后,还包括:
获取所述用户选取的多个历史虚拟文本;
将所述历史虚拟文本进行预处理,并构建成对应的特征集合;所述预处理包括数据统一化、删除不相干的词句;
计算各个特征集合中的元素在其他特征集合中出现的次数;
将次数达到设定次数的元素提取出来构成目标特征集合;
计算所述目标虚拟文本与所述目标特征集合的第三相似度值,并根据所述第三相似度值对所述目标虚拟文本进行选取。
进一步地,所述根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本的步骤之后,包括:
将所述项目信息输入至预训练的虚拟文本选取模型中,得到对应的暂时虚拟文本;其中所述预训练的虚拟文本选取模型,通过各项目信息以及与各项目信息对应选取的虚拟文本的样本数据训练而成;
判断暂时虚拟文本是否包含在所述目标虚拟文本中;
若没有包含在所述目标虚拟文本中,则将所述暂时虚拟文本作为所述目标虚拟文本进行选取。
进一步地,所述根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本的步骤之后,还包括:
将各所述目标虚拟文本和所述第一特征向量输入至预先训练得到的评分模型中,输出各所述目标虚拟文本与所述第一特征向量的匹配概率;
基于对应的匹配概率对各所述目标虚拟文本进行排列,得到对应的排列结果;
将排列结果呈现给所述用户。
进一步地,所述评分模型中包括第一分析层、第二分析层、知识图谱以及评分子模型;所述知识图谱中预设有各第一特征向量与所述用户偏好向量的对应关系,以及所述目标虚拟文本与待匹配向量的对应关系;
所述将各所述目标虚拟文本和所述第一特征向量输入至预先训练得到的评分模型中,输出各所述目标虚拟文本与所述第一特征向量的匹配概率的步骤,包括:
将所述第一特征向量和所述知识图谱输入所述第一分析层,输出用户偏好向量;
将各所述目标虚拟文本和所述知识图谱输入所述第二分析层,输出待匹配向量集合,所述待匹配向量集合中包括至少一个与所述目标虚拟文本对应的待匹配向量;
将所述用户偏好向量和所述待匹配向量输入所述评分子模型,输出各所述目标虚拟文本的匹配概率。
本发明提供了一种虚拟文本智能选取装置,包括:
信息获取模块,用于获取用户的身份信息和项目信息,并根据身份信息获取用户的特征信息;
向量化处理模块,用于将所述项目信息与所述特征信息进行向量化处理,得到第一特征向量;
第四特征向量获取模块,用于获取虚拟文本数据库中各类别的第四特征向量;其中所述虚拟文本数据库基于不同类别的虚拟文本构成;
第二相似度值计算模块,用于分别计算各类别的所述第四特征向量与所述第一特征向量的第二相似度值;
虚拟文本获取模块,用于根据所述第二相似度值获取对应类别的虚拟文本;
相关性计算模块,用于根据预设的相关性计算公式计算所述用户与各个虚拟文本的相关性;
虚拟文本选择模块,用于根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本。
本发明还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本发明的有益效果:通过用户的身份信息和项目信息计算与各虚拟文本的相关性,从而可以自动实现自动选取对应的目标虚拟文本,节省了用户自行过滤不相关的虚拟文本所花的时间,另外,基于选取的目标虚拟文本,也可以对用户进行更好的目标虚拟文本推荐,使用户在选取虚拟文本时,体验效果更佳。
附图说明
图1是本发明一实施例的一种虚拟文本智能选取方法的流程示意图;
图2是本发明一实施例的一种虚拟文本智能选取装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变,所述的连接可以是直接连接,也可以是间接连接。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
参照图1,本发明提出一种虚拟文本智能选取方法,包括:
S1:获取用户的身份信息和项目信息,并根据身份信息获取用户的特征信息;
S2:将所述项目信息与所述特征信息进行向量化处理,得到第一特征向量;
S3:获取虚拟文本数据库中各类别的第四特征向量;其中所述虚拟文本数据库基于不同类别的虚拟文本构成;
S4:分别计算各类别的所述第四特征向量与所述第一特征向量的第二相似度值;
S5:根据所述第二相似度值获取对应类别的虚拟文本;
S6:根据预设的相关性计算公式计算所述用户与各个虚拟文本的相关性;
S7:根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本。
如上述步骤S1所述,获取用户的身份信息和项目信息,获取的方式可以是用户在进行该项目时,获取用户注册的身份信息,然后根据进行的项目获取对应的项目信息,该项目信息可以是出游信息,包括旅游的地点,游玩的项目等信息,根据项目信息获取用户的特征信息,该特征信息事先与身份信息进行了绑定,可以是,年龄、性别、体重、病例史等特征信息。
如上述步骤S2所述,可以将项目信息和特征信息一并输入到向量机中得到对应的第一特征向量,其中,第一特征向量包括多个分量(即包括多维),每一个分量由不同的信息构成,例如,病例史,出游信息等,以便于后续进行数字化处理。其中,该向量机由不同的项目信息和特征信息以及对应的第一特征向量训练得到。
如上述步骤S3所述,在获取虚拟文本时,由于可能具有很多类别的虚拟文本,此时可以获取各类别的第四特征向量,应当理解的是,第四特征向量由虚拟文本的类别信息构成,即第四特征向量存储有对应虚拟文本的类别信息,因此可以获取第四特征向量参与计算。
如上述步骤S4-S5所述,分别计算各个类别的第四特征向量与之前得到的第一特征向量的第二相似度值,根据各个第二相似度值的计算结果获取对应的虚拟文本,例如可以获取第二相似度值较高的几个虚拟文本,从而达到获取相应类别的虚拟文本,而不需要获取其他的类别的虚拟文本,简化后续运算的运算量,使运算的结果更快。
如上述步骤S6所述,可以根据预设的相关性计算公式计算用户与各虚拟文本的相关性,其中,可以根据用户的特征信息以及项目信息计算与各个虚拟文本的相关性,具体的计算公式后续有详细说明,此处不再赘述,应当理解的是,当计算的相关性的值越大表示该虚拟文本与用户的特征信息以及项目信息越相关,当计算的相关性的值越小表示该虚拟文本与用户的特征信息以及项目信息越不相关。
如上述步骤S7所述,可以根据相关性的大小选取预设个数的虚拟文本作为目标虚拟文本,也还可以根据相关性的大小以及其他特征,如虚拟文本的类别选取对应的目标虚拟文本。应当理解的是,可以只通过相关性的大小选取虚拟文本,也可以将相关性的大小当作选取的一个选取参数参与选取虚拟文本。
在一个实施例中,根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本步骤S7之后,还包括:
S701:获取用户输入的文本信息;其中,所述文本信息包括所述用户期望的目标虚拟文本的信息;
S702:将所述文本信息和所述目标虚拟文本分别输入至bert模型中,得到对应的第二特征向量和第三特征向量;
S703:将所述第二特征向量与第三特征向量分别进行加权和计算,使第二特征向量与第三特征向量的维度一致;
S704:通过公式
Figure BDA0002978733490000081
计算所述第二特征向量与第三特征向量的第一相似度值,其中,
Figure BDA0002978733490000082
为所述第一相似度值,
Figure BDA0002978733490000083
表示第二向量,
Figure BDA0002978733490000084
表示第三向量,
Figure BDA0002978733490000085
表示第二向量的第i维,
Figure BDA0002978733490000086
表示第三向量的第i维;
S705:判断所述第一相似度值是否大于相似度预设值;
S706:将所述目标虚拟文本中大于所述相似度预设值的所述目标虚拟文本进行标记后发送给所述用户。
如上述步骤S701所述,在选取虚拟文本时,可以获取用户输入的文本信息,该文本信息中包含了用户想要的虚拟文本类型的信息。
如上述步骤S702所述,将文本信息和目标虚拟文本分别输入至对应的bert模型中,得到对应的第二特征向量和第三特征向量,其中bert模型是基于不同的文本信息,以及文本信息对应的专业文本词的样本数据训练而成。
如上述步骤S703所述,在进行相似度计算之前,应当通过加权和计算,使得对应的第二特征向量与第三特征向量的维度保持一致,以便后续可以通过对应的相似度公式进行计算,加权和计算的方式可以是对第二特征向量和/或第三特种向量进行降维计算和升维计算等。
如上述步骤S704所述,为了得到更有效的第一相似度值,可以对维度相同的第二特征向量和第三特种向量的每一维都进行相似计算,再将每一个计算的值进行综合得到第一相似度值。
如上述步骤S705-S706所述,当第一相似度值大于相似度预设值时,可以认为该虚拟文本为与用户输入的文本信息很相似,即可以视为用户想要的目标虚拟文本,此时可以将该目标虚拟文本进行标记,然后发送给用户。
在一个实施例中,所述根据预设的相关性计算公式计算所述用户与各个虚拟文本的相关性的步骤S6,还包括:
S601:根据预设的相关性计算公式
Figure BDA0002978733490000091
Figure BDA0002978733490000092
计算所述用户与各个虚拟文本的相关性;其中,H(Yj|X)表示所述相关性,Yj表示第j个虚拟文本,X表示所述第一特征向量,ai表示第一特征向量的第i个分量,H(Yj|X=ai)=-∑jP(yij)log2P(yij),Pj(ai)表示选择第j种虚拟文本中特征信息包括所述第一特征向量的第i个分量概率,P(yij)表示基于所述第一特征向量的第i个分量选择j个虚拟文本的概率。
如上述步骤S601所述,可以根据公式
Figure BDA0002978733490000093
Figure BDA0002978733490000094
计算用户与各个虚拟文本的相关性,需要说明的是,当相关性的值越大表示该虚拟文本与用户的特征信息以及项目信息越相关,当相关性的值越小表示该虚拟文本与用户的特征信息以及项目信息越不相关,H(Yj|X=ai)=-∑jP(yij)log2P(yij),由于P(yij)表示基于所述第一特征向量的第i个分量选择j个虚拟文本的概率,而概率大于0小于或等于1,故log2P(yij)为负数,因此在前需要加上一个负号,使计算的H(Yj|X=ai)为正。
在一个实施例中,所述根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本进行排序的步骤S7之后,还包括:
S801:获取所述用户选取的多个历史虚拟文本;
S802:将所述历史虚拟文本进行预处理,并构建成对应的特征集合;所述预处理包括数据统一化、删除不相干的词句;
S803:计算各个特征集合中的元素在其他特征集合中出现的次数;
S804:将次数达到设定次数的元素提取出来构成目标特征集合;
S805:计算所述目标虚拟文本与所述目标特征集合的第三相似度值,并根据所述第三相似度值对所述目标虚拟文本进行选取。
如上述步骤S801-S805所述,当选取了目标虚拟文本后,这可能与用户最相关,但是不一定是用户期望的虚拟文本,此时,可以根据用户之前选择的历史虚拟文本补充选取目标虚拟文本,具体为,将获取的多个历史虚拟文本先进行预处理,将数据统一化,例如不同的金额设置成不同区间的金额,例如区间A为100元以内,区间B为[100,200]等,然后用区间去表示这些金额数据,从而得到用户的消费习惯对应的特征,然后将这些特征在各个历史虚拟文本中的出现次数进行统计,当达到设定次数时,可以认为这些元素是与用户非常相关的特征,然后再基于选取的元素构成目标特征集合,对选取的目标虚拟文本进行进一步的选取。
在一个实施例中,所述根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本的步骤S8之后,包括:
S811:将所述项目信息输入至预训练的虚拟文本选取模型中,得到对应的暂时虚拟文本;其中所述预训练的虚拟文本选取模型,通过各项目信息以及与各项目信息对应选取的虚拟文本的样本数据训练而成;
S812:判断暂时虚拟文本是否包含在所述目标虚拟文本中;
S813:若没有包含在所述目标虚拟文本中,则将所述暂时虚拟文本作为所述目标虚拟文本进行选取。
如上述步骤S811-S813所述,将项目信息输入至预训练的虚拟文本选取模型中,可以直接通过项目信息进行获取对应的虚拟文本,该暂时虚拟文本为大数据中,根据项目信息选取最多的虚拟文本,其没有结合用户的特征,但是该暂时虚拟文本也可以作为一种目标虚拟文本进行选取,因此,可以判断该暂时虚拟文本是否已经在选取的目标虚拟文本中,若没有,则可以将该暂时虚拟文本作为目标虚拟文本进行选取,以扩充目标虚拟文本的数量,便于用户进行选取操作等。
在一个实施例中,所述根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本的步骤S7之后,还包括:
S821:将各所述目标虚拟文本和所述第一特征向量输入至预先训练得到的评分模型中,输出各所述目标虚拟文本与所述第一特征向量的匹配概率;
S822:基于对应的匹配概率对各所述目标虚拟文本进行排列,得到对应的排列结果;
S823:将排列结果呈现给所述用户。
如上述步骤S821-S823所述,实现了对目标虚拟文本的排列。具体地,具体地,获取到第一特征向量和各目标虚拟文本后,将所述第一特征向量和各目标虚拟文本输入评分模型中,以输出各所述目标虚拟文本和所述第一特征向量的匹配概率,以及各所述目标虚拟文本的属性特征。所述评分模型可以通过标注过的训练集预先训练得到。在本发明实施例中,所述评分模型中还包括第一分析层、第二分析层、预存的知识图谱以及评分子模型。可选的,所述预存的知识图谱包括父字典和子字典,所述子字典中包括作为根节点的信息和所述信息对应的多个值;所述父字典中包括作为根节点的值和所述值对应的多个信息。例如在保险业务交易平台中,所述子字典的根节点为保险业务信息,所述对应的多个值为所述保险业务信息的多个保险业务属性值;所述父字典的根节点为保险业务属性值,所述对应的多个信息为包括所述保险业务属性值的多个保险业务信息。然后根据匹配概率对目标虚拟文本进行排序,以按照顺序对虚拟文本进行排列。其中,排序的规则可以根据需要确定由高到低排序或由低到高排序。以所述信息匹配方法用于交易员筛选感兴趣保险业务的应用场景为例进行说明,当所述服务器确定的目标虚拟文本分别为保险业务1、保险业务2、保险业务3、保险业务4和保险业务5,且各所述保险业务与第一特征向量的匹配概率分别为77%、92%、83%、69%和81%时,根据对应的匹配概率由高到低排序后的结果为保险业务2、保险业务3、保险业务5、保险业务1和保险业务4。然后将排列结果呈现给对应的用户。
在一个实施例中,所述评分模型中包括第一分析层、第二分析层、知识图谱以及评分子模型;所述知识图谱中预设有各第一特征向量与所述用户偏好向量的对应关系,以及所述目标虚拟文本与待匹配向量的对应关系;
所述将各所述目标虚拟文本和所述第一特征向量输入至预先训练得到的评分模型中,输出各所述目标虚拟文本与所述第一特征向量的匹配概率的步骤S821,包括:
S8211:将所述第一特征向量和所述知识图谱输入所述第一分析层,输出用户偏好向量;
S8212:将各所述目标虚拟文本和所述知识图谱输入所述第二分析层,输出待匹配向量集合,所述待匹配向量集合中包括至少一个与所述目标虚拟文本对应的待匹配向量;
S8213:将所述用户偏好向量和所述待匹配向量输入所述评分子模型,输出各所述目标虚拟文本的匹配概率。
如上述步骤S8211-S8213所述,实现了各所述目标虚拟文本的匹配概率的获取。具体地,评分模型包括第一分析层、第二分析层和评分子模型,第一特征向量和各目标虚拟文本输入所述评分模型后,第一特征向量和预设的知识图谱经过第一分析层后得到用户偏好向量,所述各目标虚拟文本中各所述目标虚拟文本和预设的知识图谱经过第二分析层后得到待匹配向量,所述用户偏好向量和待匹配向量输入所述评分子模型后输出所述待匹配向量与所述用户偏好向量的匹配概率。
本发明还提供了一种虚拟文本智能选取装置,包括:
信息获取模块10,用于获取用户的身份信息和项目信息,并根据身份信息获取用户的特征信息;
向量化处理模块20,用于将所述项目信息与所述特征信息进行向量化处理,得到第一特征向量;
第四特征向量获取模块30,用于获取虚拟文本数据库中各类别的第四特征向量;其中所述虚拟文本数据库基于不同类别的虚拟文本构成;
第二相似度值计算模块40,用于分别计算各类别的所述第四特征向量与所述第一特征向量的第二相似度值;
虚拟文本获取模块50,用于根据所述第二相似度值获取对应类别的虚拟文本;
相关性计算模块60,用于根据预设的相关性计算公式计算所述用户与各个虚拟文本的相关性;
虚拟文本选择模块70,用于根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本。
本发明的有益效果:通过用户的身份信息和项目信息计算与各虚拟文本的相关性,从而可以自动实现自动选取对应的目标虚拟文本,节省了用户自行过滤不相关的虚拟文本所花的时间,另外,基于选取的目标虚拟文本,也可以对用户进行更好的目标虚拟文本推荐,使用户在选取虚拟文本时,体验效果更佳。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种虚拟文本等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的虚拟文本智能选取方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时可以实现上述任一实施例所述的虚拟文本智能选取方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM一多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (8)

1.一种虚拟文本智能选取方法,其特征在于,包括:
获取用户的身份信息和项目信息,并根据身份信息获取用户的特征信息;
将所述项目信息与所述特征信息进行向量化处理,得到第一特征向量;
获取虚拟文本数据库中各类别的第四特征向量;其中所述虚拟文本数据库基于不同类别的虚拟文本构成;
分别计算各类别的所述第四特征向量与所述第一特征向量的第二相似度值;
根据所述第二相似度值获取对应类别的虚拟文本;
根据预设的相关性计算公式计算所述用户与各个虚拟文本的相关性;
根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本;
所述根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本的步骤之后,还包括:
将各所述目标虚拟文本和所述第一特征向量输入至预先训练得到的评分模型中,输出各所述目标虚拟文本与所述第一特征向量的匹配概率;
基于对应的匹配概率对各所述目标虚拟文本进行排列,得到对应的排列结果;
将排列结果呈现给所述用户;
所述评分模型中包括第一分析层、第二分析层、知识图谱以及评分子模型;所述知识图谱中预设有各第一特征向量与用户偏好向量的对应关系,以及所述目标虚拟文本与待匹配向量的对应关系;
所述将各所述目标虚拟文本和所述第一特征向量输入至预先训练得到的评分模型中,输出各所述目标虚拟文本与所述第一特征向量的匹配概率的步骤,包括:
将所述第一特征向量和所述知识图谱输入所述第一分析层,输出用户偏好向量;
将各所述目标虚拟文本和所述知识图谱输入所述第二分析层,输出待匹配向量集合,所述待匹配向量集合中包括至少一个与所述目标虚拟文本对应的待匹配向量;
将所述用户偏好向量和所述待匹配向量输入所述评分子模型,输出各所述目标虚拟文本的匹配概率。
2.如权利要求1所述的虚拟文本智能选取方法,其特征在于,根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本步骤之后,还包括:
获取用户输入的文本信息;其中,所述文本信息包括所述用户期望的目标虚拟文本的信息;
将所述文本信息和所述目标虚拟文本分别输入至bert模型中,得到对应的第二特征向量和第三特征向量;
将所述第二特征向量与第三特征向量分别进行加权和计算,使第二特征向量与第三特征向量的维度一致;
通过公式
Figure FDA0003878736660000021
计算所述第二特征向量与第三特征向量的第一相似度值,其中,
Figure FDA0003878736660000022
为所述第一相似度值,
Figure FDA0003878736660000023
表示第二向量,
Figure FDA0003878736660000024
表示第三向量,
Figure FDA0003878736660000025
表示第二向量的第i维,
Figure FDA0003878736660000026
表示第三向量的第i维;
判断所述第一相似度值是否大于相似度预设值;
将所述目标虚拟文本中大于所述相似度预设值的所述目标虚拟文本进行标记后发送给所述用户。
3.如权利要求1所述的虚拟文本智能选取方法,其特征在于,所述根据预设的相关性计算公式计算所述用户与各个虚拟文本的相关性的步骤,包括:
根据预设的相关性计算公式
Figure FDA0003878736660000031
计算所述用户与各个虚拟文本的相关性;其中,H(Yj|X)表示所述相关性,Yj表示第j个虚拟文本,X表示所述第一特征向量,ai表示第一特征向量的第i个分量,H(Yj|X=ai)=-∑jP(yij)log2P(yij),Pj(ai)表示选择第j种虚拟文本中特征信息包括所述第一特征向量的第i个分量概率,P(yij)表示基于所述第一特征向量的第i个分量选择j个虚拟文本的概率。
4.如权利要求1所述的虚拟文本智能选取方法,其特征在于,所述根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本进行排序的步骤之后,还包括:
获取所述用户选取的多个历史虚拟文本;
将所述历史虚拟文本进行预处理,并构建成对应的特征集合;所述预处理包括数据统一化、删除不相干的词句;
计算各个特征集合中的元素在其他特征集合中出现的次数;
将次数达到设定次数的元素提取出来构成目标特征集合;
计算所述目标虚拟文本与所述目标特征集合的第三相似度值,并根据所述第三相似度值对所述目标虚拟文本进行选取。
5.如权利要求1所述的虚拟文本智能选取方法,其特征在于,所述根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本的步骤之后,包括:
将所述项目信息输入至预训练的虚拟文本选取模型中,得到对应的暂时虚拟文本;其中所述预训练的虚拟文本选取模型,通过各项目信息以及与各项目信息对应选取的虚拟文本的样本数据训练而成;
判断暂时虚拟文本是否包含在所述目标虚拟文本中;
若没有包含在所述目标虚拟文本中,则将所述暂时虚拟文本作为所述目标虚拟文本进行选取。
6.一种虚拟文本智能选取装置,其特征在于,包括:
信息获取模块,用于获取用户的身份信息和项目信息,并根据身份信息获取用户的特征信息;
向量化处理模块,用于将所述项目信息与所述特征信息进行向量化处理,得到第一特征向量;
第四特征向量获取模块,用于获取虚拟文本数据库中各类别的第四特征向量;其中所述虚拟文本数据库基于不同类别的虚拟文本构成;
第二相似度值计算模块,用于分别计算各类别的所述第四特征向量与所述第一特征向量的第二相似度值;
虚拟文本获取模块,用于根据所述第二相似度值获取对应类别的虚拟文本;
相关性计算模块,用于根据预设的相关性计算公式计算所述用户与各个虚拟文本的相关性;
虚拟文本选择模块,用于根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本;
所述根据所述相关性选取预设个数的虚拟文本作为目标虚拟文本的步骤之后,还包括:
将各所述目标虚拟文本和所述第一特征向量输入至预先训练得到的评分模型中,输出各所述目标虚拟文本与所述第一特征向量的匹配概率;
基于对应的匹配概率对各所述目标虚拟文本进行排列,得到对应的排列结果;
将排列结果呈现给所述用户;
所述评分模型中包括第一分析层、第二分析层、知识图谱以及评分子模型;所述知识图谱中预设有各第一特征向量与用户偏好向量的对应关系,以及所述目标虚拟文本与待匹配向量的对应关系;
所述将各所述目标虚拟文本和所述第一特征向量输入至预先训练得到的评分模型中,输出各所述目标虚拟文本与所述第一特征向量的匹配概率的步骤,包括:
将所述第一特征向量和所述知识图谱输入所述第一分析层,输出用户偏好向量;
将各所述目标虚拟文本和所述知识图谱输入所述第二分析层,输出待匹配向量集合,所述待匹配向量集合中包括至少一个与所述目标虚拟文本对应的待匹配向量;
将所述用户偏好向量和所述待匹配向量输入所述评分子模型,输出各所述目标虚拟文本的匹配概率。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202110281618.XA 2021-03-16 2021-03-16 虚拟文本智能选取方法、装置以及计算机设备 Active CN112989022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110281618.XA CN112989022B (zh) 2021-03-16 2021-03-16 虚拟文本智能选取方法、装置以及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110281618.XA CN112989022B (zh) 2021-03-16 2021-03-16 虚拟文本智能选取方法、装置以及计算机设备

Publications (2)

Publication Number Publication Date
CN112989022A CN112989022A (zh) 2021-06-18
CN112989022B true CN112989022B (zh) 2022-11-25

Family

ID=76335939

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110281618.XA Active CN112989022B (zh) 2021-03-16 2021-03-16 虚拟文本智能选取方法、装置以及计算机设备

Country Status (1)

Country Link
CN (1) CN112989022B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116484091A (zh) * 2023-03-10 2023-07-25 湖北天勤伟业企业管理有限公司 卡牌信息程序交互方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018049960A1 (zh) * 2016-09-14 2018-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN112148889A (zh) * 2020-09-23 2020-12-29 平安直通咨询有限公司上海分公司 一种推荐列表的生成方法及设备
CN112346567A (zh) * 2020-11-03 2021-02-09 平安科技(深圳)有限公司 基于ai的虚拟交互模型生成方法、装置及计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109388742A (zh) * 2017-08-09 2019-02-26 阿里巴巴集团控股有限公司 一种搜索方法、搜索服务器和搜索系统
CN110232152B (zh) * 2019-05-27 2021-03-23 腾讯科技(深圳)有限公司 内容推荐方法、装置、服务器以及存储介质
CN112148865B (zh) * 2019-06-28 2024-04-02 北京百度网讯科技有限公司 信息推送方法和装置
CN111680165B (zh) * 2020-04-28 2024-03-01 中国外汇交易中心(全国银行间同业拆借中心) 信息匹配方法、装置、可读存储介质和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018049960A1 (zh) * 2016-09-14 2018-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN112148889A (zh) * 2020-09-23 2020-12-29 平安直通咨询有限公司上海分公司 一种推荐列表的生成方法及设备
CN112346567A (zh) * 2020-11-03 2021-02-09 平安科技(深圳)有限公司 基于ai的虚拟交互模型生成方法、装置及计算机设备

Also Published As

Publication number Publication date
CN112989022A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN111538908B (zh) 搜索排序方法、装置、计算机设备和存储介质
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN110377730B (zh) 案由分类方法、装置、计算机设备和存储介质
CN111444344B (zh) 实体分类方法、装置、计算机设备和存储介质
US20210342371A1 (en) Method and Apparatus for Processing Knowledge Graph
CN110263152B (zh) 基于神经网络的文本分类方法、系统及计算机设备
CN110765117A (zh) 欺诈识别方法、装置、电子设备及计算机可读存储介质
CN108038544B (zh) 基于大数据和深度学习的神经网络深度学习方法和系统
CN110781284B (zh) 基于知识图谱的问答方法、装置和存储介质
CN111090719A (zh) 文本分类方法、装置、计算机设备及存储介质
CN114329225A (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN112989022B (zh) 虚拟文本智能选取方法、装置以及计算机设备
CN111368061A (zh) 短文本过滤方法、装置、介质及计算机设备
CN115827990B (zh) 搜索方法及装置
CN112860846A (zh) 问题词汇的推荐方法、装置、计算机设备及存储介质
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN109033078A (zh) 语句类别识别方法及装置、存储介质、处理器
WO2018171499A1 (zh) 一种信息检测方法、设备及存储介质
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN113902354A (zh) 旅游评价数据处理方法、装置和计算机设备
CN111339287B (zh) 摘要生成方法及装置
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN112364620A (zh) 文本相似度的判断方法、装置以及计算机设备
CN112052681A (zh) 信息抽取模型训练方法、信息抽取方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant