CN115455152A - 写作素材的推荐方法、装置、电子设备及存储介质 - Google Patents

写作素材的推荐方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115455152A
CN115455152A CN202211200331.0A CN202211200331A CN115455152A CN 115455152 A CN115455152 A CN 115455152A CN 202211200331 A CN202211200331 A CN 202211200331A CN 115455152 A CN115455152 A CN 115455152A
Authority
CN
China
Prior art keywords
candidate
speech
determining
target
query statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211200331.0A
Other languages
English (en)
Inventor
王智浩
李云良
胡飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202211200331.0A priority Critical patent/CN115455152A/zh
Publication of CN115455152A publication Critical patent/CN115455152A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供一种写作素材的推荐方法、装置、电子设备及存储介质,方法包括:接收用户输入的查询语句;根据所述查询语句,从素材库中确定出与所述查询语句相关的多个候选素材;对所述查询语句和每个候选素材进行分词和词性统计,以获取所述每个候选素材对应的词性维度特征;对所述查询语句和所述每个候选素材进行拼接编码,以获取所述每个候选素材对应的语义特征;根据所述词性维度特征和所述语义特征,确定所述查询语句与所述每个候选素材之间的相关度;根据所述相关度,从所述多个候选素材中确定出第一预设个数的目标素材进行推荐。本方案能够提高相关度计算的准确度,从而提高写作素材推荐的准确度。

Description

写作素材的推荐方法、装置、电子设备及存储介质
技术领域
本公开涉及机器学习技术领域,尤其涉及一种写作素材的推荐方法、装置、电子设备及存储介质。
背景技术
中文写作素材搜索排序在辅助学生写作文或者演讲稿的场景中非常重要。目前,在进行写作素材推荐时,通常采用的是关键词匹配的检索方式,但是这种基于关键词的检索方式未考虑词的含义,忽视了一词多义的问题,导致检索到的写作素材与查询语句的相关度较低,写作素材的推荐效果较差。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种写作素材的推荐方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种写作素材的推荐方法,包括:
接收用户输入的查询语句;
根据所述查询语句,从素材库中确定出与所述查询语句相关的多个候选素材;
对所述查询语句和每个候选素材进行分词和词性统计,以获取所述每个候选素材对应的词性维度特征;
对所述查询语句和所述每个候选素材进行拼接编码,以获取所述每个候选素材对应的语义特征;
根据所述词性维度特征和所述语义特征,确定所述查询语句与所述每个候选素材之间的相关度;
根据所述相关度,从所述多个候选素材中确定出第一预设个数的目标素材进行推荐。
根据本公开的另一方面,提供了一种写作素材的推荐装置,包括:
接收模块,用于接收用户输入的查询语句;
第一确定模块,用于根据所述查询语句,从素材库中确定出与所述查询语句相关的多个候选素材;
第一获取模块,用于对所述查询语句和每个候选素材进行分词和词性统计,以获取所述每个候选素材对应的词性维度特征;
第二获取模块,用于对所述查询语句和所述每个候选素材进行拼接编码,以获取所述每个候选素材对应的语义特征;
第二确定模块,用于根据所述词性维度特征和所述语义特征,确定所述查询语句与所述每个候选素材之间的相关度;
推荐模块,用于根据所述相关度,从所述多个候选素材中确定出第一预设个数的目标素材进行推荐。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据前述一方面所述的写作素材的推荐方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据前述一方面所述的写作素材的推荐方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现前述一方面所述的写作素材的推荐方法。
本公开实施例中提供的一个或多个技术方案,通过接收用户输入的查询语句,根据查询语句,从素材库中确定出与查询语句相关的多个候选素材,再对查询语句和每个候选素材进行分词和词性统计,以获取每个候选素材对应的词性维度特征,以及对查询语句和每个候选素材进行拼接编码,以获取每个候选素材对应的语义特征,进而根据词性维度特征和语义特征,确定查询语句与每个候选素材之间的相关度,根据相关度,从多个候选素材中确定出第一预设个数的目标素材进行推荐。采用本公开的方案,能够提高相关度计算的准确度,从而提高写作素材推荐的准确度。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了实现本公开的写作素材的推荐方法的模块架构示意图;
图2示出了根据本公开一示例性实施例的写作素材的推荐方法的流程图;
图3示出了根据本公开一示例性实施例提供的确定候选素材的语义特征的业务流程示意图;
图4示出了根据本公开另一示例性实施例的写作素材的推荐方法的流程示意图;
图5示出了根据本公开又一示例性实施例的写作素材的推荐方法的流程示意图;
图6示出了根据本公开示例性实施例的写作素材的推荐装置的示意性框图;
图7示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
以下参照附图描述本公开提供的写作素材的推荐方法、装置、电子设备及存储介质。
中文作文素材搜索排序在辅助学生写作文或者演讲稿的场景中非常重要。在作文素材搜索场景中,目前常用的作文素材检索方案是基于关键词匹配进行检索,这种检索方案具有速度快、可解释性强的优点,但忽略了一词多义的问题,导致检索到的写作素材与查询语句的相关度较低,写作素材的推荐效果较差。另外,现有技术中也没有考虑到搜索结果的排序问题,与查询语句最匹配的搜索结果可能被排到了后面,导致用户对推荐结果的满意度降低。
针对上述问题,本公开提供了一种写作素材的推荐方法,主要使用自然语言理解技术和汉语语法特征,对中文作文素材片段进行检索,利用主题词抽取、词性融合和语义理解技术实现对搜索内容的精准匹配,并且,在进行推荐时,通过融合查询语句命中主题词个数、查询语句和素材片段词性统计、查询语句和素材片段语义编码来确定查询语句与写作素材的相关度进行素材推荐,以提高素材推荐的准确度。另外,还融合关键词个数、主题词个数、召回分数和素材标签数来调整推荐素材的排序结果,使得与查询语句越相关的写作素材排序越靠前,以提高用户对推荐结果的满意度。
图1示出了实现本公开的写作素材的推荐方法的模块架构示意图。图1中的中文作文素材库数据量为百万级,内容可以来自K12(kindergarten through twelfth grade,幼儿园至第十二年级)阶段教辅和互联网公开的优秀作文,素材的格式可以为片段形式。第一编码模型和第二编码模型可以是预先训练的不同的语义编码模型,也可以是预先训练的双塔模型中不同端的语义编码模型,利用双塔模型来训练查询语句和素材之间的语义关系,对查询语句和素材分别进行语义编码,通过最小化交叉熵进行反向梯度传播得到最优模型,其中第一编码模型为素材端编码模型,第二编码模型为查询语句端编码模型。Faiss是开源的针对聚类和相似性的搜索库,中文作文素材库中的各素材通过第一编码模型提前进行语义编码后,对编码结果进行标准化后存入Faiss中待用。在线查询模块接收用户的查询语句,并通过第二编码模型对查询语句进行编码,得到表示向量,之后根据表示向量从Faiss中找到最相近的一定数量的候选素材。粗排模块用于根据查询语句与候选素材之间的相关度,确定出目标素材;精排模块则用于对目标素材的排序进行调整。
图2示出了根据本公开一示例性实施例的写作素材的推荐方法的流程图,该方法可以由写作素材的推荐装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在电子设备中,所述电子设备包括手机、平板电脑、服务器等设备。当应用于服务器时,由服务器根据本公开的写作素材的推荐方法确定出目标素材,并将目标素材返回给用户使用的终端进行展示,实现写作素材的推荐。当应用于手机、平板电脑等终端设备时,由终端设备根据本公开的写作素材的推荐方法确定出目标素材,并将目标素材展示给用户。下述实施例以应用于服务器为例来解释说明本公开的写作素材的推荐方法,但不应作为对本公开的限制。
如图2所示,该写作素材的推荐方法可以包括以下步骤:
步骤101,接收用户输入的查询语句。
其中,用户可以通过手机、电脑等终端设备输入查询语句,服务器可以与终端设备进行交互,接收用户通过终端设备输入的查询语句。
示例性地,用户输入的查询语句例如可以是一句话,如“描写雪景的素材”,也可以是至少一个关键词,如“雪景作文”、“青春梦想”,本公开对查询语句的形式不作限制。
步骤102,根据所述查询语句,从素材库中确定出与所述查询语句相关的多个候选素材。
本公开实施例中,接收了用户输入的查询语句后,可以从素材库中确定出与查询语句相关的多个候选素材。
示例性地,可以统计素材库中包含的查询语句内词汇的个数,将包含查询语句内词汇个数最多的一定数量的素材确定为多个候选素材。
示例性地,可以分别对查询语句以及素材库中的素材进行向量化表示,基于向量化表示结果计算查询语句与素材库中每个素材之间的相似度,将相似度最高的一定数量的素材确定为多个候选素材。
步骤103,对所述查询语句和每个候选素材进行分词和词性统计,以获取所述每个候选素材对应的词性维度特征。
本公开实施例中,可以对接收的查询语句进行分词处理,并统计分词结果中每种词性的词的个数,以及对每个候选素材进行分词处理,并针对每个候选素材,统计该候选素材中包含的每种词性的词的个数,进而针对每个候选素材,根据查询语句中包含的每种词性的词的个数、候选素材中包含的每种词性的词的个数,确定该候选素材对应的词性维度特征。
示例性地,可以预先设置不同的词性以及词性顺序,表示成矩阵的形式,矩阵的维度为[词性种类数,1],比如预设的词性包括名词、动词、形容词、副词、介词和连词,则矩阵维度为[6,1],将查询语句中包含的上述每种词性的词的个数对应代入该矩阵的相应元素上,比如名词的个数代入名词对应的元素上,动词的个数代入动词对应的元素上,即得到查询语句对应的词性特征,将每个候选素材包含的上述每种词性的词的个数对应代入该矩阵的相应元素上,即得到每个候选素材分别对应的词性特征。进而,针对每个候选素材,将查询语句对应的词性特征与该候选素材对应的词性特征在行方向上进行拼接,将拼接后的结果作为该候选素材对应的词性维度特征。
步骤104,对所述查询语句和所述每个候选素材进行拼接编码,以获取所述每个候选素材对应的语义特征。
本公开实施例中,对于接收的查询语句以及确定的每个候选素材,可以将查询语句分别与每个候选素材进行拼接,得到拼接文本,之后对每个拼接文件进行编码,将得到的向量表示确定为每个候选素材分别对应的语义特征。
示例性地,图3示出了根据本公开一示例性实施例提供的确定候选素材的语义特征的业务流程示意图,图3中,预训练模型是利用大量的训练样本对初始模型进行训练得到的编码模型,能够对输入的文本进行编码,得到预设维度(如[768,512])的矩阵,该矩阵中的每一行表示文本中一个字的向量表示。如图3所示,将查询语句“描写雪景的素材”与候选素材“天地一片白…”进行拼接,其中,查询语句与候选素材之间通过分隔符“<SEP>”进行分隔,在编码时,分隔符不被编码。需要说明的是,上述候选素材中的“…”表示因篇幅限制未能显示的候选素材中的内容。经过拼接得到的文本输入至预训练模型中进行语义编码,得到每个字符对应的向量,并利用这些向量生成一个预设维度的矩阵(字符的个数小于预设维度的行数时,可以利用0向量补齐),为了保证预设维度的矩阵能够包含拼接文本中的所有字符对应的向量,可以将预设维度的行数设置为较大值,预设维度的列数则可以根据预训练模型输出的向量的维度确定。之后,对生成的预设维度的矩阵进行均值池化,可以得到一个多维向量(例如[768,1]),该向量即为上述候选素材对应的语义特征。
需要说明的是,步骤103和步骤104是执行顺序不分先后,两者可以同时执行,也可以顺序执行,图1所示的实施例仅以步骤104在步骤103之后执行作为示例来解释说明本公开,而不能作为对本公开的限制。
步骤105,根据所述词性维度特征和所述语义特征,确定所述查询语句与所述每个候选素材之间的相关度。
本公开实施例中,确定了每个候选素材对应的词性维度特征以及语义特征之后,针对每个候选素材,根据该候选素材的词性维度特征和语义特征,可以确定出查询语句与该候选素材之间的相关度,从而得到查询语句与每个候选素材之间的相关度。
示例性地,可以将同一候选素材的词性维度特征和语义特征进行拼接,再利用预设的转换矩阵对拼接后的特征进行维度转换,得到一个维度为[1,1]的矩阵,该矩阵的元素值即为查询语句与该候选素材之间的相关度。
其中,转换矩阵的维度可以根据词性维度特征的维度与语义特征的维度进行确定。比如,预先设置的不同词性以及词性顺序所表示成的矩阵的维度为[6,1],则每个候选素材对应的词性维度特征的维度为[12,1],每个候选素材对应的语义特征的维度为[768,1],则转换矩阵的维度可以设置为[780,1]。
步骤106,根据所述相关度,从所述多个候选素材中确定出第一预设个数的目标素材进行推荐。
其中,第一预设个数可以根据实际需求预先设定,比如可以设置第一预设个数为8、10等。
本公开实施例中,确定了查询语句与每个候选素材之间的相关度之后,可以根据相关度,从多个候选素材中选择相关度最高的第一预设个数的候选素材作为目标素材,并将目标素材推荐给用户。
示例性地,在向用户推荐目标素材时,可以将目标素材按照相关度的高度进行排序,将排序后的目标素材展示在用户的终端设备中,实现写作素材的推荐,使得排序在前的素材是与查询语句相关度最高的素材,保证推荐效果。
本公开实施例的写作素材的推荐方法,通过接收用户输入的查询语句,根据查询语句,从素材库中确定出与查询语句相关的多个候选素材,再对查询语句和每个候选素材进行分词和词性统计,以获取每个候选素材对应的词性维度特征,以及对查询语句和每个候选素材进行拼接编码,以获取每个候选素材对应的语义特征,进而根据词性维度特征和语义特征,确定查询语句与每个候选素材之间的相关度,根据相关度,从多个候选素材中确定出第一预设个数的目标素材进行推荐。采用本公开的方案,能够提高相关度计算的准确度,从而提高写作素材推荐的准确度。
通常认为,一段素材包含的主题词的个数越多,该素材越优质。从而,在本公开的一种可选实施方式中,还可以结合候选素材包含的主题词的个数来表征候选素材的特征,并用于相关度的计算,以提高目标素材的质量。本公开实施例中,如图4所示,在如图1所示实施例的基础上,该写作素材的推荐方法还包括:
步骤107,根据所述每个候选素材包含的主题词的个数,确定所述每个候选素材的主题词特征。
其中,主题词可以是预先确定的。
示例性地,可以对图1中的中文作文素材库中包含的各素材,利用TF-IDF(TermFrequency–Inverse Document Frequency,词频-逆文本频率指数)算法统计出中文作文素材库中预设个数(比如2000)个主题词,每个素材会出现不同个数的主题词,本公开实施例中,统计每个候选素材中出现这些主题词的个数。
进而,根据每个候选素材包含的主题词的个数,确定每个候选素材的主题词特征。
示例性地,候选素材的主题词特征可以是一个维度为[1,1]的向量。比如,一个候选素材包含3个主题词,则该候选素材对应的主题词特征为矩阵[3]。
需要说明的是,步骤107与步骤103和步骤104的执行顺序不分先后,三者可以同时执行,也可以顺序执行,图4所示实施例仅以步骤107在步骤104之后执行作为示例来解释说明本公开,而不能作为对本公开的限制。
进一步地,本公开实施例中,如图4所示,步骤105可以包括以下子步骤:
步骤201,根据所述主题词特征、所述词性维度特征和所述语义特征,确定所述查询语句与所述每个候选素材之间的相关度。
在本公开的一种可选实施方式中,可以依次将同一候选素材的主题词特征、词性维度特征和语义特征在行方向上进行拼接,得到拼接特征,再利用预设的转换矩阵对拼接特征进行维度转换,得到一个维度为[1,1]的矩阵,该矩阵的元素值即为查询语句与该候选素材之间的相关度。
举例而言,假设候选素材的主题词特征为[1,1]的矩阵,词性维度特征为[12,1]的矩阵,语义特征为[768,1]的矩阵,则将主题词特征、词性维度特征和语义特征在行方向上进行拼接,得到维度为[781,1]的矩阵,则可以预先设置一个维度为[1,781]的转换矩阵,利用转换矩阵与该拼接得到的矩阵进行矩阵相乘运算,即可得到一个维度为[1,1]的矩阵。
在本公开的一种可选实施方式中,在确定查询语句与每个候选素材之间的相关度时,可以针对每个候选素材,将每个候选素材的主题词特征和词性维度特征进行拼接,得到第一拼接特征;按照预设的第一转换矩阵,对第一拼接特征进行维度转换,得到第一转换特征;接着,将第一转换特征与每个候选素材的语义特征进行拼接,得到第二拼接特征,并按照预设的第二转换矩阵,对第二拼接特征进行维度转换,得到第二转换特征;接着,按照预设的第三转换矩阵,对第二转换特征进行维度转换,得到第三转换特征;将第三转换特征的特征值确定为查询语句与每个候选素材之间的相关度。
示例性地,查询语句与各候选素材的相关度可以通过如下公式(1)计算得到。
Figure BDA0003871823310000081
其中,relation表示第三转换特征,可以用来确定查询语句与候选素材之间的相关度;Vz表示候选素材的主题词特征,维度为[1,1];Vc表示候选素材的词性维度特征,维度与预设的词性的种类有关;Vy表示候选素材的语义特征,维度与预先训练的预训练模型中定义的输出维度相关;join表示拼接,对两个向量按照首尾连接的方式拼接形成新向量,本公开实施例中在行方向上对两个特征进行拼接;
Figure BDA0003871823310000082
Figure BDA0003871823310000083
分别表示第一转换矩阵的转置矩阵、第二转换矩阵的转置矩阵和第三转换矩阵的转置矩阵,它们的维度可以根据Vz、Vc、Vy的维度预先设定,各转置矩阵的特征值可以根据实际需求进行设置。
举例而言,假设候选素材的主题词特征的维度为[1,1],词性维度特征为维度为[108,1],语义特征的维度为[768,1],则将候选素材的主题词特征和词性维度特征进行拼接得到的第一拼接特征的维度为[109,1],则第一转换矩阵的维度可以设置为[109,768],第一转换矩阵的行数与主题词特征和词性维度特征的维度相关。将第一转换矩阵的转置矩阵与第一拼接特征进行矩阵相乘,得到第一转换特征,第一转换特征的维度为[768,1]。接着,按照上述公式(1),将第一转换特征与候选素材的语义特征进行拼接,得到第二拼接特征,第二拼接特征的维度为[1536,1],第二转换矩阵的维度可以设置为[1536,768],将第二转换矩阵的转置矩阵与第二拼接特征进行矩阵相乘,得到第二转换特征,第二转换特征的维度为[768,1]。接着,将第三转换矩阵(维度为[768,1])的转置矩阵与第二转换特征进行矩阵相乘,得到第三转换特征,第三转换特征的维度为[1,1],从而,将第三转换特征的特征值确定为查询语句与候选素材之间的相关性。
本公开实施例的写作素材的推荐方法,通过还根据每个候选素材包含的主题词的个数,确定每个候选素材的主题词特征,进而根据主题词特征、词性维度特征和语义特征,确定查询语句与每个候选素材之间的相关度,由此,能够进一步提高相关度计算的准确度,从而提高素材推荐的准确度,提高推荐的目标素材的质量。
在本公开的一种可选实施方式中,在确定每个候选素材对应的词性维度特征时,可以先对查询语句和每个候选素材分别进行分词,得到查询语句对应的第一分词和每个候选素材对应的第二分词;接着,按照预设的词性维度表,统计第一分词中包含的各词性的个数,得到第一词性特征,按照词性维度表,统计每个候选素材对应的第二分词中包含的各词性的个数,得到第二词性特征,以及按照词性维度表,统计第一分词与每个候选素材对应的第二分词中包含同一词性的个数,得到第三词性特征;进而,针对每个候选素材,将第一词性特征、第二词性特征和第三词性特征进行拼接,得到每个候选素材对应的第四词性特征;对第四词性特征进行标准化处理,得到每个候选素材对应的词性维度特征。
其中,词性维度表可以根据实际需求预先设置。示例性地,可以预先设置普通名词、时间名词、方位名词等36个不同的词性,每个词性对应有不同的词性代号,并按照顺序进行排序得到词性维度表,如表1所示。
表1
Figure BDA0003871823310000091
Figure BDA0003871823310000101
本公开实施例中,对查询语句进行分词得到第一分词,以及对每个候选素材进行分词得到每个候选素材对应的第二分词之后,可以按照表1所示的词性维度表,统计出第一分词中包含的上述每个词性的个数,并按照上述表1的顺序,将统计的个数填入对应的位置,得到一个维度为[36,1]的第一词性特征。针对每个候选素材分词得到的第二分词(一个候选素材对应一组第二分词),可以按照表1所示的词性维度表,统计出第二分词中包含的上述每个词性的个数,并按照上述表1的顺序,将统计的个数填入对应的位置,得到一个维度为[36,1]的第二词性特征,从而得到每个候选素材分别对应的第二词性特征。根据第一分词和每组第二分词,可以统计出第一分词和第二分词中包含同一词性的个数,即查询语句与候选素材中每个共现词性的个数,并按照上述表1的顺序,将统计的每个共现词性的个数填入对应的位置,得到一个维度为[36,1]的第三词性特征。比如,查询语句对应的第一分词中包括普通名词1个,形容词1个和连词1个,某个候选素材对应的第二分词中包含普通名词20个,形容词12个,副词5个,连词7个,等等,则可以确定共现词性有普通名词、形容词和连词,对应的个数分别为21个、13个和8个,则得到的第三词性特征中普通名词位置对应的元素值为21,形容词位置对应的元素值为13,连词位置对应的元素值为8,其他词性对应的元素值均为0。接着,将同一候选素材对应的第一词性特征、第二词性特征和第三词性特征进行拼接,得到一个维度为[108,1]的第四词性特征,对第四词性特征进行标准化处理,将其标准化到中心为数据、均值为0、方差为1,得到各候选素材对应的词性维度特征,词性维度特征的维度为[108,1]。
在本公开实施例中,通过统计查询语句和各候选素材中包含的词性的个数,并确定候选素材对应的词性维度特征用于候选素材与查询语句之间相关度的计算,为提高相关度计算的准确性提供了数据支撑。
在本公开的一种可选实施方式中,在从素材库中确定与查询语句相近的多个候选素材时,可以利用预先训练的双塔模型的查询语句端编码模型,根据查询语句确定查询语句对应的请求表示向量;计算请求表示向量与素材库中每个素材表示向量之间的相似度,其中,素材库中的素材表示向量是预先利用双塔模型的素材端编码模型对多个素材进行编码得到的;接着,根据相似度,从素材库中确定出与请求表示向量之间的相似度最高的第二预设个数的目标素材表示向量;将目标素材表示向量对应的素材,确定为多个候选素材。
其中,第二预设个数可以根据实际需求预先设定,比如可以设置第二预设个数为100个、130个,等等。
本公开实施例中,可以预先训练一个双塔模型,通过双塔模型来训练查询语句与写作素材之间的语义关系,在训练时,对查询语句和素材分别进行语义编码,通过最小化交叉熵进行反向梯度传播得到最优模型。在双塔模型训练好后,可以预先利用双塔模型的素材端编码模型,对多个素材进行编码,得到每个素材对应的素材表示向量并存储至素材库(例如图1所示的Faiss)中,从而在实际使用时,无需对素材进行编码,有利于提高素材检索速度和效率。当接收到用户输入的查询语句后,可以利用双塔模型的查询语句端编码模型,确定查询语句对应的向量表示(记为[x1 x2 x3…xN]),称为请求表示向量,其中,N表示向量的维度。进而,计算请求表示向量与素材库中每个素材表示向量之间的相似度,并从素材库中确定出与查询语句之间的相似度最高的第二预设个数的目标素材表示向量。
示例性地,在计算相似度时,可以通过如下公式(2)所示的余弦相似度计算公式,计算得到请求表示向量与每个素材表示向量之间的相似度。
Figure BDA0003871823310000111
其中,xi表示请求表示向量中的第i个元素的元素值,yi表示素材表示向量中第i个元素的元素值,d表示请求表示向量与素材表示向量之间的余弦相似度。
本公开实施例中,确定出目标素材表示向量之后,可以将目标素材表示向量对应的素材,确定为多个候选素材。
示例性地,可以将写作素材与对应的素材表示向量采用相同的唯一标识进行标记,在确定了目标素材表示向量之后,根据目标素材表示向量被标记的唯一标识,可以找到被标记相同唯一标识的素材,将这些素材作为候选素材。
在本公开实施例中,通过预先利用双塔模型的素材端编码模型对多个素材进行编码,将得到的素材表示向量存入素材库中备用,能够避免每次进行素材检索时均确定素材对应的表示向量带来的耗时,有利于提高素材搜索速度和效率;通过计算查询语句的请求表示向量和各素材表示向量之间的相似度,根据相似度选择第二预设个数的目标素材表示向量对应的素材作为候选素材,实现了写作素材的初步筛选,减少了后续进行目标素材的确定的计算负载,有利于提高目标素材推荐的速度和效率。
在搜索结果的排序领域,通常会将NDCG(Normalized Discounted CumulativeGain,归一化折损累计增益)这一指标作为衡量排序模型好坏的指标,该指标衡量的是排序模型是否将更相关的结果排到更靠前的位置,即希望把越相关的结果排到越靠前的位置。而本公开的发明人在研究写作素材的排序推荐过程中发现,采用上述实施例推荐的目标素材,存在最相关的目标素材没有被排在第一个位置的现象,使得推荐的精准度以及用户对推荐结果的满意度降低。针对这一问题,本公开进一步提供了在推荐前对目标素材的排序进行微调的方案,以达到对目标素材进行精排的目的。微调方案可以部署在图1中所示的精排模块进行实现。下面结合附图详细说明对目标素材的排序进行微调的具体过程。
图5示出了根据本公开又一示例性实施例的写作素材的推荐方法的流程示意图,如图5所示,在前述实施例的基础上,步骤106可以包括以下子步骤:
步骤301,根据所述相关度,从所述多个候选素材中确定出所述第一预设个数的相关度最高的目标素材。
本公开实施例中,计算出查询语句与每个候选素材之间的相关度之后,可以将各候选素材按照相关度由高到低的顺序进行排序,并选择排序在前的第一预设个数的候选素材作为目标素材。
步骤302,根据所述目标素材对应的相关度,确定所述目标素材对应的第一概率序列。
本公开实施例中,确定了目标素材之后,可以根据目标素材对应的相关度,确定目标素材对应的第一概率序列。
示例性地,可以将确定的目标素材,按照相关度由高到低的顺序组成一个素材序列,记为D=[doc1,doc2,doc3,…,docm],其中,m为目标素材的总个数,doc1为相关度最高的目标素材,doc2的相关度次于doc1,docm为目标素材中相关度最低的素材,对应的第一概率序列记为P1=[P1.1,P1.2,P1.3,…,P1.m],第一概率序列中的每个概率通过相关度计算得到,具体计算公式如下公式(3)所示。
Figure BDA0003871823310000121
公式(3)中,j的取值为1~m,relationj表示素材序列中第j个目标素材的相关度,P1.j表示第j个目标素材的得分概率。
步骤303,根据所述第一概率序列,从多个得分序列中确定出与所述第一概率序列之间的相对熵最小的目标得分序列。
其中,多个得分序列可以是从预设的概率序列中选择的多个概率序列,得分序列的个数可以是至少两个。
在本公开的一种可选实施方式中,针对目标素材构成的素材序列,可以从不同的维度计算得到素材序列对应的多个概率序列,进而从中选择至少两个作为得分序列用于对目标素材的排序进行微调。其中,多个维度可以包括但不限于主题词、相关性、携带的标签等。下面针对确定不同维度对应的概率序列进行详细说明。
针对主题词这一维度,在确定素材序列的概率序列时,可以针对每个目标素材,根据目标素材包含的主题词的个数,以及目标素材包含查询语句中的词的个数,确定目标素材对应的第二概率序列。
举例而言,假设素材序列中的第一个目标素材doc1包含的主题词的个数为3个,查询语句中有1个词在该目标素材中出现,即包含查询语句中的词的个数为1个,则该目标素材doc1的得分为(3+1=4)分。按照这种方式统计素材序列中每个目标素材的得分,即得到素材序列对应的主题词维度的分数序列,记为score=[score1,score2,score3,…,scorem],其中,scorej(j=1~m)表示素材序列D中第j个目标素材对应的得分。之后,根据分数序列,可以得到素材序列D对应的第二概率序列,记为P2=[P2.1,P2.2,P2.3,…,P2.m],其中,第二概率序列中第j个目标素材的得分概率为第j个目标素材对应的得分scorej(j=1~m)除以m个目标素材的总得分的值。
针对相关性这一维度,在确定素材序列的概率序列时,可以针对每个目标素材,根据查询语句与目标素材之间的相似度,以及查询语句与目标素材之间的相关度,确定目标素材对应的第三概率序列。
作为一种可选的实施方式,在确定目标素材对应的第三概率序列时,针对素材向量D中的第j个目标素材,可以获取查询语句与第j个目标素材之间的相似度(相似度在确定候选素材时已经计算),以及查询语句与第j个目标素材之间的相关度(在步骤105中已经计算得到),并计算相似度和相关度的均值,将得到的均值作为第j个目标素材的得分概率,由此得分第三概率序列,记为P3=[P3.1,P3.2,P3.3,…,P3.m],第三概率序列中第j个目标素材的得分概率为第j个目标素材对应的相似度和相关度的均值。
作为一种可选的实施方式,在确定目标素材对应的第三概率序列时,可以先获取相似度对应的第一预设权重以及相关度对应的第二预设权重,其中,第一预设权重和第二预设权重可以根据实际需求进行设置,两者的和为1,比如可以设置第一预设权重为0.32,设置第二预设权重为0.68。接着,针对素材序列D中的第j个目标素材,可以根据第一预设权重和第二预设权重,对查询语句与第j个目标素材之间的相似度以及查询语句与第j个目标素材之间的相关度进行加权求和,得到第j个目标素材的召回分数,即第j个目标素材的召回分数Sj=第一预设权重*dj+第二预设权重*relationj,其中,dj表示查询语句与第j个目标素材之间的相似度,relationj表示查询语句与第j个目标素材之间的相关度。之后,根据第j个目标素材的召回分数Sj可以确定第j个目标素材的得分概率,从而得到素材序列的第三概率序列,第三概率序列记为P3=[P3.1,P3.2,P3.3,…,P3.m],第三概率序列中第j个目标素材的得分概率为第j个目标素材对应的召回分数Sj除以素材序列中m个目标素材的召回分数之和的值。
针对携带的标签这一维度,在确定素材序列的概率序列时,可以针对每个目标素材,统计目标素材携带的标签的数量,将目标素材携带的标签的数量作为对应目标素材的得分,根据得分确定目标素材对应的第四概率序列。
本公开实施例中,每个写作素材在入库时,会被打上至少一个预设的标签,预设的标签可以包括但不限于“比喻句”、“排比句”、“引用典故”、“引用文言文”、“名人事迹”等上百个标签,一个写作素材携带的标签越多,代表该写作素材越好。因此本公开实施例中将目标素材携带的标签数作为一个维度对目标素材进行打分,携带的标签的数量即表示对应目标素材的得分。进而根据每个目标素材的得分,确定目标素材对应的第四概率序列。
示例性地,针对素材序列D中的第j个目标素材,统计第j个目标素材携带的标签数量作为第j个目标素材的得分,比如第一个目标素材携带3个标签,则第一个目标素材的得分为3分。接着,计算第j个目标素材的得分除以素材序列D中m个目标素材的总得分的值,得到第j个目标素材的得分概率,m个目标素材对应的得分概率构成了第四概率序列,记为P4=[P4.1,P4.2,P4.3,…,P4.m]。
进而,计算得到第二概率序列、第三概率序列和第四概率序列之后,可以从中选择至少两个概率序列作为多个得分序列。比如,可以选择第二概率序列和第三概率序列作为得分序列,或者,可以选择第二概率序列、第三概率序列和第四概率序列作为得分序列,本公开对得分序列的选择不作限制。
在本公开实施例中,通过从主题词个数、召回分数和目标素材携带的标签数多个维度来计算素材序列对应的多个概率序列,并从中确定得分序列用于对目标素材的排序进行微调,能够实现对推荐的写作素材进行精准排序。
本公开实施例中,确定了多个得分序列之后,可以根据第一概率序列,从多个得分序列中确定出与第一概率序列之间的相对熵最小的目标得分序列。
其中,相对熵又称为KL散度(Kullback-Leibler Divergence,简称KLD),是两个概率分布差别的非对称性的度量,即度量两个概率分布之间的“距离”,相对熵越小,表明两个概率分布之间的差别越小,即“距离”越小。
也就是说,本公开实施例中,可以计算第一概率序列分别与多个得分序列中的每个序列之间的KL散度,并选择与第一概率分布之间的KL散度最小的得分序列,作为目标得分序列。也可以理解为,从多个得分序列中选择与第一概率分布最接近的一个得分序列作为目标得分序列。
步骤304,按照所述目标得分序列中每个所述目标素材的得分概率,对所述目标素材进行排序后推荐给所述用户。
本公开实施例中,确定了目标得分序列之后,即可按照目标得分序列中每个目标素材的得分概率,对目标素材进行排序,并将重新排序后的目标素材推荐给用户。
举例而言,假设目标素材的个数为10个,素材序列D=[doc1,doc2,doc3,…,doc10],素材序列D是按照相关度由高到低的顺序对10个目标素材进行排序得到的,经过相对熵的计算,确定目标得分序列为P3=[P3.1,P3.2,P3.3,…,P3.10],假设目标得分序列中,得分概率由大到小依次为P3.3>P3.1>P3.2>P3.6>P3.4>P3.5>P3.7>P3.8>P3.10>P3.9,则将目标素材的排序由原排序结果微调为新的排序结果,新的排序结果为:doc3,doc1,doc2,doc6,doc4,doc5,doc7,doc8,doc10,doc9。进而按照新的排序结果将目标素材推荐给用户。对比微调前后的两次排序可见,原本排序在第三个的目标素材doc3经过微调后被排序在第一个。
本公开实施例的写作素材的推荐方法,通过根据相关度,从多个候选素材中确定出第一预设个数的相关度最高的目标素材,并根据目标素材对应的相关度,确定目标素材对应的第一概率序列,接着根据第一概率序列,从多个得分序列中确定出与第一概率序列之间的相对熵最小的目标得分序列,进而按照目标得分序列中每个目标素材的得分,对目标素材进行排序后推荐给用户,由此,实现了对确定的目标素材进行精准排序,以使最相关的素材被排在最前面,有利于提高用户对排序结果的满意度。
本公开示例性实施例还提供了一种写作素材的推荐装置。图6示出了根据本公开示例性实施例的写作素材的推荐装置的示意性框图,如图6所示,该写作素材的推荐装置60包括:接收模块610、第一确定模块620、第一获取模块630、第二获取模块640、第二确定模块650和推荐模块660。
其中,接收模块610,用于接收用户输入的查询语句;
第一确定模块620,用于根据所述查询语句,从素材库中确定出与所述查询语句相关的多个候选素材;
第一获取模块630,用于对所述查询语句和每个候选素材进行分词和词性统计,以获取所述每个候选素材对应的词性维度特征;
第二获取模块640,用于对所述查询语句和所述每个候选素材进行拼接编码,以获取所述每个候选素材对应的语义特征;
第二确定模块650,用于根据所述词性维度特征和所述语义特征,确定所述查询语句与所述每个候选素材之间的相关度;
推荐模块660,用于根据所述相关度,从所述多个候选素材中确定出第一预设个数的目标素材进行推荐。
可选地,所述写作素材的推荐装置60,还包括:
第三确定模块,用于根据所述每个候选素材包含的主题词的个数,确定所述每个候选素材的主题词特征。
所述第二确定模块650,还用于:
根据所述主题词特征、所述词性维度特征和所述语义特征,确定所述查询语句与所述每个候选素材之间的相关度。
可选地,所述第二确定模块650,还用于:
针对所述每个候选素材,将所述每个候选素材的所述主题词特征和所述词性维度特征进行拼接,得到第一拼接特征;
按照预设的第一转换矩阵,对所述第一拼接特征进行维度转换,得到第一转换特征;
将所述第一转换特征与所述每个候选素材的所述语义特征进行拼接,得到第二拼接特征;
按照预设的第二转换矩阵,对所述第二拼接特征进行维度转换,得到第二转换特征;
按照预设的第三转换矩阵,对所述第二转换特征进行维度转换,得到第三转换特征;
将所述第三转换特征的特征值确定为所述查询语句与所述每个候选素材之间的相关度。
可选地,所述第一获取模块630,还用于:
对所述查询语句和所述每个候选素材分别进行分词,得到所述查询语句对应的第一分词和所述每个候选素材对应的第二分词;
按照预设的词性维度表,统计所述第一分词中包含的各词性的个数,得到第一词性特征;
按照所述词性维度表,统计所述每个候选素材对应的所述第二分词中包含的各词性的个数,得到第二词性特征;
按照所述词性维度表,统计所述第一分词与所述每个候选素材对应的所述第二分词中包含同一词性的个数,得到第三词性特征;
针对所述每个候选素材,将所述第一词性特征、所述第二词性特征和所述第三词性特征进行拼接,得到所述每个候选素材对应的第四词性特征;
对所述第四词性特征进行标准化处理,得到所述每个候选素材对应的词性维度特征。
可选地,所述第一确定模块620,还用于:
利用预先训练的双塔模型的查询语句端编码模型,根据所述查询语句确定所述查询语句对应的请求表示向量;
计算所述请求表示向量与所述素材库中每个素材表示向量之间的相似度,其中,所述素材库中的素材表示向量是预先利用所述双塔模型的素材端编码模型对多个素材进行编码得到的;
根据所述相似度,从所述素材库中确定出与所述请求表示向量之间的相似度最高的第二预设个数的目标素材表示向量;
将所述目标素材表示向量对应的素材,确定为所述多个候选素材。
可选地,所述推荐模块660,包括:
第一确定单元,用于根据所述相关度,从所述多个候选素材中确定出所述第一预设个数的相关度最高的目标素材;
第二确定单元,用于根据所述目标素材对应的相关度,确定所述目标素材对应的第一概率序列;
第三确定单元,用于根据所述第一概率序列,从多个得分序列中确定出与所述第一概率序列之间的相对熵最小的目标得分序列;
排序单元,用于按照所述目标得分序列中每个所述目标素材的得分概率,对所述目标素材进行排序后推荐给所述用户。
可选地,所述写作素材的推荐装置60,还包括:
第四确定模块,用于根据所述目标素材包含的主题词的个数,以及所述目标素材包含所述查询语句中的词的个数,确定所述目标素材对应的第二概率序列;
第五确定模块,用于根据所述查询语句与所述目标素材之间的相似度,以及所述查询语句与所述目标素材之间的相关度,确定所述目标素材对应的第三概率序列;
第六确定模块,用于将所述目标素材携带的标签的数量作为对应目标素材的得分,根据所述得分确定所述目标素材对应的第四概率序列;
选择模块,用于从所述第二概率序列、所述第三概率序列和所述第四概率序列中选择至少两个作为所述多个得分序列。
可选地,所述第五确定模块,还用于:
获取相似度对应的第一预设权重以及相关度对应的第二预设权重;
根据所述第一预设权重和所述第二预设权重,对所述查询语句与所述目标素材之间的相似度以及所述查询语句与所述目标素材之间的相关度进行加权求和,得到所述目标素材的召回分数;
根据所述目标素材的召回分数,确定所述目标素材对应的第三概率序列。
本公开实施例所提供的写作素材的推荐装置,可执行本公开实施例所提供的任意可应用于电子设备的写作素材的推荐方法,具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的写作素材的推荐方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的写作素材的推荐方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的写作素材的推荐方法。
参考图7,现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,电子设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
电子设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106、输出单元1107、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备,输入单元1106可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1107可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1108可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如,在一些实施例中,写作素材的推荐方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到电子设备1100上。在一些实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行写作素材的推荐方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

Claims (11)

1.一种写作素材的推荐方法,其中,所述方法包括:
接收用户输入的查询语句;
根据所述查询语句,从素材库中确定出与所述查询语句相关的多个候选素材;
对所述查询语句和每个候选素材进行分词和词性统计,以获取所述每个候选素材对应的词性维度特征;
对所述查询语句和所述每个候选素材进行拼接编码,以获取所述每个候选素材对应的语义特征;
根据所述词性维度特征和所述语义特征,确定所述查询语句与所述每个候选素材之间的相关度;
根据所述相关度,从所述多个候选素材中确定出第一预设个数的目标素材进行推荐。
2.如权利要求1所述的写作素材的推荐方法,其中,所述方法还包括:
根据所述每个候选素材包含的主题词的个数,确定所述每个候选素材的主题词特征;
并且其中,所述根据所述词性维度特征和所述语义特征,确定所述查询语句与所述每个候选素材之间的相关度,包括:
根据所述主题词特征、所述词性维度特征和所述语义特征,确定所述查询语句与所述每个候选素材之间的相关度。
3.如权利要求2所述的写作素材的推荐方法,其中,所述根据所述主题词特征、所述词性维度特征和所述语义特征,确定所述查询语句与所述每个候选素材之间的相关度,包括:
针对所述每个候选素材,将所述每个候选素材的所述主题词特征和所述词性维度特征进行拼接,得到第一拼接特征;
按照预设的第一转换矩阵,对所述第一拼接特征进行维度转换,得到第一转换特征;
将所述第一转换特征与所述每个候选素材的所述语义特征进行拼接,得到第二拼接特征;
按照预设的第二转换矩阵,对所述第二拼接特征进行维度转换,得到第二转换特征;
按照预设的第三转换矩阵,对所述第二转换特征进行维度转换,得到第三转换特征;
将所述第三转换特征的特征值确定为所述查询语句与所述每个候选素材之间的相关度。
4.如权利要求1所述的写作素材的推荐方法,其中,所述对所述查询语句和每个候选素材进行分词和词性统计,以获取所述每个候选素材对应的词性维度特征,包括:
对所述查询语句和所述每个候选素材分别进行分词,得到所述查询语句对应的第一分词和所述每个候选素材对应的第二分词;
按照预设的词性维度表,统计所述第一分词中包含的各词性的个数,得到第一词性特征;
按照所述词性维度表,统计所述每个候选素材对应的所述第二分词中包含的各词性的个数,得到第二词性特征;
按照所述词性维度表,统计所述第一分词与所述每个候选素材对应的所述第二分词中包含同一词性的个数,得到第三词性特征;
针对所述每个候选素材,将所述第一词性特征、所述第二词性特征和所述第三词性特征进行拼接,得到所述每个候选素材对应的第四词性特征;
对所述第四词性特征进行标准化处理,得到所述每个候选素材对应的词性维度特征。
5.如权利要求1所述的写作素材的推荐方法,其中,所述根据所述查询语句,从素材库中确定出与所述查询语句相关的多个候选素材,包括:
利用预先训练的双塔模型的查询语句端编码模型,根据所述查询语句确定所述查询语句对应的请求表示向量;
计算所述请求表示向量与所述素材库中每个素材表示向量之间的相似度,其中,所述素材库中的素材表示向量是预先利用所述双塔模型的素材端编码模型对多个素材进行编码得到的;
根据所述相似度,从所述素材库中确定出与所述请求表示向量之间的相似度最高的第二预设个数的目标素材表示向量;
将所述目标素材表示向量对应的素材,确定为所述多个候选素材。
6.如权利要求1-5任一项所述的写作素材的推荐方法,其中,所述根据所述相关度,从所述多个候选素材中确定出第一预设个数的目标素材进行推荐,包括:
根据所述相关度,从所述多个候选素材中确定出所述第一预设个数的相关度最高的目标素材;
根据所述目标素材对应的相关度,确定所述目标素材对应的第一概率序列;
根据所述第一概率序列,从多个得分序列中确定出与所述第一概率序列之间的相对熵最小的目标得分序列;
按照所述目标得分序列中每个所述目标素材的得分概率,对所述目标素材进行排序后推荐给所述用户。
7.如权利要求6所述的写作素材的推荐方法,其中,所述方法还包括:
根据所述目标素材包含的主题词的个数,以及所述目标素材包含所述查询语句中的词的个数,确定所述目标素材对应的第二概率序列;
根据所述查询语句与所述目标素材之间的相似度,以及所述查询语句与所述目标素材之间的相关度,确定所述目标素材对应的第三概率序列;
将所述目标素材携带的标签的数量作为对应目标素材的得分,根据所述得分确定所述目标素材对应的第四概率序列;
从所述第二概率序列、所述第三概率序列和所述第四概率序列中选择至少两个作为所述多个得分序列。
8.如权利要求7所述的写作素材的推荐方法,其中,所述根据所述查询语句与所述目标素材之间的相似度,以及所述查询语句与所述目标素材之间的相关度,确定所述目标素材对应的第三概率序列,包括:
获取相似度对应的第一预设权重以及相关度对应的第二预设权重;
根据所述第一预设权重和所述第二预设权重,对所述查询语句与所述目标素材之间的相似度以及所述查询语句与所述目标素材之间的相关度进行加权求和,得到所述目标素材的召回分数;
根据所述目标素材的召回分数,确定所述目标素材对应的第三概率序列。
9.一种写作素材的推荐装置,其中,所述装置包括:
接收模块,用于接收用户输入的查询语句;
第一确定模块,用于根据所述查询语句,从素材库中确定出与所述查询语句相关的多个候选素材;
第一获取模块,用于对所述查询语句和每个候选素材进行分词和词性统计,以获取所述每个候选素材对应的词性维度特征;
第二获取模块,用于对所述查询语句和所述每个候选素材进行拼接编码,以获取所述每个候选素材对应的语义特征;
第二确定模块,用于根据所述词性维度特征和所述语义特征,确定所述查询语句与所述每个候选素材之间的相关度;
推荐模块,用于根据所述相关度,从所述多个候选素材中确定出第一预设个数的目标素材进行推荐。
10.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的写作素材的推荐方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的写作素材的推荐方法。
CN202211200331.0A 2022-09-29 2022-09-29 写作素材的推荐方法、装置、电子设备及存储介质 Pending CN115455152A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211200331.0A CN115455152A (zh) 2022-09-29 2022-09-29 写作素材的推荐方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211200331.0A CN115455152A (zh) 2022-09-29 2022-09-29 写作素材的推荐方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115455152A true CN115455152A (zh) 2022-12-09

Family

ID=84309178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211200331.0A Pending CN115455152A (zh) 2022-09-29 2022-09-29 写作素材的推荐方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115455152A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117812381A (zh) * 2023-12-05 2024-04-02 世优(北京)科技有限公司 基于人工智能的视频内容制作方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117812381A (zh) * 2023-12-05 2024-04-02 世优(北京)科技有限公司 基于人工智能的视频内容制作方法
CN117812381B (zh) * 2023-12-05 2024-06-04 世优(北京)科技有限公司 基于人工智能的视频内容制作方法

Similar Documents

Publication Publication Date Title
CN109284357B (zh) 人机对话方法、装置、电子设备及计算机可读介质
CN108536852B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CA2556202C (en) Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
US11720761B2 (en) Systems and methods for intelligent routing of source content for translation services
CN111324728A (zh) 文本事件摘要的生成方法、装置、电子设备及存储介质
CN113569011B (zh) 文本匹配模型的训练方法、装置、设备及存储介质
US10685012B2 (en) Generating feature embeddings from a co-occurrence matrix
CN112148831B (zh) 图文混合检索方法、装置、存储介质、计算机设备
CN110866102A (zh) 检索处理方法
CN117236410B (zh) 一种可信的电子文件大语言模型训练、推理方法和装置
CN111813993A (zh) 视频内容的拓展方法、装置、终端设备及存储介质
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
Nugraha et al. Typographic-based data augmentation to improve a question retrieval in short dialogue system
Wei et al. Online education recommendation model based on user behavior data analysis
CN115455152A (zh) 写作素材的推荐方法、装置、电子设备及存储介质
CN111460808B (zh) 同义文本识别及内容推荐方法、装置及电子设备
CN115168567B (zh) 一种基于知识图谱的对象推荐方法
CN116108181A (zh) 客户信息的处理方法、装置及电子设备
CN115098668A (zh) 一种文档排序方法、排序装置、电子设备和存储介质
CN114328820A (zh) 信息搜索方法以及相关设备
CN113420139B (zh) 一种文本匹配方法、装置、电子设备及存储介质
CN115618968B (zh) 新意图发现方法、装置、电子设备及存储介质
US11947571B2 (en) Efficient tagging of content items using multi-granular embeddings
Sadat et al. A clustering study for the optimization of emotional information retrieval systems: Dbscan vs k-means

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination