CN117521652A - 基于自然语言模型的智能匹配系统及方法 - Google Patents

基于自然语言模型的智能匹配系统及方法 Download PDF

Info

Publication number
CN117521652A
CN117521652A CN202410014474.5A CN202410014474A CN117521652A CN 117521652 A CN117521652 A CN 117521652A CN 202410014474 A CN202410014474 A CN 202410014474A CN 117521652 A CN117521652 A CN 117521652A
Authority
CN
China
Prior art keywords
semantic
scenario
feature vector
alternative
demand
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410014474.5A
Other languages
English (en)
Other versions
CN117521652B (zh
Inventor
杨德川
杨海宁
张丙锐
李龙飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
One Station Development Beijing Cloud Computing Technology Co ltd
Original Assignee
One Station Development Beijing Cloud Computing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by One Station Development Beijing Cloud Computing Technology Co ltd filed Critical One Station Development Beijing Cloud Computing Technology Co ltd
Priority to CN202410014474.5A priority Critical patent/CN117521652B/zh
Publication of CN117521652A publication Critical patent/CN117521652A/zh
Application granted granted Critical
Publication of CN117521652B publication Critical patent/CN117521652B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及自然语言处理技术领域,其具体地公开了一种基于自然语言模型的智能匹配系统及方法,其采用基于深度学习的自然语言处理技术来分析用户输入的剧本需求描述和备选剧本内容的文本描述之间的语义交叉关联特征,进而来判断备选剧本与用户需求的匹配度是否达到预定要求。这样,能够更准确地理解用户需求,提高查询效果,从而提升整体的用户体验和服务质量。

Description

基于自然语言模型的智能匹配系统及方法
技术领域
本申请涉及自然语言处理技术领域,且更为具体地,涉及一种基于自然语言模型的智能匹配系统及方法。
背景技术
在影视行业,剧本是影视作品创作的基础,对影视作品的质量和影响力起着至关重要的作用。通过阅读剧本可以帮助编剧、导演、制片人等影视从业者从中了解行业发展趋势,学习创作技巧、人物塑造、情节设计等方面的经验和知识,有助于提升从业者的专业素养和创作水平。
面对大量杂乱的剧本信息,如何快速、准确地找到符合用户需求的剧本成为了待解决的问题。传统的剧本查询方法通常是通过关键词匹配来实现的。但是,这种方法受限于具体的关键词选择,无法进行深层次的语义理解,导致查询的准确性不高。因此,期待一种优化的基于自然语言模型的智能匹配系统及方法。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于自然语言模型的智能匹配系统及方法,其采用基于深度学习的自然语言处理技术来分析用户输入的剧本需求描述和备选剧本内容的文本描述之间的语义交叉关联特征,进而来判断备选剧本与用户需求的匹配度是否达到预定要求。这样,能够更准确地理解用户需求,提高查询效果,从而提升整体的用户体验和服务质量。
相应地,根据本申请的一个方面,提供了一种基于自然语言模型的智能匹配方法,其包括:
获取用户输入的查询剧本需求描述;
获取备选剧本内容的文本描述;
对所述查询剧本需求描述进行语义理解和情感分析以得到包含情感倾向信息的查询剧本需求语义特征向量;
对所述备选剧本内容的文本描述进行语义编码和语义分析以得到备选剧本上下文语义特征向量的序列;
基于所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列之间的语义度量度,确定所述备选剧本的匹配度是否达到预定要求。
在上述基于自然语言模型的智能匹配方法中,对所述查询剧本需求描述进行语义理解和情感分析以得到包含情感倾向信息的查询剧本需求语义特征向量,包括:对所述查询剧本需求描述进行语义编码以得到查询剧本需求语义特征向量;抽取所述查询剧本需求描述中的情感倾向词,并将所述情感倾向词编码为情感倾向编码向量;将所述情感倾向编码向量和所述查询剧本需求语义特征向量进行拼接以得到所述包含情感倾向信息的查询剧本需求语义特征向量。
在上述基于自然语言模型的智能匹配方法中,对所述查询剧本需求描述进行语义编码以得到查询剧本需求语义特征向量,包括:对所述查询剧本需求描述进行分词处理以得到剧本需求词的序列;分别对所述剧本需求词的序列中各个剧本需求词进行词嵌入编码以得到剧本需求词嵌入向量的序列;将所述剧本需求词嵌入向量的序列输入基于双向长短期记忆神经网络的剧本需求语义编码器以得到所述查询剧本需求语义特征向量。
在上述基于自然语言模型的智能匹配方法中,对所述备选剧本内容的文本描述进行语义编码和语义分析以得到备选剧本上下文语义特征向量的序列,包括:对所述备选剧本内容的文本描述通过基于包含分词模块和词嵌入模块的上下文语义编码器以得到所述备选剧本上下文语义特征向量的序列。
在上述基于自然语言模型的智能匹配方法中,对所述备选剧本内容的文本描述通过基于包含分词模块和词嵌入模块的上下文语义编码器以得到所述备选剧本上下文语义特征向量的序列,包括:使用所述上下文语义编码器的分词模块对所述备选剧本内容的文本描述进行分词处理以得到备选剧本词的序列;使用所述上下文语义编码器的词嵌入模块分别对所述备选剧本词的序列中各个备选剧本词进行词嵌入编码以得到备选剧本词嵌入向量的序列;使用所述上下文语义编码器的转换器模块对所述备选剧本词嵌入向量的序列进行上下文语义编码以得到所述备选剧本上下文语义特征向量的序列。
在上述基于自然语言模型的智能匹配方法中,基于所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列之间的语义度量度,确定所述备选剧本的匹配度是否达到预定要求,包括:计算所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列中各个备选剧本上下文语义特征向量之间的语义交叉度量系数以得到语义交叉度量特征向量;将所述语义交叉度量特征向量通过分类器以得到分类结果,所述分类结果用于表示所述备选剧本的匹配度是否达到预定要求。
在上述基于自然语言模型的智能匹配方法中,计算所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列中各个备选剧本上下文语义特征向量之间的语义交叉度量系数以得到语义交叉度量特征向量,包括:以如下语义交叉度量公式来计算所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列中各个备选剧本上下文语义特征向量之间的语义交叉度量系数以得到由多个所述语义交叉度量系数构成的所述语义交叉度量特征向量;其中,所述语义交叉度量公式为:
其中,为所述包含情感倾向信息的查询剧本需求语义特征向量,/>为各个所述备选剧本上下文语义特征向量,N为所述包含情感倾向信息的查询剧本需求语义特征向量的维度,/>为所述语义交叉度量系数,log表示以2为底的对数函数运算。
在上述基于自然语言模型的智能匹配方法中,还包括训练步骤:对所述基于双向长短期记忆神经网络的剧本需求语义编码器、所述基于包含分词模块和词嵌入模块的上下文语义编码器和所述分类器进行训练。
在上述基于自然语言模型的智能匹配方法中,所述训练步骤,包括:获取训练数据,所述训练数据包括用户输入的训练查询剧本需求描述、备选剧本内容的训练文本描述,以及,所述备选剧本的匹配度是否达到预定要求的真实值;对所述训练查询剧本需求描述进行语义编码以得到训练查询剧本需求语义特征向量;抽取所述训练查询剧本需求描述中的情感倾向词,并将所述情感倾向词编码为训练情感倾向编码向量;将所述训练情感倾向编码向量和所述训练查询剧本需求语义特征向量进行拼接以得到包含情感倾向信息的训练查询剧本需求语义特征向量;对所述备选剧本内容的训练文本描述通过所述基于包含分词模块和词嵌入模块的上下文语义编码器以得到训练备选剧本上下文语义特征向量的序列;计算所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列中各个训练备选剧本上下文语义特征向量之间的语义交叉度量系数以得到训练语义交叉度量特征向量;将所述训练语义交叉度量特征向量通过分类器以得到分类损失函数值;计算所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列的特定损失函数值;以所述分类损失函数值和所述特定损失函数值的加权和作为损失函数值,来对所述基于双向长短期记忆神经网络的剧本需求语义编码器、所述基于包含分词模块和词嵌入模块的上下文语义编码器和所述分类器进行训练。
根据本申请的另一个方面,提供了一种基于自然语言模型的智能匹配系统,其包括:
用户需求获取模块,用于获取用户输入的查询剧本需求描述;
备选剧本内容获取模块,用于获取备选剧本内容的文本描述;
用户需求语义理解模块,用于对所述查询剧本需求描述进行语义理解和情感分析以得到包含情感倾向信息的查询剧本需求语义特征向量;
备选剧本内容语义编码模块,用于对所述备选剧本内容的文本描述进行语义编码和语义分析以得到备选剧本上下文语义特征向量的序列;
备选剧本匹配度判定模块,用于基于所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列之间的语义度量度,确定所述备选剧本的匹配度是否达到预定要求。
与现有技术相比,本申请提供的基于自然语言模型的智能匹配系统及方法,其采用基于深度学习的自然语言处理技术来分析用户输入的剧本需求描述和备选剧本内容的文本描述之间的语义交叉关联特征,进而来判断备选剧本与用户需求的匹配度是否达到预定要求。这样,能够更准确地理解用户需求,提高查询效果,从而提升整体的用户体验和服务质量。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的基于自然语言模型的智能匹配方法的流程图。
图2为根据本申请实施例的基于自然语言模型的智能匹配方法的架构示意图。
图3为根据本申请实施例的基于自然语言模型的智能匹配方法中对所述查询剧本需求描述进行语义理解和情感分析以得到包含情感倾向信息的查询剧本需求语义特征向量的流程图。
图4为根据本申请实施例的基于自然语言模型的智能匹配方法中对所述查询剧本需求描述进行语义编码以得到查询剧本需求语义特征向量的流程图。
图5为根据本申请实施例的基于自然语言模型的智能匹配方法中对所述备选剧本内容的文本描述通过基于包含分词模块和词嵌入模块的上下文语义编码器以得到所述备选剧本上下文语义特征向量的序列的流程图。
图6为根据本申请实施例的基于自然语言模型的智能匹配方法中基于所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列之间的语义度量度,确定所述备选剧本的匹配度是否达到预定要求的流程图。
图7为根据本申请实施例的基于自然语言模型的智能匹配方法中训练步骤的流程图。
图8为根据本申请实施例的基于自然语言模型的智能匹配系统的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
图1为根据本申请实施例的基于自然语言模型的智能匹配方法的流程图。图2为根据本申请实施例的基于自然语言模型的智能匹配方法的架构示意图。如图1和图2所示,根据本申请实施例的基于自然语言模型的智能匹配方法,包括步骤:S110,获取用户输入的查询剧本需求描述;S120,获取备选剧本内容的文本描述;S130,对所述查询剧本需求描述进行语义理解和情感分析以得到包含情感倾向信息的查询剧本需求语义特征向量;S140,对所述备选剧本内容的文本描述进行语义编码和语义分析以得到备选剧本上下文语义特征向量的序列;S150,基于所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列之间的语义度量度,确定所述备选剧本的匹配度是否达到预定要求。
如上述背景技术所言,剧本是影视作品创作的基础,为导演、演员、制片人等创作人员提供了指导和方向。一个好的剧本不仅能够吸引观众的眼球,还能够深入人心,引发观众的思考和共鸣。优秀的剧本往往能够成为经典,被观众长久地记忆和传颂。同时,它也能够成为社会文化的一部分,影响人们的价值观和生活方式。因此,在影视行业中,剧本的创作和选择是非常重要的。
传统的剧本查询方法通常是通过关键词匹配来实现的。但是,这种方法有一些缺陷,例如,有些词语可能有多种含义,可能导致查询结果不准确。并且,当输入的关键词存在同义词和近义词以及错别字等情况时,也可能导致查询结果与用户真实意图存在偏差。也就是说,这种关键词匹配的查询方式受限于具体的关键词选择,无法进行深层次的语义理解,导致查询的准确性不高。因此,期待一种优化的基于自然语言模型的剧本智能匹配方案。
针对上述技术问题,本申请的技术构思为:采用基于深度学习的自然语言处理技术来分析用户输入的剧本需求描述和备选剧本内容的文本描述之间的语义交叉关联特征,进而来判断备选剧本与用户需求的匹配度是否达到预定要求。这样,能够更准确地理解用户需求,提高查询效果,从而提升整体的用户体验和服务质量。
在上述基于自然语言模型的智能匹配方法中,所述步骤S110,获取用户输入的查询剧本需求描述。应可以理解,用户输入的查询剧本需求描述是理解用户需求的基础信息。通过分析和理解用户输入的查询剧本需求描述,可以把握用户的意图,明确用户对剧本的题材、情感倾向、人物性格等方面的具体要求。
在上述基于自然语言模型的智能匹配方法中,所述步骤S120,获取备选剧本内容的文本描述。应可以理解,所述备选剧本内容的文本描述是进行匹配的对象之一。通过对所述备选剧本内容的文本描述进行分析,以了解备选剧本的剧情、角色、场景设置、风格等方面的特点,从而与用户需求进行匹配。
在上述基于自然语言模型的智能匹配方法中,所述步骤S130,对所述查询剧本需求描述进行语义理解和情感分析以得到包含情感倾向信息的查询剧本需求语义特征向量。在本申请的技术方案中,为了更全面地理解用户对剧本的需求,进一步对所述查询剧本需求描述进行语义理解和情感分析。也就是,除了需要了解用户对剧本的具体要求外,还需要进一步了解用户的情感倾向,从而根据用户的情感偏好进行更精准的匹配,更好地满足用户的期望。
图3为根据本申请实施例的基于自然语言模型的智能匹配方法中对所述查询剧本需求描述进行语义理解和情感分析以得到包含情感倾向信息的查询剧本需求语义特征向量的流程图。如图3所示,所述步骤S130,包括:S131,对所述查询剧本需求描述进行语义编码以得到查询剧本需求语义特征向量;S132,抽取所述查询剧本需求描述中的情感倾向词,并将所述情感倾向词编码为情感倾向编码向量;S133,将所述情感倾向编码向量和所述查询剧本需求语义特征向量进行拼接以得到所述包含情感倾向信息的查询剧本需求语义特征向量。
具体地,所述步骤S131,对所述查询剧本需求描述进行语义编码以得到查询剧本需求语义特征向量。在本申请的一个具体示例中,对所述查询剧本需求描述进行语义编码以得到查询剧本需求语义特征向量的编码方式是使用基于双向长短期记忆神经网络的剧本需求语义编码器对所述查询剧本需求描述进行语义编码以得到所述查询剧本需求语义特征向量。也就是说,利用基于双向长短期记忆神经网络的剧本需求语义编码器来捕捉所述查询剧本需求描述中所蕴含的丰富的语义信息,包括词义、句法结构、逻辑关系等。本领域普通技术人员应知晓,双向长短期记忆神经网络(BiLSTM)是一种能够同时考虑上下文信息的循环神经网络(RNN)变体,它结合了长短期记忆(LSTM)的能力以及双向信息传递的优势,在自然语言处理任务中具有优异表现。在传统的RNN中,信息只能从前往后传递,而在BiLSTM中,有两个独立的LSTM网络,一个负责正向传播,另一个负责反向传播。在每个时间步,BiLSTM接收当前输入和前一个时间步的隐藏状态作为输入,分别通过正向和反向的LSTM单元进行处理,然后将它们的输出进行拼接,从而得到当前时间步的输出。所以通过所述双向长短期记忆神经网络模型获得的所述查询剧本需求语义特征向量学习到了全局的上下文信息,能够更好地捕捉句子中词语之间的长距离依赖关系。
图4为根据本申请实施例的基于自然语言模型的智能匹配方法中对所述查询剧本需求描述进行语义编码以得到查询剧本需求语义特征向量的流程图。如图4所示,所述步骤S131,包括:S1311,对所述查询剧本需求描述进行分词处理以得到剧本需求词的序列;S1312,分别对所述剧本需求词的序列中各个剧本需求词进行词嵌入编码以得到剧本需求词嵌入向量的序列;S1313,将所述剧本需求词嵌入向量的序列输入基于双向长短期记忆神经网络的剧本需求语义编码器以得到所述查询剧本需求语义特征向量。
具体地,所述步骤S132,抽取所述查询剧本需求描述中的情感倾向词,并将所述情感倾向词编码为情感倾向编码向量。应可以理解,不同用户对剧本情感的偏好有所不同,有些用户可能更倾向于积极的情感,而另一些用户可能更倾向于消极的情感。而情感倾向词可以帮助分析用户在查询剧本需求描述中所表达的情感态度,进而理解用户对剧本的情感需求,有助于确定用户对于剧本风格的偏好,比如希望剧本具有悬疑、悲剧、喜剧或者其他情感元素,以及剧本具有欢乐、温馨的氛围,或者是紧张、刺激的情节。也就是,通过将所述情感倾向词编码为情感倾向编码向量,进而将情感倾向信息纳入本申请的考虑范围,以实现对用户需求的深层语义理解,从而实现更精准的剧本匹配推荐。
具体地,所述步骤S133,将所述情感倾向编码向量和所述查询剧本需求语义特征向量进行拼接以得到所述包含情感倾向信息的查询剧本需求语义特征向量。在本申请的技术方案中,为了综合考虑用户对剧本的具体要求以及其情感偏好信息,进一步融合所述情感倾向编码向量和所述查询剧本需求语义特征向量。应可以理解,通过将所述情感倾向编码向量和所述查询剧本需求语义特征向量进行拼接,能够将所述查询剧本需求描述中情感信息和语义信息结合在一起,以得到所述包含情感倾向信息的查询剧本需求语义特征向量,从而丰富特征表达,减少信息丢失的可能性,更全面地表达用户需求。同时,使得在进行剧本匹配时能够更全面地考虑用户的情感偏好和具体要求,以提高匹配的效果。
在上述基于自然语言模型的智能匹配方法中,所述步骤S140,对所述备选剧本内容的文本描述进行语义编码和语义分析以得到备选剧本上下文语义特征向量的序列。在本申请的一个具体示例中,对所述备选剧本内容的文本描述进行语义编码和语义分析以得到备选剧本上下文语义特征向量的序列的编码方式是将所述备选剧本内容的文本描述通过基于包含分词模块和词嵌入模块的上下文语义编码器以得到所述备选剧本上下文语义特征向量的序列。应可以理解,备选剧本内容的文本描述中通常包括剧本情节、角色、情感等方面的描述,通过使用上下文语义编码器对所述备选剧本内容的文本描述进行语义挖掘,进而捕捉到其中的关键信息,例如主题、情感倾向、情节发展等,从而更全面地表达备选剧本的语义信息。具体地,所述上下文语义编码器先将所述备选剧本内容的文本描述进行切分成多个字词,再分别对各个字词进行嵌入编码,以将各个字词分别映射为嵌入向量,然后基于Transformer结构,对嵌入向量的序列进行并行处理,捕捉全局依赖关系,从而更好地理解备选剧本的内容特征。
图5为根据本申请实施例的基于自然语言模型的智能匹配方法中对所述备选剧本内容的文本描述通过基于包含分词模块和词嵌入模块的上下文语义编码器以得到所述备选剧本上下文语义特征向量的序列的流程图。如图5所示,所述步骤S140,包括:S141,使用所述上下文语义编码器的分词模块对所述备选剧本内容的文本描述进行分词处理以得到备选剧本词的序列;S142,使用所述上下文语义编码器的词嵌入模块分别对所述备选剧本词的序列中各个备选剧本词进行词嵌入编码以得到备选剧本词嵌入向量的序列;S143,使用所述上下文语义编码器的转换器模块对所述备选剧本词嵌入向量的序列进行上下文语义编码以得到所述备选剧本上下文语义特征向量的序列。
在上述基于自然语言模型的智能匹配方法中,所述步骤S150,基于所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列之间的语义度量度,确定所述备选剧本的匹配度是否达到预定要求。应可以理解,所述包含情感倾向信息的查询剧本需求语义特征向量中包含了用户对剧本的需求特征,而备选剧本上下文语义特征向量的序列也充分表达了剧本的内容信息。通过计算所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列之间的语义度量度,能够得到一个量化的指标,用于衡量备选剧本与用户需求之间的语义相似度,从而确定备选剧本是否与用户的需求相匹配。
图6为根据本申请实施例的基于自然语言模型的智能匹配方法中基于所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列之间的语义度量度,确定所述备选剧本的匹配度是否达到预定要求的流程图。如图6所示,所述步骤S150,包括:S151,计算所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列中各个备选剧本上下文语义特征向量之间的语义交叉度量系数以得到语义交叉度量特征向量;S152,将所述语义交叉度量特征向量通过分类器以得到分类结果,所述分类结果用于表示所述备选剧本的匹配度是否达到预定要求。
具体地,所述步骤S151,计算所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列中各个备选剧本上下文语义特征向量之间的语义交叉度量系数以得到语义交叉度量特征向量。在本申请的技术方案中,通过计算所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列中各个备选剧本上下文语义特征向量之间的语义交叉度量系数来衡量用户输入的查询剧本需求描述和备选剧本内容的文本描述之间的语义相似性和语义关联关系。例如,如果所述包含情感倾向信息的查询剧本需求语义特征向量和所述各个备选剧本上下文语义特征向量之间的语义交叉度量系数较小,表明两者具有较高的语义相似性,即所述备选剧本和用户需求的匹配度较高。相反,如果所述包含情感倾向信息的查询剧本需求语义特征向量和所述各个备选剧本上下文语义特征向量之间的语义交叉度量系数较大,可能表示两者之间的语义差异性较大,进而表明所述备选剧本和用户需求的匹配度较低。
在本申请的一个具体示例中,所述步骤S151,包括:以如下语义交叉度量公式来计算所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列中各个备选剧本上下文语义特征向量之间的语义交叉度量系数以得到由多个所述语义交叉度量系数构成的所述语义交叉度量特征向量;其中,所述语义交叉度量公式为:
其中,为所述包含情感倾向信息的查询剧本需求语义特征向量,/>为各个所述备选剧本上下文语义特征向量,N为所述包含情感倾向信息的查询剧本需求语义特征向量的维度,/>为所述语义交叉度量系数,log表示以2为底的对数函数运算。
这里,通过计算语义交叉度量系数可以体现出所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量之间的交叉性关联关系,即所述包含情感倾向信息的查询剧本需求语义特征向量相对于所述备选剧本上下文语义特征向量的关联,和所述备选剧本上下文语义特征向量相对于所述包含情感倾向信息的查询剧本需求语义特征向量的关联,而这种交叉性关联关系可以对两者所表达的语义特征进行双向对比,更能表征所述备选剧本和用户需求之间所表达的语义特征的匹配度。
具体地,所述步骤S152,将所述语义交叉度量特征向量通过分类器以得到分类结果,所述分类结果用于表示所述备选剧本的匹配度是否达到预定要求。应可以理解,分类器是一种机器学习模型,其原理是基于训练数据学习特征与标签之间的映射关系,以便对新的特征进行分类或预测。在本申请的技术方案中,所述语义交叉度量特征向量中包含了复杂的语义关系和交互信息。通过使用分类器来对所述语义交叉度量特征向量中高维、非线性的特征进行建模,从而更好地捕捉备选剧本与用户需求之间的复杂匹配关系。也就是,使用分类器在特征空间中划分不同类别,进而将所述语义交叉度量特征向量映射到对应的分类标签中,即所述备选剧本的匹配度达到预定要求和所述备选剧本的匹配度未达到预定要求。这样,能够基于分类结果自动筛选备选剧本,从而提高剧本查询效率和查询效果。
应可以理解,在利用上述神经网络模型之前,需要对所述基于双向长短期记忆神经网络的剧本需求语义编码器、所述基于包含分词模块和词嵌入模块的上下文语义编码器和所述分类器进行训练。也就是说,在本申请的基于自然语言模型的智能匹配方法中,还包括对所述基于双向长短期记忆神经网络的剧本需求语义编码器、所述基于包含分词模块和词嵌入模块的上下文语义编码器和所述分类器进行训练的训练步骤。
图7为根据本申请实施例的基于自然语言模型的智能匹配方法中训练步骤的流程图。如图7所示,所述训练步骤,包括:S210,获取训练数据,所述训练数据包括用户输入的训练查询剧本需求描述、备选剧本内容的训练文本描述,以及,所述备选剧本的匹配度是否达到预定要求的真实值;S220,对所述训练查询剧本需求描述进行语义编码以得到训练查询剧本需求语义特征向量;S230,抽取所述训练查询剧本需求描述中的情感倾向词,并将所述情感倾向词编码为训练情感倾向编码向量;S240,将所述训练情感倾向编码向量和所述训练查询剧本需求语义特征向量进行拼接以得到包含情感倾向信息的训练查询剧本需求语义特征向量;S250,对所述备选剧本内容的训练文本描述通过所述基于包含分词模块和词嵌入模块的上下文语义编码器以得到训练备选剧本上下文语义特征向量的序列;S260,计算所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列中各个训练备选剧本上下文语义特征向量之间的语义交叉度量系数以得到训练语义交叉度量特征向量;S270,将所述训练语义交叉度量特征向量通过分类器以得到分类损失函数值;S280,计算所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列的特定损失函数值;S290,以所述分类损失函数值和所述特定损失函数值的加权和作为损失函数值,来对所述基于双向长短期记忆神经网络的剧本需求语义编码器、所述基于包含分词模块和词嵌入模块的上下文语义编码器和所述分类器进行训练。
在上述技术方案中,所述包含情感倾向信息的训练查询剧本需求语义特征向量表达情感倾向词强化的所述训练查询剧本需求描述的编码文本语义特征,且所述训练备选剧本上下文语义特征向量的序列表达所述训练备选剧本内容的文本描述的基于词源语义上下文关联的编码文本语义特征,而在计算所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列中各个训练备选剧本上下文语义特征向量之间的语义交叉度量系数时,会将所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量转换为相同长度,从而导致所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列在整体特征向量分布维度上的不同特征群密度表示。
但是,在模型训练时,由于是对所述训练查询剧本需求描述和所述训练备选剧本内容的文本描述分别进行语义编码,因此所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列的不同特征群密度表示会导致编码分支之间的迭代不均衡,影响模型的整体训练效率。
因此,在本申请的技术方案中,为了提升所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列的特征群密度表示一致性,从而进一步引入了针对所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列的特定损失函数。
具体地,所述步骤S280,包括:以如下特定损失函数值计算公式来计算所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列的特定损失函数值;其中,所述特定损失函数值计算公式为:
;
V1是所述包含情感倾向信息的训练查询剧本需求语义特征向量通过插值转换为与所述训练备选剧本上下文语义特征向量的序列相同长度得到的第一特征向量, V2是所述训练备选剧本上下文语义特征向量的序列级联得到的第二特征向量,L是特征向量的长度,表示指数函数运算,且/>表示向量的二范数的平方,/>和/>是所述第一特征向量和所述第二特征向量的特征值,/>表示按位置相减,/>表示所述特定损失函数值。
这里,所述损失函数基于特征群密度来进行群计数注意力,其通过将群计数作为输出特征群密度的递归映射,来进行所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列之间的不同密度表示模式的自适应注意力。通过以其作为损失函数训练模型,可以使得模型针对所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列的特征分布下的不同密度模式来避免过估计和欠估计,并学习特征值分布与群密度分布之间的对应关系,从而实现具有不同特征密度的所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列之间的特征群密度表示一致性优化,以提升模型的整体训练效率。
综上,根据本申请实施例的基于自然语言模型的智能匹配方法被阐明,其采用基于深度学习的自然语言处理技术来分析用户输入的剧本需求描述和备选剧本内容的文本描述之间的语义交叉关联特征,进而来判断备选剧本与用户需求的匹配度是否达到预定要求。这样,能够更准确地理解用户需求,提高查询效果,从而提升整体的用户体验和服务质量。
图8为根据本申请实施例的基于自然语言模型的智能匹配系统的框图。如图8所示,根据本申请实施例的基于自然语言模型的智能匹配系统100,包括:用户需求获取模块110,用于获取用户输入的查询剧本需求描述;备选剧本内容获取模块120,用于获取备选剧本内容的文本描述;用户需求语义理解模块130,用于对所述查询剧本需求描述进行语义理解和情感分析以得到包含情感倾向信息的查询剧本需求语义特征向量;备选剧本内容语义编码模块140,用于对所述备选剧本内容的文本描述进行语义编码和语义分析以得到备选剧本上下文语义特征向量的序列;备选剧本匹配度判定模块150,用于基于所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列之间的语义度量度,确定所述备选剧本的匹配度是否达到预定要求。
这里,本领域技术人员可以理解,上述基于自然语言模型的智能匹配系统中的各个模块的具体操作已经在上面参考图1到图7的基于自然语言模型的智能匹配方法的描述中得到了详细介绍,并因此,将省略其重复描述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。在本发明所提供的几个实施例中,应该理解到,所揭露的设备,系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元也可以由一个单元通过软件或者硬件来实现。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于自然语言模型的智能匹配方法,其特征在于,包括:
获取用户输入的查询剧本需求描述;
获取备选剧本内容的文本描述;
对所述查询剧本需求描述进行语义理解和情感分析以得到包含情感倾向信息的查询剧本需求语义特征向量;
对所述备选剧本内容的文本描述进行语义编码和语义分析以得到备选剧本上下文语义特征向量的序列;
基于所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列之间的语义度量度,确定所述备选剧本的匹配度是否达到预定要求。
2.根据权利要求1所述的基于自然语言模型的智能匹配方法,其特征在于,对所述查询剧本需求描述进行语义理解和情感分析以得到包含情感倾向信息的查询剧本需求语义特征向量,包括:
对所述查询剧本需求描述进行语义编码以得到查询剧本需求语义特征向量;
抽取所述查询剧本需求描述中的情感倾向词,并将所述情感倾向词编码为情感倾向编码向量;
将所述情感倾向编码向量和所述查询剧本需求语义特征向量进行拼接以得到所述包含情感倾向信息的查询剧本需求语义特征向量。
3.根据权利要求2所述的基于自然语言模型的智能匹配方法,其特征在于,对所述查询剧本需求描述进行语义编码以得到查询剧本需求语义特征向量,包括:
对所述查询剧本需求描述进行分词处理以得到剧本需求词的序列;
分别对所述剧本需求词的序列中各个剧本需求词进行词嵌入编码以得到剧本需求词嵌入向量的序列;
将所述剧本需求词嵌入向量的序列输入基于双向长短期记忆神经网络的剧本需求语义编码器以得到所述查询剧本需求语义特征向量。
4.根据权利要求3所述的基于自然语言模型的智能匹配方法,其特征在于,对所述备选剧本内容的文本描述进行语义编码和语义分析以得到备选剧本上下文语义特征向量的序列,包括:
对所述备选剧本内容的文本描述通过基于包含分词模块和词嵌入模块的上下文语义编码器以得到所述备选剧本上下文语义特征向量的序列。
5.根据权利要求4所述的基于自然语言模型的智能匹配方法,其特征在于,对所述备选剧本内容的文本描述通过基于包含分词模块和词嵌入模块的上下文语义编码器以得到所述备选剧本上下文语义特征向量的序列,包括:
使用所述上下文语义编码器的分词模块对所述备选剧本内容的文本描述进行分词处理以得到备选剧本词的序列;
使用所述上下文语义编码器的词嵌入模块分别对所述备选剧本词的序列中各个备选剧本词进行词嵌入编码以得到备选剧本词嵌入向量的序列;
使用所述上下文语义编码器的转换器模块对所述备选剧本词嵌入向量的序列进行上下文语义编码以得到所述备选剧本上下文语义特征向量的序列。
6.根据权利要求5所述的基于自然语言模型的智能匹配方法,其特征在于,基于所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列之间的语义度量度,确定所述备选剧本的匹配度是否达到预定要求,包括:
计算所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列中各个备选剧本上下文语义特征向量之间的语义交叉度量系数以得到语义交叉度量特征向量;
将所述语义交叉度量特征向量通过分类器以得到分类结果,所述分类结果用于表示所述备选剧本的匹配度是否达到预定要求。
7.根据权利要求6所述的基于自然语言模型的智能匹配方法,其特征在于,计算所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列中各个备选剧本上下文语义特征向量之间的语义交叉度量系数以得到语义交叉度量特征向量,包括:
以如下语义交叉度量公式来计算所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列中各个备选剧本上下文语义特征向量之间的语义交叉度量系数以得到由多个所述语义交叉度量系数构成的所述语义交叉度量特征向量;其中,所述语义交叉度量公式为:
其中,为所述包含情感倾向信息的查询剧本需求语义特征向量,/>为各个所述备选剧本上下文语义特征向量,N为所述包含情感倾向信息的查询剧本需求语义特征向量的维度,/>为所述语义交叉度量系数,log表示以2为底的对数函数运算。
8.根据权利要求7所述的基于自然语言模型的智能匹配方法,其特征在于,还包括训练步骤:对所述基于双向长短期记忆神经网络的剧本需求语义编码器、所述基于包含分词模块和词嵌入模块的上下文语义编码器和所述分类器进行训练。
9.根据权利要求8所述的基于自然语言模型的智能匹配方法,其特征在于,所述训练步骤,包括:
获取训练数据,所述训练数据包括用户输入的训练查询剧本需求描述、备选剧本内容的训练文本描述,以及,所述备选剧本的匹配度是否达到预定要求的真实值;
对所述训练查询剧本需求描述进行语义编码以得到训练查询剧本需求语义特征向量;
抽取所述训练查询剧本需求描述中的情感倾向词,并将所述情感倾向词编码为训练情感倾向编码向量;
将所述训练情感倾向编码向量和所述训练查询剧本需求语义特征向量进行拼接以得到包含情感倾向信息的训练查询剧本需求语义特征向量;
对所述备选剧本内容的训练文本描述通过所述基于包含分词模块和词嵌入模块的上下文语义编码器以得到训练备选剧本上下文语义特征向量的序列;
计算所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列中各个训练备选剧本上下文语义特征向量之间的语义交叉度量系数以得到训练语义交叉度量特征向量;
将所述训练语义交叉度量特征向量通过分类器以得到分类损失函数值;
计算所述包含情感倾向信息的训练查询剧本需求语义特征向量和所述训练备选剧本上下文语义特征向量的序列的特定损失函数值;
以所述分类损失函数值和所述特定损失函数值的加权和作为损失函数值,来对所述基于双向长短期记忆神经网络的剧本需求语义编码器、所述基于包含分词模块和词嵌入模块的上下文语义编码器和所述分类器进行训练。
10.一种基于自然语言模型的智能匹配系统,其特征在于,包括:
用户需求获取模块,用于获取用户输入的查询剧本需求描述;
备选剧本内容获取模块,用于获取备选剧本内容的文本描述;
用户需求语义理解模块,用于对所述查询剧本需求描述进行语义理解和情感分析以得到包含情感倾向信息的查询剧本需求语义特征向量;
备选剧本内容语义编码模块,用于对所述备选剧本内容的文本描述进行语义编码和语义分析以得到备选剧本上下文语义特征向量的序列;
备选剧本匹配度判定模块,用于基于所述包含情感倾向信息的查询剧本需求语义特征向量和所述备选剧本上下文语义特征向量的序列之间的语义度量度,确定所述备选剧本的匹配度是否达到预定要求。
CN202410014474.5A 2024-01-05 2024-01-05 基于自然语言模型的智能匹配系统及方法 Active CN117521652B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410014474.5A CN117521652B (zh) 2024-01-05 2024-01-05 基于自然语言模型的智能匹配系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410014474.5A CN117521652B (zh) 2024-01-05 2024-01-05 基于自然语言模型的智能匹配系统及方法

Publications (2)

Publication Number Publication Date
CN117521652A true CN117521652A (zh) 2024-02-06
CN117521652B CN117521652B (zh) 2024-04-12

Family

ID=89766845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410014474.5A Active CN117521652B (zh) 2024-01-05 2024-01-05 基于自然语言模型的智能匹配系统及方法

Country Status (1)

Country Link
CN (1) CN117521652B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019080864A1 (zh) * 2017-10-27 2019-05-02 阿里巴巴集团控股有限公司 一种文本语义编码方法及装置
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models
WO2022141861A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 情感分类方法、装置、电子设备及存储介质
CN115630145A (zh) * 2022-09-26 2023-01-20 中国科学院信息工程研究所 一种基于多粒度情感的对话推荐方法及系统
WO2023051284A1 (zh) * 2021-09-28 2023-04-06 北京有竹居网络技术有限公司 自然语言处理的方法和产品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019080864A1 (zh) * 2017-10-27 2019-05-02 阿里巴巴集团控股有限公司 一种文本语义编码方法及装置
WO2022141861A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 情感分类方法、装置、电子设备及存储介质
US11194972B1 (en) * 2021-02-19 2021-12-07 Institute Of Automation, Chinese Academy Of Sciences Semantic sentiment analysis method fusing in-depth features and time sequence models
WO2023051284A1 (zh) * 2021-09-28 2023-04-06 北京有竹居网络技术有限公司 自然语言处理的方法和产品
CN115630145A (zh) * 2022-09-26 2023-01-20 中国科学院信息工程研究所 一种基于多粒度情感的对话推荐方法及系统

Also Published As

Publication number Publication date
CN117521652B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN110597961B (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN111026861B (zh) 文本摘要的生成方法、训练方法、装置、设备及介质
CN111324769A (zh) 视频信息处理模型的训练方法、视频信息处理方法及装置
CN110309514A (zh) 一种语义识别方法及装置
CN112417092B (zh) 基于深度学习的智能化文本自动生成系统及其实现方法
CN111464881B (zh) 基于自优化机制的全卷积视频描述生成方法
CN111259647A (zh) 基于人工智能的问答文本匹配方法、装置、介质及电子设备
CN115204143A (zh) 一种基于prompt的文本相似度计算方法及系统
CN114049501B (zh) 融合集束搜索的图像描述生成方法、系统、介质及设备
CN115114974A (zh) 一种模型蒸馏方法、装置、计算机设备和存储介质
CN114239730A (zh) 一种基于近邻排序关系的跨模态检索方法
CN116127080A (zh) 描述对象的属性值提取方法及相关设备
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN116579345B (zh) 命名实体识别模型的训练方法、命名实体识别方法及装置
CN113407776A (zh) 标签推荐方法、装置、标签推荐模型的训练方法和介质
CN117521652B (zh) 基于自然语言模型的智能匹配系统及方法
CN110287799B (zh) 基于深度学习的视频ucl语义标引方法与装置
CN115186085A (zh) 回复内容处理方法以及媒体内容互动内容的交互方法
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN114842301A (zh) 一种图像注释模型的半监督训练方法
CN114595370A (zh) 模型训练、排序方法、装置、电子设备及存储介质
CN115906838A (zh) 文本抽取方法、装置、电子设备以及存储介质
CN110969187A (zh) 一种图谱迁移的语义分析方法
CN113837910B (zh) 试题推荐方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant