CN109977203B - 语句相似度确定方法、装置、电子设备及可读存储介质 - Google Patents

语句相似度确定方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN109977203B
CN109977203B CN201910172427.2A CN201910172427A CN109977203B CN 109977203 B CN109977203 B CN 109977203B CN 201910172427 A CN201910172427 A CN 201910172427A CN 109977203 B CN109977203 B CN 109977203B
Authority
CN
China
Prior art keywords
sample
feature vector
vocabulary
semantic feature
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910172427.2A
Other languages
English (en)
Other versions
CN109977203A (zh
Inventor
韩亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiuhu Times Intelligent Technology Co ltd
Original Assignee
Beijing Jiuhu Times Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiuhu Times Intelligent Technology Co ltd filed Critical Beijing Jiuhu Times Intelligent Technology Co ltd
Priority to CN201910172427.2A priority Critical patent/CN109977203B/zh
Publication of CN109977203A publication Critical patent/CN109977203A/zh
Application granted granted Critical
Publication of CN109977203B publication Critical patent/CN109977203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种语句相似度确定方法、装置、电子设备及可读存储介质,该方法包括:确定输入语句中与各个第一词汇对应的第一语义特征向量及各个第一语义特征向量的第一权重,并确定标准语句中与各个第二词汇分别对应的第二语义特征向量及各个第二语义特征向量的第二权重,并基于第一语义特征向量、第一权重、第二语义特征向量和第二权重计算输入语句和标准语句之间的相似度。本申请通过第一权重和第二权重表征相隔距离较远的词汇在语义上的依赖关系,从而确定输入语句和标准语句之间的相似度,提高了语句相似度确定的准确度,减少智能语句应答过程中所答非所问的情况,提升智能语句应答的准确度。

Description

语句相似度确定方法、装置、电子设备及可读存储介质
技术领域
本申请涉及智能应答技术领域,尤其是涉及一种语句相似度确定方法、装置、电子设备及可读存储介质。
背景技术
在金融、购物等领域中,智能语句应答具有重要而广泛的应用价值。传统的方法是通过人工进行知识检索和解答,人工解答成本高且质量难以控制,因此智能语句应答势在必行。
语句相似度确定正是智能语句应答中最重要的一环,现有的语句相似度确定方法,仅按照输入语句和标准语句的语序依次对每个输入语句和标准语句中的每个词汇进行分析,进行语义特征的提取。然而在自然语言中,相隔距离较远的词汇之间在语义上也具备相互依赖关系,因此,现有的语句相似度确定方法,语句相似度确定的准确度不高,造成智能语句应答过程中存在所答非所问的情况,影响用户的感受度。
发明内容
有鉴于此,本申请的目的在于提供一种语句相似度确定方法、装置、电子设备及可读存储介质,提高语句相似度确定的准确度,进而减少智能语句应答过程中存在所答非所问的情况,提升智能语句应答过程中的准确度。
第一方面,本申请实施例提供了一种语句相似度确定方法,包括:
基于输入语句中各个第一词汇的第一词汇特征向量,确定与各个第一词汇对应的第一语义特征向量;以及,基于标准语句中各个第二词汇的第二词汇特征向量,确定与各个第二词汇分别对应的第二语义特征向量;
基于各个第一词汇对应的第一语义特征向量,确定各个第一语义特征向量对应的第一权重;以及基于各个第二词汇对应的第二语义特征向量,确定各个第二语义特征向量对应的第二权重;
根据所述第一语义特征向量和每个所述第一语义特征向量对应的第一权重,以及所述第二语义特征向量和每个所述第二语义特征向量对应的第二权重,计算所述输入语句和所述标准语句之间的相似度。
一种可能的实施方式中,所述基于输入语句中各个第一词汇的第一词汇特征向量,确定与各个第一词汇对应的第一语义特征向量,包括:
按照各个所述第一词汇在所述输入语句中的先后位置,将各个所述第一词汇对应的第一词汇特征向量构成第一词汇特征向量序列;
将所述第一词汇特征向量序列输入至预先训练的第一神经网络中,获取与各个第一词汇特征向量对应的第一语义特征向量;
所述基于标准语句中各个第二词汇的第二词汇特征向量,确定与各个第二词汇分别对应的第二语义特征向量,包括:
按照各个所述第二词汇在所述标准语句中的先后位置,将各个所述第二词汇对应的第二词汇特征向量构成第二词汇特征向量序列;
将所述第二词汇特征向量序列输入至预先训练的第二神经网络中,获取与各个第二词汇特征向量对应的第二语义特征向量。
一种可能的实施方式中,所述基于各个第一词汇对应的第一语义特征向量,确定各个第一语义特征向量对应的第一权重,包括:
针对每个第一词汇对应的第一语义特征向量,基于该第一语义特征向量与其他各个第一词汇对应的第一语义特征向量之间的相似度,确定该第一语义特征向量的第一权重;
所述基于各个第二词汇对应的第二语义特征向量,确定各个第二语义特征向量对应的第二权重,包括:
针对每个第二词汇对应的第二语义特征向量,基于该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度,确定该第二语义特征向量的第二权重。
一种可能的实施方式中,所述基于该第一语义特征向量与其他第一词汇对应的第一语义特征向量之间的相似度,确定该第一语义特征向量的第一权重,包括:
对该第一语义特征向量与其他各个第一词汇对应的第一语义特征向量之间的相似度求和,得到该第一语义特征向量的第一权重;
所述基于该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度,确定该第二语义特征向量的第二权重,包括:
对该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度求和,得到该第二语义特征向量的第二权重。
一种可能的实施方式中,所述根据所述第一语义特征向量和每个所述第一语义特征向量对应的第一权重,以及所述第二语义特征向量和每个所述第二语义特征向量对应的第二权重,计算所述输入语句和所述标准语句之间的相似度,包括:
根据所述第一语义特征向量以及对应的第一权重,得到第一变换特征向量;以及根据所述第二语义特征向量以及对应的第二权重,得到第二变换特征向量;
基于所述第一变换特征向量以及所述第二变换特征向量,计算所述输入语句和所述标准语句之间的相似度。
一种可能的实施方式中,采用下述方式训练所述第一神经网络以及第二神经网络:
获取样本输入语句中各个第一样本词汇的第一样本词汇特征向量,以及获取样本标准语句中各个第二样本词汇的第二样本词汇特征向量;
按照各个所述第一样本词汇在所述样本输入语句中的先后位置,将各个所述第一样本词汇对应的第一样本词汇特征向量构成第一样本词汇特征向量序列;以及按照各个所述第二样本词汇在所述样本标准语句中的先后位置,将各个所述第二样本词汇对应的第二样本词汇特征向量构成第二样本词汇特征向量序列;
将所述第一样本词汇特征向量序列输入至第一神经网络中,获取与各个第一样本词汇特征向量对应的第一样本语义特征向量;以及将所述第二样本词汇特征向量序列输入至第二神经网络中,获取与各个第二样本词汇特征向量对应的第二样本语义特征向量;
基于各个第一样本词汇对应的第一样本语义特征向量,确定各个第一样本语义特征向量对应的第一样本权重;以及基于各个第二样本词汇对应的第二样本语义特征向量,确定各个第二样本语义特征向量对应的第二样本权重;
根据所述第一样本语义特征向量和每个所述第一样本语义特征向量对应的第一样本权重,以及所述第二样本语义特征向量和每个所述第二样本语义特征向量对应的第二样本权重,计算所述样本输入语句和所述样本标准语句之间的检测相似度;
根据所述样本输入语句和所述样本标准语句之间的检测相似度,以及实际相似度,联合训练所述第一神经网络以及所述第二神经网络。
第二方面,本申请实施例还提供一种语句相似度确定装置,包括:
特征提取模块,用于基于输入语句中各个第一词汇的第一词汇特征向量,确定与各个第一词汇对应的第一语义特征向量;以及,基于标准语句中各个第二词汇的第二词汇特征向量,确定与各个第二词汇分别对应的第二语义特征向量;
权重计算模块,用于基于各个第一词汇对应的第一语义特征向量,确定各个第一语义特征向量对应的第一权重;以及基于各个第二词汇对应的第二语义特征向量,确定各个第二语义特征向量对应的第二权重;
相似度计算模块,用于根据所述第一语义特征向量和每个所述第一语义特征向量对应的第一权重,以及所述第二语义特征向量和每个所述第二语义特征向量对应的第二权重,计算所述输入语句和所述标准语句之间的相似度。
一种可能的实施方式中,所述特征提取模块,还用于:
按照各个所述第一词汇在所述输入语句中的先后位置,将各个所述第一词汇对应的第一词汇特征向量构成第一词汇特征向量序列;
将所述第一词汇特征向量序列输入至预先训练的第一神经网络中,获取与各个第一词汇特征向量对应的第一语义特征向量;
所述特征提取模块,还用于:
按照各个所述第二词汇在所述标准语句中的先后位置,将各个所述第二词汇对应的第二词汇特征向量构成第二词汇特征向量序列;
将所述第二词汇特征向量序列输入至预先训练的第二神经网络中,获取与各个第二词汇特征向量对应的第二语义特征向量。
一种可能的实施方式中,所述权重计算模块,还用于:
针对每个第一词汇对应的第一语义特征向量,基于该第一语义特征向量与其他各个第一词汇对应的第一语义特征向量之间的相似度,确定该第一语义特征向量的第一权重;
所述权重计算模块,还用于:
针对每个第二词汇对应的第二语义特征向量,基于该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度,确定该第二语义特征向量的第二权重。
一种可能的实施方式中,所述权重计算模块,还用于:
对该第一语义特征向量与其他各个第一词汇对应的第一语义特征向量之间的相似度求和,得到该第一语义特征向量的第一权重;
所述权重计算模块,还用于:
对该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度求和,得到该第二语义特征向量的第二权重。
一种可能的实施方式中,所述相似度计算模块,还用于:
根据所述第一语义特征向量以及对应的第一权重,得到第一变换特征向量;以及
根据所述第二语义特征向量以及对应的第二权重,得到第二变换特征向量;
基于所述第一变换特征向量以及所述第二变换特征向量,计算所述输入语句和所述标准语句之间的相似度。
一种可能的实施方式中,所述装置还包括,训练模块,用于:
获取样本输入语句中各个第一样本词汇的第一样本词汇特征向量,以及获取样本标准语句中各个第二样本词汇的第二样本词汇特征向量;
按照各个所述第一样本词汇在所述样本输入语句中的先后位置,将各个所述第一样本词汇对应的第一样本词汇特征向量构成第一样本词汇特征向量序列;以及
按照各个所述第二样本词汇在所述样本标准语句中的先后位置,将各个所述第二样本词汇对应的第二样本词汇特征向量构成第二样本词汇特征向量序列;
将所述第一样本词汇特征向量序列输入至第一神经网络中,获取与各个第一样本词汇特征向量对应的第一样本语义特征向量;以及将所述第二样本词汇特征向量序列输入至第二神经网络中,获取与各个第二样本词汇特征向量对应的第二样本语义特征向量;
基于各个第一样本词汇对应的第一样本语义特征向量,确定各个第一样本语义特征向量对应的第一样本权重;以及基于各个第二样本词汇对应的第二样本语义特征向量,确定各个第二样本语义特征向量对应的第二样本权重;
根据所述第一样本语义特征向量和每个所述第一样本语义特征向量对应的第一样本权重,以及所述第二样本语义特征向量和每个所述第二样本语义特征向量对应的第二样本权重,计算所述样本输入语句和所述样本标准语句之间的检测相似度;
根据所述样本输入语句和所述样本标准语句之间的检测相似度,以及实际相似度,联合训练所述第一神经网络以及所述第二神经网络。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面或第一方面中任一种可能的实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中的步骤。
本申请实施例在基于确定输入语句中各个第一词汇对应的第一语义特征向量和标准语句中各个第二词汇对应的第二语义特征向量之后,确定各个第一语义特征向量对应的第一权重和各个第二语义特征向量对应的第二权重,利用上述第一权重、上述第二权重、第一语义特征向量和第二语义特征向量计算输入语句和标准语句之间的相似度。在该过程中,通过第一权重和第二权重表征相隔距离较远的词汇在语义上的依赖关系,从而确定输入语句和标准语句之间的相似度,提高了语句相似度确定的准确度,减少智能语句应答过程中所答非所问的情况,提升智能语句应答的准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种语句相似度确定方法的流程图;
图2示出了本申请实施例所提供的一种语句相似度确定装置的结构示意图;
图3示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在金融、购物等领域中,智能语句应答具有重要而广泛的应用价值。传统的方法是通过人工进行知识检索和解答,人工解答成本高且质量难以控制,因此智能语句应答势在必行。
在进行智能语句应答时,从以往使用人工客服人员进行客户咨询,记录的海量问题的语料中,选出具有代表性的历史输入语句,并基于历史输入语句生成标准语句,制作成问题语料库,并针对问题语料库制作出存储有与每个标准语句对应的应答语句的问题解答知识库。当客户端获取一条输入语句以后,根据输入语句和问题语料库中存储的标准语句进行语句相似度的确定,在问题语料库中存储的标准语句中选出与输入语句最相似的目标标准语句,并从问题解答知识库中获取目标标准语句对应的应答语句返回给客户端,从而完成一次智能语句应答。
语句相似度确定正是智能语句应答中最重要的一环,现有的语句相似度确定方法,仅按照输入语句和标准语句的语序依次对每个输入语句和标准语句中的每个词汇进行分析,进行语义特征的提取。然而在自然语言中,相隔距离较远的词汇之间在语义上也具备相互依赖关系,因此,现有的语句相似度确定方法,语句相似度确定的准确度不高,造成智能语句应答的可行性和准确度均较低。
基于此,本申请实施例在基于确定输入语句中各个第一词汇对应的第一语义特征向量和标准语句中各个第二词汇对应的第二语义特征向量之后,确定各个第一语义特征向量对应的第一权重和各个第二语义特征向量对应的第二权重,利用上述第一权重、上述第二权重、第一语义特征向量和第二语义特征向量计算输入语句和标准语句之间的相似度。在该过程中,第一权重和第二权重分别表征了输入语句和标准语句中,相隔距离较远的词汇在语义上的依赖关系,与现有技术相比,提高了语句相似度确定的准确度,减少智能语句应答过程中所答非所问的情况,提升智能语句应答的准确度。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种语句相似度确定方法进行详细介绍。
实施例一
如图1所示,是本申请实施例一提供的一种语句相似度确定方法,包括:
S101:基于输入语句中各个第一词汇的第一词汇特征向量,确定与各个第一词汇对应的第一语义特征向量;以及,基于标准语句中各个第二词汇的第二词汇特征向量,确定与各个第二词汇分别对应的第二语义特征向量。
在具体实施过程中,客户端获取输入语句,并对输入语句进行预处理,在构建存储有标准语句的问题语料库时,也需要对历史输入语句进行预处理。以构建存储有标准语句的问题语料库时为例,在获取历史输入语句之后,需要首先加载外部数据。
在构建存储有标准语句的问题语料库时,需要使用到的外部数据,包括:
a:用于对历史输入语句进行分词的停用词表。
b:用于对历史输入语句进行分词的自定义字典,示例性的,为了更准确地进行分词,自定义字典中包括多个自定义词汇。示例性的,包括本申请实施例应用的领域内的大部分公司以及产品的名称、领域专用词汇等。例如,本申请实施例应用于金融领域内的点对点网络借贷(peer to peer lending,P2P)行业时,自定义字典中添加了P2P行业内大部分公司以及产品名称。此处需要注意的是,当本申请实施例提供的语句相似度确定方法应用于其他领域时,可以根据应用领域的不同确定自定义字典中所包括的自定义词汇。
c:用于纠错及部分同义词替换的规则数据文件。对于客户端获取的输入语句,用于纠错及部分同义词替换的规则数据尤为重要。这是因为,本申请实施例不仅可以应用在文本语句应答系统中,也可以应用在语音语句应答系统中,在应用于语音语句应答系统中时,客户端获取的输入语句为语音信息,首先需要将输入语句的语音信息转换为文本信息,在转换过程中,可能会存在转换错误等情况,因此需要使用规则数据文件进行纠错;例如,在将语音信息转换为本文信息时,存在将读音“你好”转换为“尼豪”、“拟好”、“尼号”等读音相似的词汇的情况,因此要对这部分词汇进行纠错,将其替换为正确的词汇。另外,在文本中可能会存在表述同一涵义的同义词;为了降低计算的复杂度,要将这些同义词转换为一预设的词汇,“你好”和“您好”为同义词,可以将文本中所有的“您好”都替换为“你好”。
d:用于确定语义相似度的训练样本。具体地,本申请实施例使用深度学习模型确定输入语句和标准语句之间的语义相似度,因此需要为深度学习模型准备的外部预训练所需的训练样本。首先,收集历史输入语句文本,之后,专业客服人员对上述历史输入语句文本进行标注,得到训练样本。
针对客户端发来的输入语句进行预处理时,也需要准备停用词词表、自定义字典、规则数据文件等外部数据。
对客户端发来的输入语句进行预处理时,首先加载停用词词表。示例性的,若客户端发来的输入语句的文本长度通常较短,去除过多的停用词会去除输入语句中本应进行分析的语义词汇,所以在具体实施过程中,可以只去除中文标点符号、英文字母以及英文标点符号。
之后,基于自定义字典中所包括的多个自定义词汇,对输入语句进行分词处理。
然后,加载规则数据文件,进行输入语句文本中需要进行纠错的词汇的替换,并进行常用语的替换。
从预处理之后的历史输入语句中,选择有代表性的作为标准语句存储到问题语料库中。在从客户端获取到输入语句之后,对输入语句进行预处理,并使用预处理后的输入语句和问题语料库中的标准语句进行特征提取和相似度确定。
这里,输入语句的第一字符特征信息包括:所述输入语句的字符个数以及字符文本内容;标准语句的第二字符特征信息包括:所述标准语句的字符个数以及字符文本内容。第一字符特征信息和第二字符特征信息分别表征了输入语句和标准语句的文本特征。
此外,还需要获取第一词汇特征向量和第二词汇特征向量,在具体实施过程中,可以使用神经网络,例如Keras模型、word2vec模型等,从输入语句中获取每个词汇的第一词汇特征向量,或从标准语句中获取每个词汇的第二词汇特征向量。具体的,可以使用问题语料库中的标准语句来生成内部的标记词典(token词典),并且同时使用内部的token词典和外部的自定义词典对神经网络进行训练,使用训练后得到的神经网络对输入语句或标准语句进行分析,对输入语句或标准语句进行分词,并得到输入语句中每个第一词汇的第一词汇特征向量和标准语句中每个第二词汇的第二词汇特征向量。
获取输入语句中每个第一词汇的第一词汇特征向量和标准语句中每个第二词汇的第二词汇特征向量之后,按照各个所述第一词汇在所述输入语句中的先后位置,将各个所述第一词汇对应的第一词汇特征向量构成第一词汇特征向量序列;将所述第一词汇特征向量序列输入至预先训练的第一神经网络中,获取与各个第一词汇特征向量对应的第一语义特征向量;并且按照各个所述第二词汇在所述标准语句中的先后位置,将各个所述第二词汇对应的第二词汇特征向量构成第二词汇特征向量序列;将所述第二词汇特征向量序列输入至预先训练的第二神经网络中,获取与各个第二词汇特征向量对应的第二语义特征向量。
具体地,将所述第一词汇特征向量序列依次输入至预先训练的第一神经网络中,每次输入的第一神经网络,均获取前一次输入的第一神经网络的隐层状态,作为当前输入的第一神经网络的初始状态。第一次输入的第一神经网络的初始状态,可以采用随机的初始状态,也可以采用全零的初始状态。采用上述方式将所述第一词汇特征向量序列依次输入至预先训练的第一神经网络中,获取与各个第一词汇特征向量对应的第一语义特征向量。
同样的,将所述第二词汇特征向量序列依次输入至预先训练的第二神经网络中,每次输入的第二神经网络,均获取前一次输入的第二神经网络的隐层状态,作为当前输入的第二神经网络的初始状态。第一次输入的第二神经网络的初始状态,可以采用随机的初始状态,也可以采用全零的初始状态。采用上述方式将所述第二词汇特征向量序列依次输入至预先训练的第二神经网络中,获取与各个第二词汇特征向量对应的第二语义特征向量。
在具体实施过程中,采用下述方式训练上述第一神经网络以及第二神经网络:
获取样本输入语句中各个第一样本词汇的第一样本词汇特征向量,以及获取样本标准语句中各个第二样本词汇的第二样本词汇特征向量;
按照各个所述第一样本词汇在所述样本输入语句中的先后位置,将各个所述第一样本词汇对应的第一样本词汇特征向量构成第一样本词汇特征向量序列;以及
按照各个所述第二样本词汇在所述样本标准语句中的先后位置,将各个所述第二样本词汇对应的第二样本词汇特征向量构成第二样本词汇特征向量序列;
将所述第一样本词汇特征向量序列输入至第一神经网络中,获取与各个第一样本词汇特征向量对应的第一样本语义特征向量;以及将所述第二样本词汇特征向量序列输入至第二神经网络中,获取与各个第二样本词汇特征向量对应的第二样本语义特征向量;
基于各个第一样本词汇对应的第一样本语义特征向量,确定各个第一样本语义特征向量对应的第一样本权重;以及基于各个第二样本词汇对应的第二样本语义特征向量,确定各个第二样本语义特征向量对应的第二样本权重;
根据所述第一样本语义特征向量和每个所述第一样本语义特征向量对应的第一样本权重,以及所述第二样本语义特征向量和每个所述第二样本语义特征向量对应的第二样本权重,计算所述样本输入语句和所述样本标准语句之间的检测相似度;
根据所述样本输入语句和所述样本标准语句之间的检测相似度,以及实际相似度,联合训练所述第一神经网络以及所述第二神经网络。
示例性的,在进行问题语料库的构建时,就可以利用历史输入语句和基于历史输入语句生成的标准语句,确定样本输入语句和样本标准语句。上述样本输入语句和样本标准语句成对使用,同时获取样本输入语句中各个第一样本词汇的第一样本词汇特征向量,以及获取样本标准语句中各个第二样本词汇的第二样本词汇特征向量,并使用上述各个第一样本词汇的第一样本词汇特征向量和各个第二样本词汇的第二样本词汇特征向量对第一神经网络和第二神经网络进行联合训练,同时调整第一神经网络和第二神经网络中的参数。经过联合训练得到的第一神经网络和第二神经网络,可以更好的提取输入语句和标准语句中的语义特征,从而使输入语句和标准语句的语句相似度计算更加准确。
承接上述S101,在获取第一语义特征向量和第二语义特征向量后,本申请实施例提供的语句相似度确定方法还包括:
S102:基于各个第一词汇对应的第一语义特征向量,确定各个第一语义特征向量对应的第一权重;以及基于各个第二词汇对应的第二语义特征向量,确定各个第二语义特征向量对应的第二权重。
在具体实施中,针对每个第一词汇对应的第一语义特征向量,得到该第一语义特征向量与其他各个第一词汇对应的第一语义特征向量之间的相似度,并对该第一语义特征向量与其他各个第一词汇对应的第一语义特征向量之间的相似度求和,确定该第一语义特征向量的第一权重;以及,针对每个第二词汇对应的第二语义特征向量,得到该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度,并对该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度求和,确定该第二语义特征向量的第二权重。
示例性的,针对各个第一词汇对应的第一语义特征向量,可以采用下述公式基于各个第一词汇对应的第一语义特征向量,确定各个第一语义特征向量对应的第一权重。
Figure BDA0001988512800000151
其中,Q、K、V为所述各个第一词汇对应的第一语义特征向量,分别乘以不同的权重,得到的映射特征向量。dk为调节因子,使用dk做调节因子,可以使得Q和K的内机不至于太大,以免使softmax得到的归一化结果非0即1。通常dk为Q、K或V的向量维度。在具体实施过程中,由于Q、K和V的维度通常相同,所以dk为Q、K或V任一个向量的向量维度。
针对各个第二词汇对应的第二语义特征向量,可以采用相同的公式计算,得到各个第二语义特征向量对应的第二权重。
承接上述S102,在得到第一权重和第二权重之后,本申请实施例提供的语句相似度确定方法还包括:
S103:根据所述第一语义特征向量和每个所述第一语义特征向量对应的第一权重,以及所述第二语义特征向量和每个所述第二语义特征向量对应的第二权重,计算所述输入语句和所述标准语句之间的相似度。
在具体实施中,根据所述第一语义特征向量以及对应的第一权重,得到第一变换特征向量。示例性的,可以针对每个第一词汇对应的第一语义特征向量,使该第一词汇对应的第一语义特征向量乘以该第一语义特征向量对应的第一权重,得到第一变换特征向量。
同样的,具体可以根据所述第二语义特征向量以及对应的第二权重,得到第二变换特征向量。示例性的,可以针对每个第二词汇对应的第二语义特征向量,使该第二词汇对应的第二语义特征向量乘以该第二语义特征向量对应的第二权重,得到第二变换特征向量。
引入各个第一语义特征向量对应的第一权重和各个第二语义特征向量对应的第二权重之后,降低了语句中每个词汇的顺序对语义理解的影响,增强了语句中语义依赖性较强的词汇的权重,降低了语句中语义依赖性较弱的词汇的权重。应用在智能语句应答中增强了对输入语句的理解和应答较为重要的词汇的权重,降低了对输入语句的理解和应答重要性较低的词汇的权重,从而提升智能语句应答的可行性和准确度。
之后,基于所述第一变换特征向量以及所述第二变换特征向量,计算所述输入语句和所述标准语句之间的相似度。
在具体实施过程中,可以使用欧式距离、曼哈顿距离、cosine距离、exp距离等各种向量距离计算方法确定所述输入语句和所述标准语句之间的相似度。也可以使用全连接的第三神经网路或其他第三神经网络,计算所述输入语句和所述标准语句之间的相似度。如果使用第三神经网络计算所述输入语句和所述标准语句之间的相似度,第三神经网络和第一神经网络、第二神经网络也需要联合进行训练,共同调整第一神经网路、第二神经网络和第三神经网络的参数,从而提升语句相似度确定的准确度。
本申请实施例提供的一种语句相似度确定方法,利用第一权重和第二权重分别通过输入语句和标准语句中,相隔距离较远的词汇在语义上的依赖关系,与现有技术相比,提高了语句相似度确定的准确度,减少智能语句应答过程中所答非所问的情况,提升智能语句应答的准确度。
基于相同的技术构思,本申请实施例还提供一种语句相似度确定装置、电子设备、以及计算机存储介质等,具体可参见以下实施例。
实施例二
如图2所示,本申请实施例二还提供一种语句相似度确定装置200,包括:
特征提取模块201,用于基于输入语句中各个第一词汇的第一词汇特征向量,确定与各个第一词汇对应的第一语义特征向量;以及,基于标准语句中各个第二词汇的第二词汇特征向量,确定与各个第二词汇分别对应的第二语义特征向量;
权重计算模块202,用于基于各个第一词汇对应的第一语义特征向量,确定各个第一语义特征向量对应的第一权重;以及基于各个第二词汇对应的第二语义特征向量,确定各个第二语义特征向量对应的第二权重;
相似度计算模块203,用于根据所述第一语义特征向量和每个所述第一语义特征向量对应的第一权重,以及所述第二语义特征向量和每个所述第二语义特征向量对应的第二权重,计算所述输入语句和所述标准语句之间的相似度。
本申请实施例提供的一种语句相似度确定装置200,利用第一权重和第二权重分别表征输入语句和标准语句中,相隔距离较远的词汇在语义上的依赖关系,从而确定输入语句和标准语句之间的相似度,提高了语句相似度确定的准确度,减少智能语句应答过程中所答非所问的情况,提升智能语句应答的准确度。
一种可能的实施方式中,所述特征提取模块201,还用于:
按照各个所述第一词汇在所述输入语句中的先后位置,将各个所述第一词汇对应的第一词汇特征向量构成第一词汇特征向量序列;
将所述第一词汇特征向量序列输入至预先训练的第一神经网络中,获取与各个第一词汇特征向量对应的第一语义特征向量;
所述特征提取模块201,还用于:
按照各个所述第二词汇在所述标准语句中的先后位置,将各个所述第二词汇对应的第二词汇特征向量构成第二词汇特征向量序列;
将所述第二词汇特征向量序列输入至预先训练的第二神经网络中,获取与各个第二词汇特征向量对应的第二语义特征向量。
一种可能的实施方式中,所述权重计算模块202,还用于:
针对每个第一词汇对应的第一语义特征向量,基于该第一语义特征向量与其他各个第一词汇对应的第一语义特征向量之间的相似度,确定该第一语义特征向量的第一权重;
所述权重计算模块202,还用于:
针对每个第二词汇对应的第二语义特征向量,基于该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度,确定该第二语义特征向量的第二权重。
一种可能的实施方式中,所述权重计算模块202,还用于:
对该第一语义特征向量与其他各个第一词汇对应的第一语义特征向量之间的相似度求和,得到该第一语义特征向量的第一权重;
所述权重计算模块202,还用于:
对该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度求和,得到该第二语义特征向量的第二权重。
一种可能的实施方式中,所述相似度计算模块203,还用于:
根据所述第一语义特征向量以及对应的第一权重,得到第一变换特征向量;以及
根据所述第二语义特征向量以及对应的第二权重,得到第二变换特征向量;
基于所述第一变换特征向量以及所述第二变换特征向量,计算所述输入语句和所述标准语句之间的相似度。
一种可能的实施方式中,所述方法还包括,训练模块204,用于:
获取样本输入语句中各个第一样本词汇的第一样本词汇特征向量,以及获取样本标准语句中各个第二样本词汇的第二样本词汇特征向量;
按照各个所述第一样本词汇在所述样本输入语句中的先后位置,将各个所述第一样本词汇对应的第一样本词汇特征向量构成第一样本词汇特征向量序列;以及
按照各个所述第二样本词汇在所述样本标准语句中的先后位置,将各个所述第二样本词汇对应的第二样本词汇特征向量构成第二样本词汇特征向量序列;
将所述第一样本词汇特征向量序列输入至第一神经网络中,获取与各个第一样本词汇特征向量对应的第一样本语义特征向量;以及将所述第二样本词汇特征向量序列输入至第二神经网络中,获取与各个第二样本词汇特征向量对应的第二样本语义特征向量;
基于各个第一样本词汇对应的第一样本语义特征向量,确定各个第一样本语义特征向量对应的第一样本权重;以及基于各个第二样本词汇对应的第二样本语义特征向量,确定各个第二样本语义特征向量对应的第二样本权重;
根据所述第一样本语义特征向量和每个所述第一样本语义特征向量对应的第一样本权重,以及所述第二样本语义特征向量和每个所述第二样本语义特征向量对应的第二样本权重,计算所述样本输入语句和所述样本标准语句之间的检测相似度;
根据所述样本输入语句和所述样本标准语句之间的检测相似度,以及实际相似度,联合训练所述第一神经网络以及所述第二神经网络。
实施例三
参照图3所示,本申请实施例三提供的电子设备300,包括处理器301、存储器302、和总线303。
所述存储器302存储有所述处理器301可执行的机器可读指令(比如,图2中的特征提取模块201、权重计算模块202以及相似度计算模块203对应的执行指令等),当电子设备300运行时,所述处理器301与所述存储器302之间通过总线303通信,所述机器可读指令被所述处理器301执行时执行如下处理:
基于输入语句中各个第一词汇的第一词汇特征向量,确定与各个第一词汇对应的第一语义特征向量;以及,基于标准语句中各个第二词汇的第二词汇特征向量,确定与各个第二词汇分别对应的第二语义特征向量;
基于各个第一词汇对应的第一语义特征向量,确定各个第一语义特征向量对应的第一权重;以及基于各个第二词汇对应的第二语义特征向量,确定各个第二语义特征向量对应的第二权重;
根据所述第一语义特征向量和每个所述第一语义特征向量对应的第一权重,以及所述第二语义特征向量和每个所述第二语义特征向量对应的第二权重,计算所述输入语句和所述标准语句之间的相似度。
其中,处理器301的具体处理流程可以参照上述实施例一的记载,这里不再赘述。
本申请实施例提供的一种电子设备,利用各个第一语义特征向量对应的第一权重和各个第二语义特征向量对应的第二权重,分别通过输入语句和标准语句中,相隔距离较远的词汇在语义上的依赖关系,提高了语句相似度确定的准确度,进而提升了智能语句应答的可行性和准确度。
实施例四
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行实施例一中的语句相似度确定方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述语句相似度确定方法,能够提取相隔距离较远的词汇在语义上的依赖关系,提高了语句相似度确定的准确度,进而提升了智能语句应答的可行性和准确度。
本申请实施例所提供的进行语句相似度确定方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (12)

1.一种语句相似度确定方法,其特征在于,包括:
基于输入语句中各个第一词汇的第一词汇特征向量,确定与各个第一词汇对应的第一语义特征向量;以及,基于标准语句中各个第二词汇的第二词汇特征向量,确定与各个第二词汇分别对应的第二语义特征向量;
基于各个第一词汇对应的第一语义特征向量,确定各个第一语义特征向量对应的第一权重;以及基于各个第二词汇对应的第二语义特征向量,确定各个第二语义特征向量对应的第二权重;
根据所述第一语义特征向量和每个所述第一语义特征向量对应的第一权重,以及所述第二语义特征向量和每个所述第二语义特征向量对应的第二权重,计算所述输入语句和所述标准语句之间的相似度;
所述基于各个第一词汇对应的第一语义特征向量,确定各个第一语义特征向量对应的第一权重,包括:
针对每个第一词汇对应的第一语义特征向量,基于该第一语义特征向量与其他各个第一词汇对应的第一语义特征向量之间的相似度,确定该第一语义特征向量的第一权重;
所述基于各个第二词汇对应的第二语义特征向量,确定各个第二语义特征向量对应的第二权重,包括:
针对每个第二词汇对应的第二语义特征向量,基于该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度,确定该第二语义特征向量的第二权重。
2.根据权利要求1所述的方法,其特征在于,所述基于输入语句中各个第一词汇的第一词汇特征向量,确定与各个第一词汇对应的第一语义特征向量,包括:
按照各个所述第一词汇在所述输入语句中的先后位置,将各个所述第一词汇对应的第一词汇特征向量构成第一词汇特征向量序列;
将所述第一词汇特征向量序列输入至预先训练的第一神经网络中,获取与各个第一词汇特征向量对应的第一语义特征向量;
所述基于标准语句中各个第二词汇的第二词汇特征向量,确定与各个第二词汇分别对应的第二语义特征向量,包括:
按照各个所述第二词汇在所述标准语句中的先后位置,将各个所述第二词汇对应的第二词汇特征向量构成第二词汇特征向量序列;
将所述第二词汇特征向量序列输入至预先训练的第二神经网络中,获取与各个第二词汇特征向量对应的第二语义特征向量。
3.根据权利要求1所述的方法,其特征在于,所述基于该第一语义特征向量与其他第一词汇对应的第一语义特征向量之间的相似度,确定该第一语义特征向量的第一权重,包括:
对该第一语义特征向量与其他各个第一词汇对应的第一语义特征向量之间的相似度求和,得到该第一语义特征向量的第一权重;
所述基于该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度,确定该第二语义特征向量的第二权重,包括:
对该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度求和,得到该第二语义特征向量的第二权重。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一语义特征向量和每个所述第一语义特征向量对应的第一权重,以及所述第二语义特征向量和每个所述第二语义特征向量对应的第二权重,计算所述输入语句和所述标准语句之间的相似度,包括:
根据所述第一语义特征向量以及对应的第一权重,得到第一变换特征向量;以及
根据所述第二语义特征向量以及对应的第二权重,得到第二变换特征向量;
基于所述第一变换特征向量以及所述第二变换特征向量,计算所述输入语句和所述标准语句之间的相似度。
5.根据权利要求2所述的方法,其特征在于,采用下述方式训练所述第一神经网络以及第二神经网络:
获取样本输入语句中各个第一样本词汇的第一样本词汇特征向量,以及获取样本标准语句中各个第二样本词汇的第二样本词汇特征向量;
按照各个所述第一样本词汇在所述样本输入语句中的先后位置,将各个所述第一样本词汇对应的第一样本词汇特征向量构成第一样本词汇特征向量序列;以及
按照各个所述第二样本词汇在所述样本标准语句中的先后位置,将各个所述第二样本词汇对应的第二样本词汇特征向量构成第二样本词汇特征向量序列;
将所述第一样本词汇特征向量序列输入至第一神经网络中,获取与各个第一样本词汇特征向量对应的第一样本语义特征向量;以及将所述第二样本词汇特征向量序列输入至第二神经网络中,获取与各个第二样本词汇特征向量对应的第二样本语义特征向量;
基于各个第一样本词汇对应的第一样本语义特征向量,确定各个第一样本语义特征向量对应的第一样本权重;以及基于各个第二样本词汇对应的第二样本语义特征向量,确定各个第二样本语义特征向量对应的第二样本权重;
根据所述第一样本语义特征向量和每个所述第一样本语义特征向量对应的第一样本权重,以及所述第二样本语义特征向量和每个所述第二样本语义特征向量对应的第二样本权重,计算所述样本输入语句和所述样本标准语句之间的检测相似度;
根据所述样本输入语句和所述样本标准语句之间的检测相似度,以及实际相似度,联合训练所述第一神经网络以及所述第二神经网络。
6.一种语句相似度确定装置,其特征在于,包括:
特征提取模块,用于基于输入语句中各个第一词汇的第一词汇特征向量,确定与各个第一词汇对应的第一语义特征向量;以及,基于标准语句中各个第二词汇的第二词汇特征向量,确定与各个第二词汇分别对应的第二语义特征向量;
权重计算模块,用于基于各个第一词汇对应的第一语义特征向量,确定各个第一语义特征向量对应的第一权重;以及基于各个第二词汇对应的第二语义特征向量,确定各个第二语义特征向量对应的第二权重;
相似度计算模块,用于根据所述第一语义特征向量和每个所述第一语义特征向量对应的第一权重,以及所述第二语义特征向量和每个所述第二语义特征向量对应的第二权重,计算所述输入语句和所述标准语句之间的相似度;
所述权重计算模块,还用于:
针对每个第一词汇对应的第一语义特征向量,基于该第一语义特征向量与其他各个第一词汇对应的第一语义特征向量之间的相似度,确定该第一语义特征向量的第一权重;
所述权重计算模块,还用于:
针对每个第二词汇对应的第二语义特征向量,基于该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度,确定该第二语义特征向量的第二权重。
7.根据权利要求6所述的装置,其特征在于,所述特征提取模块,还用于:
按照各个所述第一词汇在所述输入语句中的先后位置,将各个所述第一词汇对应的第一词汇特征向量构成第一词汇特征向量序列;
将所述第一词汇特征向量序列输入至预先训练的第一神经网络中,获取与各个第一词汇特征向量对应的第一语义特征向量;
所述特征提取模块,还用于:
按照各个所述第二词汇在所述标准语句中的先后位置,将各个所述第二词汇对应的第二词汇特征向量构成第二词汇特征向量序列;
将所述第二词汇特征向量序列输入至预先训练的第二神经网络中,获取与各个第二词汇特征向量对应的第二语义特征向量。
8.根据权利要求6所述的装置,其特征在于,所述权重计算模块,还用于:
对该第一语义特征向量与其他各个第一词汇对应的第一语义特征向量之间的相似度求和,得到该第一语义特征向量的第一权重;
所述权重计算模块,还用于:
对该第二语义特征向量与其他各个第二词汇对应的第二语义特征向量之间的相似度求和,得到该第二语义特征向量的第二权重。
9.根据权利要求6所述的装置,其特征在于,所述相似度计算模块,还用于:
根据所述第一语义特征向量以及对应的第一权重,得到第一变换特征向量;以及
根据所述第二语义特征向量以及对应的第二权重,得到第二变换特征向量;
基于所述第一变换特征向量以及所述第二变换特征向量,计算所述输入语句和所述标准语句之间的相似度。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括,训练模块,用于:
获取样本输入语句中各个第一样本词汇的第一样本词汇特征向量,以及获取样本标准语句中各个第二样本词汇的第二样本词汇特征向量;
按照各个所述第一样本词汇在所述样本输入语句中的先后位置,将各个所述第一样本词汇对应的第一样本词汇特征向量构成第一样本词汇特征向量序列;以及
按照各个所述第二样本词汇在所述样本标准语句中的先后位置,将各个所述第二样本词汇对应的第二样本词汇特征向量构成第二样本词汇特征向量序列;
将所述第一样本词汇特征向量序列输入至第一神经网络中,获取与各个第一样本词汇特征向量对应的第一样本语义特征向量;以及将所述第二样本词汇特征向量序列输入至第二神经网络中,获取与各个第二样本词汇特征向量对应的第二样本语义特征向量;
基于各个第一样本词汇对应的第一样本语义特征向量,确定各个第一样本语义特征向量对应的第一样本权重;以及基于各个第二样本词汇对应的第二样本语义特征向量,确定各个第二样本语义特征向量对应的第二样本权重;
根据所述第一样本语义特征向量和每个所述第一样本语义特征向量对应的第一样本权重,以及所述第二样本语义特征向量和每个所述第二样本语义特征向量对应的第二样本权重,计算所述样本输入语句和所述样本标准语句之间的检测相似度;
根据所述样本输入语句和所述样本标准语句之间的检测相似度,以及实际相似度,联合训练所述第一神经网络以及所述第二神经网络。
11.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行权利要求1至5任一项所述的语句相似度确定方法的步骤。
12.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行权利要求1至5任一项所述的语句相似度确定方法的步骤。
CN201910172427.2A 2019-03-07 2019-03-07 语句相似度确定方法、装置、电子设备及可读存储介质 Active CN109977203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910172427.2A CN109977203B (zh) 2019-03-07 2019-03-07 语句相似度确定方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910172427.2A CN109977203B (zh) 2019-03-07 2019-03-07 语句相似度确定方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN109977203A CN109977203A (zh) 2019-07-05
CN109977203B true CN109977203B (zh) 2021-06-08

Family

ID=67078193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910172427.2A Active CN109977203B (zh) 2019-03-07 2019-03-07 语句相似度确定方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN109977203B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111666755A (zh) * 2020-06-24 2020-09-15 深圳前海微众银行股份有限公司 一种复述句识别的方法及装置
CN112183111A (zh) * 2020-09-28 2021-01-05 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
CN112632252B (zh) * 2020-12-25 2021-09-17 中电金信软件有限公司 对话应答方法、装置、计算机设备和存储介质
CN112988992B (zh) * 2021-02-08 2022-04-08 北京嘀嘀无限科技发展有限公司 一种信息交互方法、装置及电子设备
CN115879458A (zh) * 2022-04-08 2023-03-31 北京中关村科金技术有限公司 一种语料扩充方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599029A (zh) * 2016-11-02 2017-04-26 焦点科技股份有限公司 一种中文短文本聚类方法
JP2017162112A (ja) * 2016-03-08 2017-09-14 日本電信電話株式会社 単語抽出装置、方法、及びプログラム
CN108133045A (zh) * 2018-01-12 2018-06-08 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统
CN108509410A (zh) * 2017-02-27 2018-09-07 广东神马搜索科技有限公司 文本语义相似度计算方法、装置及用户终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017162112A (ja) * 2016-03-08 2017-09-14 日本電信電話株式会社 単語抽出装置、方法、及びプログラム
CN106599029A (zh) * 2016-11-02 2017-04-26 焦点科技股份有限公司 一种中文短文本聚类方法
CN108509410A (zh) * 2017-02-27 2018-09-07 广东神马搜索科技有限公司 文本语义相似度计算方法、装置及用户终端
CN108133045A (zh) * 2018-01-12 2018-06-08 广州杰赛科技股份有限公司 关键词提取方法与系统、关键词提取模型生成方法与系统

Also Published As

Publication number Publication date
CN109977203A (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
CN109977203B (zh) 语句相似度确定方法、装置、电子设备及可读存储介质
CN107329949B (zh) 一种语义匹配方法和系统
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
US10665122B1 (en) Application of semantic vectors in automated scoring of examination responses
US10741093B2 (en) Automated determination of degree of item similarity in the generation of digitized examinations
US11010554B2 (en) Method and device for identifying specific text information
CN109408824B (zh) 用于生成信息的方法和装置
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN112765319B (zh) 一种文本的处理方法、装置、电子设备及存储介质
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN111881297A (zh) 语音识别文本的校正方法及装置
CN110929498A (zh) 一种短文本相似度的计算方法及装置、可读存储介质
CN111859940A (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN114139537A (zh) 词向量的生成方法及装置
CN112347267B (zh) 一种文本处理方法、装置、计算机设备及存储介质
JP2020160159A (ja) 採点装置、採点方法およびプログラム
CN110969005A (zh) 一种确定实体语料之间的相似性的方法及装置
CN107783958B (zh) 一种目标语句识别方法及装置
CN111782789A (zh) 智能问答方法与系统
CN113254473B (zh) 一种获取气象服务知识的方法及装置
CN110287396A (zh) 文本匹配方法及装置
CN115292492A (zh) 意图分类模型的训练方法、装置、设备及存储介质
CN115238068A (zh) 语音转录文本聚类方法、装置、电子设备和存储介质
Poolsukkho et al. Text normalization on thai twitter messages using ipa similarity algorithm
CN111090720B (zh) 一种热词的添加方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant