CN111368554B - 语句处理方法、装置、计算机设备和存储介质 - Google Patents
语句处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111368554B CN111368554B CN202010173191.7A CN202010173191A CN111368554B CN 111368554 B CN111368554 B CN 111368554B CN 202010173191 A CN202010173191 A CN 202010173191A CN 111368554 B CN111368554 B CN 111368554B
- Authority
- CN
- China
- Prior art keywords
- sentence
- matrix
- idiom
- semantic feature
- queried
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种语句处理方法、装置、计算机设备和存储介质。所述方法包括:获取待查询语句;对所述待查询语句进行语义特征分析,得到语句语义特征矩阵;获取成语语义特征矩阵;确定所述语句语义特征矩阵和所述成语语义特征矩阵之间的相似度;根据所述相似度输出预设数量个成语。采用本申请的方法能够及时反馈成语结果。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种语句处理方法、装置、计算机设备和存储介质。
背景技术
成语作为一种语义的高度概括,其形式简洁优美,深受大众喜爱。传统的方法大多集中于根据成语关键字去检索相似的成语,或是从某句话中提取得到成语,或者基于成语关键字去检索相似的成语。然而,传统的语句处理方法,存在过程繁琐,无法及时反馈成语结果的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够及时反馈成语结果的语句处理方法、装置、计算机设备和存储介质。
一种语句处理方法,所述方法包括:
获取待查询语句;
对所述待查询语句进行语义特征分析,得到语句语义特征矩阵;
获取成语语义特征矩阵;
确定所述语句语义特征矩阵和所述成语语义特征矩阵之间的相似度;
根据所述相似度输出预设数量个成语。
一种语句处理装置,所述装置包括:
第一获取模块,用于获取待查询语句;
特征分析模块,用于对所述待查询语句进行语义特征分析,得到语句语义特征矩阵;
第二获取模块,用于获取成语语义特征矩阵;
相似度确定模块,用于确定所述语句语义特征矩阵和所述成语语义特征矩阵之间的相似度;
输出模块,用于根据所述相似度输出预设数量个成语。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待查询语句;
对所述待查询语句进行语义特征分析,得到语句语义特征矩阵;
获取成语语义特征矩阵;
确定所述语句语义特征矩阵和所述成语语义特征矩阵之间的相似度;
根据所述相似度输出预设数量个成语。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待查询语句;
对所述待查询语句进行语义特征分析,得到语句语义特征矩阵;
获取成语语义特征矩阵;
确定所述语句语义特征矩阵和所述成语语义特征矩阵之间的相似度;
根据所述相似度输出预设数量个成语。
上述语句处理方法、装置、计算机设备和存储介质,获取待查询语句,对待查询语句进行语义特征分析,得到语句语义特征矩阵,获取成语语义特征矩阵,确定语句语义特征矩阵和成语语义特征矩阵之间的相似度,根据相似度输入预设数量个成语,即基于文本特征进行计算,得到的成语准确性高,而且过程简单,只需要直接比对特征矩阵之间的相似度,即可得到符合语句语义的成语,因此可以较快地反馈成语结果。
附图说明
图1为一个实施例中语句处理方法的应用环境图;
图2为一个实施例中语句处理方法的流程示意图;
图3为另一个实施例中语句处理方法的流程示意图;
图4为一个实施例中句向量编码器的结构示意图;
图5为一个实施例中得到第一句编码矩阵的流程示意图;
图6为又一个实施例中语句处理方法的流程示意图;
图7为一个实施例中语句处理装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的语句处理方法,可以应用于如图1所示的应用环境中。其中,终端110通过网络与服务器120通过网络进行通信。其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110可以获取待查询语句,并向服务器120发送该待查询语句。服务器120获取该待查询语句。或者,本申请提供的语句处理方法,可应用于仅包含终端的应用环境中,或者仅包含服务器的应用环境中。
在一个实施例中,如图2所示,提供了一种语句处理方法,以该方法应用于图1中的服务器120为例进行说明,包括以下步骤:
步骤202,获取待查询语句。
具体地,服务器获取的待查询语句可以是指直接获取的待查询文本语句,也可以是待查询语音语句经过转换之后得到待查询文本语句。待查询语句可以是与成语语义相关的语句。例如,待查询语句为“安定愉快地生活”。
步骤204,对待查询语句进行语义特征分析,得到语句语义特征矩阵。
其中,语句语义特征矩阵是对待查询语句进行编码、平均池化处理和特征增强处理后得到的特征矩阵。
具体地,服务器可将待查询语句输入至语义识别模型中,从而得到语句语义特征矩阵。其中,语义识别模型用于对该待查询语句进行向量编码。语义识别模型具体可以是BERT(Bidirectional Encoder Representations from Transformers,双向编码器表征量)模型等不限于此。例如,对“安定愉快地生活”进行语义特征分析,得到语义特征矩阵。
步骤206,获取成语语义特征矩阵。
其中,成语语义特征矩阵可以是根据成语的解释、成语的使用例句中至少一种进行处理得到的。一个成语对应一个成语语义特征矩阵。
具体地,在获取待查询语句之前,服务器的成语数据库中已存储成语语义特征矩阵。服务器从数据库中获取成语语义特征矩阵。成语语义特征矩阵的数量不限,例如可以是中文中所有成语中每个成语对应的成语语义特征矩阵,也可以是某词典中所有成语中每个成语对应的成语语义特征矩阵等不限于此。例如,某词典中的成语数据有31648条成语数据,其中包括成语、成语解释、成语例句、成语出处等不限于此。服务器可根据这些信息构建每个成语对应的成语语义特征矩阵。
以安生乐业为例:
"derivation(起源)": "《汉书·严助传》使元元之民安生乐业,则泽被万世,传之子孙,使之无穷。",
"example(例句)":"以是黎民感德,皆~,实有太平之象。★明·张居正《谢召见疏》",
"explanation(解释)":"犹安居乐业。指安定愉快地生活和劳动。",
"pinyin(拼音)":"ān shēng lè yè",
"word(成语)":"安生乐业",
"abbreviation(缩写)":"asly"
步骤208,确定语句语义特征矩阵和成语语义特征矩阵之间的相似度。
其中,相似度可通过余弦相似度、欧几里得距离算法、Jaccard 系数算法等算法计算得到。
具体地,服务器确定语句语义特征矩阵与成语数据库中每个成语语义特征矩阵之间的相似度。
步骤210,根据相似度输出预设数量个成语。
其中,预设数量为至少一个,可根据配置设定。
具体地,服务器将相似度从大到小排列,并输出相似度最高的K个成语。例如,服务器可输出相似度最高的5个成语。且该预设数量个成语可以互为近义词或同义词等。例如,待查询语句为“安定愉快地生活”,服务器输出相似度最高的成语为“安居乐业、安生乐业、丰衣足食”等不限于此。
上述语句处理方法中,获取待查询语句,对待查询语句进行语义特征分析,得到语句语义特征矩阵,获取成语语义特征矩阵,确定语句语义特征矩阵和成语语义特征矩阵之间的相似度,根据相似度输入预设数量个成语,即基于文本特征进行计算,得到的成语准确性高,而且过程简单,只需要直接比对特征矩阵之间的相似度,即可得到符合语句语义的成语,因此可以较快地反馈成语结果。
在一个实施例中,如图3所示,为另一个实施例中语句处理方法的流程示意图。获取用户输入的待查询语句,以及成语。服务器将待查询语句输入至Bert句向量编码器,得到语句语义特征矩阵。服务器将成语相关信息输入至Bert句向量编码器中,得到成语语义特征矩阵。其中,成语相关信息可以是成语例句、成语解释等不限于此。服务器将成语语义特征矩阵和语句语义特征矩阵输入至句向量相似度计算模块中,即可得到二者的相似度。服务器按照相似度的大小进行排序,并输入相似度最高所对应的K个成语。
在一个实施例中,对待查询语句进行语义特征分析,得到语句语义特征矩阵,包括:对待查询语句进行编码,得到第一句编码矩阵;对第一句编码矩阵进行平均池化处理,得到第二句编码矩阵;对第二句编码矩阵进行特征增强处理,得到语句语义特征矩阵。
具体地,服务器将待查询语句输入至编码器中进行编码,得到第一句编码矩阵。平均池化操作是对整个句子所有字编码取平均。
假设第一句编码矩阵为repersent l=11,维度为[max_length, hidden_size],其中,max_length 表示序列最大长度,hidden size表示隐藏层大小,[512, 768],平均池化处理的过程是在最大长度max_length的维度上进行操作。因此,池化后的句向量编码输出Sentence_Encoder_i的维度是[1, hidden_size],即[1,768]。
那么,第二句编码矩阵可通过下式计算得到
通过Bert模型将句子中的每个字转换成了768维的字向量表示,而这种高纬度的表达会对后续语义相似度的衡量产生一定影响。
为了增强句子语义在特征空间中的表达效果,需要将句向量由768维降至512维,如下公式 (3) 所示。其中,output为语句语义特征矩阵,unit=512表示维度为[1,512],Average_Pooling表示平均池化操作。
本实施例中,如图4所示,为一个实施例中句向量编码器的结构示意图。语义特征分析模块的作用是分别对成语和用户输入的语句进行语义分析与特征构建。成语是一种对语义信息的高度概括,而BERT是构建于Transformer之上的预训练语言模型,它的特点之一就是所有层都联合上下文语境进行预训练,以得到丰富的语义信息。因此这里使用12层的BERT-wwm-ext,chinese(chinese_wwm_L-12_H-768_A-12)作为预训练模型,对成语的解释和使用例句进行编码,得到成语语义特征矩阵。句向量编码器中包括12层编码层。将待查询语句输入至编码器中,得到第一句向量编码。再对第一句向量编码进行平均池化处理,得到第二句编码矩阵,且第二句编码矩阵的维度为[1,768]。然后将第二句编码矩阵输入至全连接层,即进行特征增强处理,最终得到语句语义特征矩阵,且维度为[1,512]。或者,服务器获取成语的解释语句和使用例句,
上述语句处理方法,对待查询语句机型编码,得到第一句编码矩阵,即通过编码可将文字转化为矩阵;对第一句编码矩阵进行平均池化处理,得到第二句编码矩阵,即通过平均池化处理能够保证语句整体的特征;对第二句编码矩阵进行特征增强处理,得到语句语义特征矩阵,即通过特征增强能够增强句子语义在特征空间中的表达效果,提高了构建的语句语义特征的准确性,从而提高输出的成语的准确性。
在一个实施例中,如图5所示,为一个实施例中得到第一句编码矩阵的流程示意图。对待查询语句进行编码,得到第一句编码矩阵,包括:
步骤502,将待查询语句输入至编码器中,从编码器中的倒数第二层输出参考句编码矩阵。
具体地,以Bert句向量编码器为例,且Bert句向量编码器包括12个编码层。服务器将待查询语句输入至Bert句向量编码器中,从编码器中的倒数第二个编码层(即第11层)输出参考句编码矩阵。
步骤504,确定参考句编码矩阵的长度。
具体地,服务器可在编码器中的倒数第二层(11层)之前的层(1至10层)中任意一层确定句编码矩阵的长度,也可以在输出参考句编码矩阵之后再确定参考句编码矩阵的长度。
步骤506,当参考句编码矩阵的长度小于预设长度时,对参考句编码矩阵进行补零处理,得到目标句向量矩阵。
其中,目标句向量矩阵是对参考句编码矩阵进行补零处理后的矩阵。有效输入文本是针对每个句子与句子的最大长度而言的。举例说明,句子最大长度512,那么一个句子本身有112个字,则这112个字代表有效输入文本,其余400个字为非有效输入文本,用0表示,总长仍为512。
具体地,实际场景中,每个成语的解释或用户输入句子的长度是不固定的,因此我们需要设置一个最大长度确保输出的维度一样,这里设定的最大长度为512,表示Bert可以接受最长为512个字符(token)的输入序列。当输入序列长度小于512的时候,就会进行补0操作,因此对于每个输入的句子最终得到一个512×768的向量表示。由于Bert模型需要对输入的句子长度通过补零的方式进行对齐操作,使得所得到的句向量编码信息中存在部分干扰因素,因此首先需要对补零对其的向量信息进行处理。当参考句编码矩阵的长度小于预设长度时,服务器对参考句编码矩阵进行补零处理,得到目标句向量矩阵。
步骤508,获取掩膜矩阵。
具体地,掩膜矩阵的维度为[max_length, whether_mask],维度为[512,1]。其中,拥有真实文本序列whether_mask对应值为1,补零操作文本的whether_mask对应值为0。
步骤510,根据掩膜矩阵与目标句向量矩阵之积,确定第一句编码矩阵。
具体地,掩膜矩阵设为M,维度为shape=(512,1),L表示由Bert编码之后倒数第二层(即11层)的输出,维度为shape=(512,768)。R表示第一句编码矩阵,维度为shape=(512,768)。
上述语句处理方法,将待查询语句输入至编码器中,从编码器中的倒数第二层输入参考句编码矩阵,由于编码器中不同层级捕获到的信息有很大的差别,而编码器的最后一层与预训练的目标过于接近,使得句子语义信息的表征有一定偏差,因此选用倒数第二层的输出作为句向量编码;确定参考句编码矩阵的长度,当参考句编码矩阵的长度小于预设长度时,对参考句编码矩阵进行补零处理,得到目标句向量矩阵,能够使得输出的向量矩阵维度相同,便于计算;获取掩膜矩阵,根据掩膜矩阵和目标句向量矩阵之积,确定第一句编码矩阵,能够确定目标句向量矩阵中的哪些信息为有效的信息,提高了构建的语句语义特征的准确性。
在一个实施例中,获取成语语义特征矩阵,包括:获取成语的解释语句和使用例句;对成语的解释语句和使用例句进行编码,得到成语的成语语义特征矩阵。
其中,成语的解释语句是指用于解释该成语真正含义的语句。使用例句是指用该成语进行造句得到的句子。例如,“安生乐业”的解释语句是“犹安居乐业。指安定愉快地生活和劳动”。安生乐业的使用例句是:“以是黎民感德,皆安生乐业,实有太平之象”。
具体地,服务器获取成语的解释语句和使用例句,并将解释语句和使用例句拼接成一句话后,经过编码器可以得到该成语的成语语义特征矩阵。
本实施例中,对成语的解释语句和使用例句进行编码,得到成语的成语义特征矩阵,包括:将解释语句和使用例句拼接成目标语句;对目标语句进行编码,得到第一成语编码矩阵;对第一成语编码矩阵进行平均池化处理,得到第二成语编码矩阵;对第二成语编码矩阵进行特征增强处理,得到成语语义特征矩阵。
上述语句处理方法,获取成语的解释语句和使用例句,对成语的解释语句和使用例句进行编码,得到成语的成语语义特征矩阵,能够得到更加准确得到成语语义特征矩阵。
在一个实施例中,获取待查询语句,包括:从用户终端获取待查询语句。根据相似度输出预设数量个成语,包括:根据相似度向用户终端输出预设数量个成语。
具体地,服务器可从用户终端的相应界面上获取待查询语句。服务器根据相似度想用户终端输出预设数量个成语,以使用户终端在界面上展示该预设数量个成语。例如,用户在用户终端输入的待查询语句为“安定愉快地生活和劳动”,那么服务器可从用户终端获取待查询语句,并根据相似度向用户终端输出预设数量个成语,例如“安居乐业、安生乐业、太平盛世”等不限于此。
本实施例中,如图6所示,为又一个实施例中语句处理方法的流程示意图。其中,语义特征分析模块、数据存储模块和相似度检索模块均位于服务器中。用户在用户终端的输入界面上输入待查询语句,经过语义特征分析模块,即将待查询语句输入至Bert编码器中得到第一句编码矩阵;对第一句编码矩阵进行平均池化处理,得到第二句编码矩阵;对第二句编码矩阵进行特征增强处理,得到语句语义特征矩阵。那么在数据库,也就是图中的数据存储模块,包括成语数据库和用户检索数据库。成语数据库用于存储成语、和对应的典故出处、成语解释、使用例句、成语拼音、成语缩写、成语语义特征向量等内容但不限于此。用户检索数据库用于存储用户检索语句,即待查询语句,和对应的语句语义特征向量以及检索结果。在相似度检索模块,服务器将语句语义特征向量与成语语义特征向量进行相似度计算,即确定二者之间的相似度,输出相似度最高的预设数量个成语。服务器向用户终端返回成语检索结果,即预设数量个成语,以使用户终端在输入界面中展示该预设数量个成语。
上述语句处理方法,从用户终端获取待查询语句,根据相似度向用户终端输出预设数量个成语,能够实现端到端的语句处理方式,减少中间步骤,能够及时反馈结果。
在一个实施例中,获取待查询语句,包括:从用户终端获取用户问题语句;根据用户问题语句确定第一回复语句;将第一回复语句作为待查询语句。根据相似度输出预设数量个成语,包括:根据相似度向用户终端输出第二回复语句,其中,第二回复语句中包含相似度最高的目标成语。
其中,用户问题语句是指用户提出的问题的语句。用户问题语句可以是文本语句也可以是语音语句。第一回复语句是指针对用户问题语句得到的回复语句。第二回复语句是指根据第一回复语句得到成语后,重新整合得到的回复语句。
具体地,服务器从用户终端获取用户问题语句,根据用户问题语句确定第一回复语句。服务器可根据用户问题语句从问答数据库中查找到对应的第一回复语句。或者,服务器可根据用户问题语句进行语义识别得到第一回复语句等不限于此。那么此时的第一回复语句,可视为包含成语解释和成语例句的一个句子,也即待查询语句。那么,根据相似度输出相似度最高的目标成语,再将目标成语与第一回复语句进行整合,则得到第二回复语句。例如,应用于电话机器人或者文本机器人。用户问题语句为“唐代是一个什么样的朝代”,第一回复语句为“唐代是一个安定、兴盛的朝代”。那么将第一回复语句作为待查询语句,得到相似度最高的目标成语“太平盛世”,再根据目标成语“太平盛世”和第一回复语句“唐代是一个安定、兴盛的朝代”,则可以得到第二回复语句为“唐代是一个太平盛世”。
上述语句处理方法,从用户终端获取用户问题语句;根据用户问题语句确定第一回复语句,将第一回复语句作为待查询语句,根据相似度向用户终端输出第二回复语句,其中,第二回复语句中包含相似度最高的目标成语,能够应用于电话机器人或者文本机器人,将机器人的回复转化为合适的成语,使得机器人表现更加智能。
在一个实施例中,该语句处理方法还包括:将待查询语句、与待查询语句相对应的语句语义特征矩阵和对应的预设数据量个成语存储在数据库中。
其中,数据库包括成语数据库和用户检索数据库。用户检索数据库用来存储用户检索内容及相似度检索相关信息。字段有:用户标识、用户输入语句即待查询语句、用户输入句向量即语句语义特征向量、用户检索结果即预设数量个成语等。成语数据库主要将新华词典里的成语数据存储到关系数据库中,共31648条数据。主要包括成语、成语解释、使用例句、成语出处等内容。
具体地,服务器将待查询语句,与待查询语句相对应的语句语义特征矩阵,与待查询语句对应的预设数量个成语,存储在数据库中。具体地,可存储在图6中的用户检索数据库中。
上述语句处理方法,采用数据存储可满足不同模块间的数据交互,实际应用场景中,基于端到端的成语检索方法,会面临不同用户同一时间的检索行为,针对每个用户保存相关的数据,不仅可以确保每个用户得到正确的结果,并且每个模块可以根据各自任务并行处理,互不影响,大大提高系统的解耦性。此外,可获取用户对输出的预设数量个成语的评价,可根据该评价和反馈,及时对算法模型进行优化。
在一个实施例中,一种语句处理方法,包括:
步骤a1,从用户终端获取用户问题语句。
步骤a2,根据用户问题语句确定第一回复语句。
步骤a3,将第一回复语句作为待查询语句。
步骤a4,将待查询语句输入至编码器中,从编码器中的倒数第二层输出参考句编码矩阵。
步骤a5,确定参考句编码矩阵的长度。
步骤a6,当参考句编码矩阵的长度小于预设长度时,对参考句编码矩阵进行补零处理,得到目标句向量矩阵。
步骤a7,获取掩膜矩阵。
步骤a8,根据掩膜矩阵与目标句向量矩阵之积,确定第一句编码矩阵。
步骤a9,对第一句编码矩阵进行平均池化处理,得到第二句编码矩阵。
步骤a10,对第二句编码矩阵进行特征增强处理,得到语句语义特征矩阵。
步骤a11,获取成语的解释语句和使用例句。
步骤a12,对成语的解释语句和使用例句进行编码,得到成语的成语语义特征矩阵。
步骤a13,确定语句语义特征矩阵和成语语义特征矩阵之间的相似度。
步骤a14,根据相似度向用户终端输出第二回复语句,其中,第二回复语句中包含相似度最高的目标成语。
步骤a15,将待查询语句、与待查询语句相对应的语句语义特征矩阵和对应的预设数量个成语存储在数据库中。
上述语句处理方法中,获取待查询语句,对待查询语句机型编码,得到第一句编码矩阵,即通过编码可将文字转化为矩阵;对第一句编码矩阵进行平均池化处理,得到第二句编码矩阵,即通过平均池化处理能够保证语句整体的特征;对第二句编码矩阵进行特征增强处理,得到语句语义特征矩阵,即通过特征增强能够增强句子语义在特征空间中的表达效果,提高了构建的语句语义特征的准确性;获取成语语义特征矩阵,确定语句语义特征矩阵和成语语义特征矩阵之间的相似度,根据相似度输入预设数量个成语,即基于文本特征进行计算,得到的成语准确性高,而且过程简单,只需要直接比对特征矩阵之间的相似度,即可得到符合语句语义的成语,因此可以较快地反馈成语结果,也能提高输出的成语的准确性。
应该理解的是,虽然图2至6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2至6中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,图7为一个实施例中语句处理装置的结构框图,包括:第一获取模块702、特征分析模块704、第二获取模块706、相似度确定模块708和输出模块710,其中:
第一获取模块702,用于获取待查询语句;
特征分析模块704,用于对待查询语句进行语义特征分析,得到语句语义特征矩阵;
第二获取模块706,用于获取成语语义特征矩阵;
相似度确定模块708,用于确定语句语义特征矩阵和成语语义特征矩阵之间的相似度;
输出模块710,用于根据相似度输出预设数量个成语。
上述语句处理装置中,获取待查询语句,对待查询语句进行语义特征分析,得到语句语义特征矩阵,获取成语语义特征矩阵,确定语句语义特征矩阵和成语语义特征矩阵之间的相似度,根据相似度输入预设数量个成语,即基于文本特征进行计算,得到的成语准确性高,而且过程简单,只需要直接比对特征矩阵之间的相似度,即可得到符合语句语义的成语,因此可以较快地反馈成语结果。
在一个实施例中,特征分析模块704用于对待查询语句进行编码,得到第一句编码矩阵;对第一句编码矩阵进行平均池化处理,得到第二句编码矩阵;对第二句编码矩阵进行特征增强处理,得到语句语义特征矩阵。
上述语句处理装置,对待查询语句机型编码,得到第一句编码矩阵,即通过编码可将文字转化为矩阵;对第一句编码矩阵进行平均池化处理,得到第二句编码矩阵,即通过平均池化处理能够保证语句整体的特征;对第二句编码矩阵进行特征增强处理,得到语句语义特征矩阵,即通过特征增强能够增强句子语义在特征空间中的表达效果,提高了构建的语句语义特征的准确性,从而提高输出的成语的准确性。
在一个实施例中,特征分析模块704用于将待查询语句输入至编码器中,从编码器中的倒数第二层输出参考句编码矩阵;确定参考句编码矩阵的长度;当参考句编码矩阵的长度小于预设长度时,对参考句编码矩阵进行补零处理,得到目标句向量矩阵;获取掩膜矩阵;根据掩膜矩阵与目标句向量矩阵之积,确定第一句编码矩阵。
上述语句处理装置,将待查询语句输入至编码器中,从编码器中的倒数第二层输入参考句编码矩阵,由于编码器中不同层级捕获到的信息有很大的差别,而编码器的最后一层与预训练的目标过于接近,使得句子语义信息的表征有一定偏差,因此选用倒数第二层的输出作为句向量编码;确定参考句编码矩阵的长度,当参考句编码矩阵的长度小于预设长度时,对参考句编码矩阵进行补零处理,得到目标句向量矩阵,能够使得输出的向量矩阵维度相同,便于计算;获取掩膜矩阵,根据掩膜矩阵和目标句向量矩阵之积,确定第一句编码矩阵,能够确定目标句向量矩阵中的哪些信息为有效的信息,提高了构建的语句语义特征的准确性。
在一个实施例中,第二获取模块706用于获取成语的解释语句和使用例句;对成语的解释语句和使用例句进行编码,得到成语的成语语义特征矩阵。
上述语句处理装置,获取成语的解释语句和使用例句,对成语的解释语句和使用例句进行编码,得到成语的成语语义特征矩阵,能够得到更加准确得到成语语义特征矩阵。
在一个实施例中,第一获取模块702用于从用户终端获取待查询语句。输出模块710用于根据相似度向用户终端输出预设数量个成语。
上述语句处理装置,从用户终端获取待查询语句,根据相似度向用户终端输出预设数量个成语,能够实现端到端的语句处理方式,减少中间步骤,能够及时反馈结果。
在一个实施例中,第一获取模块702用于从用户终端获取用户问题语句;根据用户问题语句确定第一回复语句;将第一回复语句作为待查询语句。输出模块710用于根据相似度向用户终端输出第二回复语句,其中,第二回复语句中包含相似度最高的目标成语。
上述语句处理装置,从用户终端获取用户问题语句;根据用户问题语句确定第一回复语句,将第一回复语句作为待查询语句,根据相似度向用户终端输出第二回复语句,其中,第二回复语句中包含相似度最高的目标成语,能够应用于电话机器人或者文本机器人,将机器人的回复转化为合适的成语,使得机器人表现更加智能。
在一个实施例中,语句处理装置还包括存储模块。存储模块用于将待查询语句、与待查询语句相对应的语句语义特征矩阵和对应的预设数据量个成语存储在数据库中。
上述语句处理装置,采用数据存储可满足不同模块间的数据交互,实际应用场景中,基于端到端的成语检索装置,会面临不同用户同一时间的检索行为,针对每个用户保存相关的数据,不仅可以确保每个用户得到正确的结果,并且每个模块可以根据各自任务并行处理,互不影响,大大提高系统的解耦性。此外,可获取用户对输出的预设数量个成语的评价,可根据该评价和反馈,及时对算法模型进行优化。
关于语句处理装置的具体限定可以参见上文中对于语句处理方法的限定,在此不再赘述。上述语句处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语句处理方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现本申请实施例中的各个方法步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本申请实施例中的各个方法步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种语句处理方法,其特征在于,所述方法包括:
从用户终端获取待查询语句;
将所述待查询语句输入至编码器中,从所述编码器中的倒数第二层输出参考句编码矩阵;确定所述参考句编码矩阵的长度;当所述参考句编码矩阵的长度小于预设长度时,对所述参考句编码矩阵进行补零处理,得到目标句向量矩阵;获取掩膜矩阵;根据所述掩膜矩阵与所述目标句向量矩阵之积,确定第一句编码矩阵;对所述第一句编码矩阵进行平均池化处理,得到第二句编码矩阵;对所述第二句编码矩阵进行特征增强处理,得到语句语义特征矩阵;
获取成语语义特征矩阵;
确定所述语句语义特征矩阵和所述成语语义特征矩阵之间的相似度;
根据所述相似度向所述用户终端输出预设数量个成语;
其中,所述获取成语语义特征矩阵,包括:
获取成语的解释语句和使用例句;
对所述解释语句和所述使用例句进行编码,得到成语语义特征矩阵。
2.根据权利要求1所述的方法,其特征在于,所述语句语义特征矩阵是对所述待查询语句进行编码、平均池化处理和特征增强处理后得到的特征矩阵。
3.根据权利要求1所述的方法,其特征在于,所述对所述解释语句和所述使用例句进行编码,得到成语语义特征矩阵,包括:
将所述解释语句和所述使用例句拼接成目标语句;
对所述目标语句进行编码,得到第一成语编码矩阵;
对所述第一成语编码矩阵进行平均池化处理,得到第二成语编码矩阵;
对所述第二成语编码矩阵进行特征增强处理,得到成语语义特征矩阵。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述确定所述语句语义特征矩阵和所述成语语义特征矩阵之间的相似度,包括:
确定所述语句语义特征矩阵与成语数据库中每个所述成语语义特征矩阵之间的相似度。
5.根据权利要求1至3任意一项所述的方法,其特征在于,获取待查询语句,包括:
从用户终端获取用户问题语句;
根据所述用户问题语句确定第一回复语句;
将所述第一回复语句作为所述待查询语句;
所述根据所述相似度输出预设数量个成语,包括:
根据所述相似度向所述用户终端输出第二回复语句,其中,所述第二回复语句中包含相似度最高的目标成语。
6.根据权利要求1至3任意一项所述的方法,其特征在于,所述方法还包括:
将所述待查询语句、与所述待查询语句相对应的语句语义特征矩阵和对应的预设数量个成语存储在数据库中。
7.根据权利要求6所述的方法,其特征在于,所述数据库包括成语数据库和用户检索数据库,所述成语数据库用于将词典里的成语数据存储到关系数据库中,所述用户检索数据库用于存储用户检索内容及相似度检索相关信息。
8.一种语句处理装置,其特征在于,所述装置包括:
第一获取模块,用于从用户终端获取待查询语句;
特征分析模块,用于将所述待查询语句输入至编码器中,从所述编码器中的倒数第二层输出参考句编码矩阵;确定所述参考句编码矩阵的长度;当所述参考句编码矩阵的长度小于预设长度时,对所述参考句编码矩阵进行补零处理,得到目标句向量矩阵;获取掩膜矩阵;根据所述掩膜矩阵与所述目标句向量矩阵之积,确定第一句编码矩阵;对所述第一句编码矩阵进行平均池化处理,得到第二句编码矩阵;对所述第二句编码矩阵进行特征增强处理,得到语句语义特征矩阵;
第二获取模块,用于获取成语语义特征矩阵;
相似度确定模块,用于确定所述语句语义特征矩阵和所述成语语义特征矩阵之间的相似度;
输出模块,用于根据所述相似度向所述用户终端输出预设数量个成语;
其中,所述获取成语语义特征矩阵,包括:
获取成语的解释语句和使用例句;
对所述解释语句和所述使用例句进行编码,得到成语语义特征矩阵。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173191.7A CN111368554B (zh) | 2020-03-13 | 2020-03-13 | 语句处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010173191.7A CN111368554B (zh) | 2020-03-13 | 2020-03-13 | 语句处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111368554A CN111368554A (zh) | 2020-07-03 |
CN111368554B true CN111368554B (zh) | 2023-07-28 |
Family
ID=71208872
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010173191.7A Active CN111368554B (zh) | 2020-03-13 | 2020-03-13 | 语句处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111368554B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114417838B (zh) * | 2022-04-01 | 2022-06-21 | 北京语言大学 | 基于transformer模型提取同义语块对的方法 |
CN115577090B (zh) * | 2022-12-07 | 2023-03-21 | 北京云迹科技股份有限公司 | 基于成语理解的语音对话方法、装置、设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106897263A (zh) * | 2016-12-29 | 2017-06-27 | 北京光年无限科技有限公司 | 基于深度学习的机器人对话交互方法及装置 |
CN108509411B (zh) * | 2017-10-10 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 语义分析方法和装置 |
CN109766013A (zh) * | 2018-12-28 | 2019-05-17 | 北京金山安全软件有限公司 | 诗词语句输入推荐方法、装置和电子设备 |
CN109947917A (zh) * | 2019-03-07 | 2019-06-28 | 北京九狐时代智能科技有限公司 | 语句相似度确定方法、装置、电子设备及可读存储介质 |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
CN110674292B (zh) * | 2019-08-27 | 2023-04-18 | 腾讯科技(深圳)有限公司 | 一种人机交互方法、装置、设备及介质 |
CN110532356A (zh) * | 2019-08-30 | 2019-12-03 | 联想(北京)有限公司 | 信息处理方法、装置及存储介质 |
CN110795549B (zh) * | 2019-10-31 | 2023-03-17 | 腾讯科技(深圳)有限公司 | 短文本对话方法、装置、设备及存储介质 |
-
2020
- 2020-03-13 CN CN202010173191.7A patent/CN111368554B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111368554A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11423304B2 (en) | System and method for semantic analysis of multimedia data using attention-based fusion network | |
WO2019080864A1 (zh) | 一种文本语义编码方法及装置 | |
CN110781306B (zh) | 一种英文文本的方面层情感分类方法及系统 | |
CN112257858A (zh) | 一种模型压缩方法及装置 | |
CN110442711B (zh) | 文本智能化清洗方法、装置及计算机可读存储介质 | |
CN114676704B (zh) | 句子情感分析方法、装置、设备以及存储介质 | |
WO2022252636A1 (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN110866098B (zh) | 基于transformer和lstm的机器阅读方法、装置及可读存储介质 | |
CN111985243B (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN111767375A (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
CN111368554B (zh) | 语句处理方法、装置、计算机设备和存储介质 | |
WO2023134082A1 (zh) | 图像描述语句生成模块的训练方法及装置、电子设备 | |
CN111368536A (zh) | 自然语言处理方法及其设备和存储介质 | |
CN115062134B (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 | |
US20230281390A1 (en) | Systems and methods for enhanced review comprehension using domain-specific knowledgebases | |
CN117194616A (zh) | 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质 | |
CN115269768A (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
CN112307738A (zh) | 用于处理文本的方法和装置 | |
CN116881446A (zh) | 一种语义分类方法、装置、设备及其存储介质 | |
WO2023137903A1 (zh) | 基于粗糙语义的回复语句确定方法、装置及电子设备 | |
CN115879480A (zh) | 语义约束机器翻译方法、装置、电子设备及存储介质 | |
CN111858899B (zh) | 语句处理方法、装置、系统和介质 | |
CN114861671A (zh) | 模型训练方法、装置、计算机设备及存储介质 | |
CN117131853A (zh) | 文本相似度确定方法、装置、设备及存储介质 | |
CN114328873A (zh) | 智能对话方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |