CN110033022A - 文本的处理方法、装置和存储介质 - Google Patents
文本的处理方法、装置和存储介质 Download PDFInfo
- Publication number
- CN110033022A CN110033022A CN201910178294.XA CN201910178294A CN110033022A CN 110033022 A CN110033022 A CN 110033022A CN 201910178294 A CN201910178294 A CN 201910178294A CN 110033022 A CN110033022 A CN 110033022A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- short sentence
- sentence
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本的处理方法、装置和存储介质。该方法包括:获取原始文本的多个原始短句和每个原始短句的多个原始词,获取目标文本的多个目标短句和每个目标短句的多个目标词;根据每个原始词的原始词向量和对应的重要性权重确定每个原始短句的原始短句向量,根据每个目标词的目标词向量和对应的重要性权重确定每个目标短句的目标短句向量;根据每个原始短句向量和对应的重要性权重确定的第一目标矩阵和根据每个目标短句向量和对应的重要性权重确定的第二目标矩阵,获取原始文本和目标文本之间的相似度;在相似度大于目标阈值时,确定目标文本与原始文本相匹配,输出目标文本。本发明解决了相关技术对文本进行匹配的准确性低的技术问题。
Description
技术领域
本发明涉及计算机领域,具体而言,涉及一种文本的处理方法、装置和存储介质。
背景技术
目前,在机器自动问题匹配时,通常需要衡量文本之间相似度,以返回与问句相匹配的标准问句。
但是,通常一句话中的每个词都被看作是同样重要的,当用户的输入比较冗长或包含不重要的信息时,模型很容易被带偏,将关注点放在不重要的部分。另外,并没有从语句最根本的含义出发,抓住语句最关键的部分,当问句超过一定长度,或者表述比较口语化时,机器往往无法抓住用户所表述的重点,从而返回与问句不相关的文本,存在对文本进行匹配的准确性低的问题。
针对上述的对文本进行匹配的准确性低的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本的处理方法、装置和存储介质,以至少解决相关技术对文本进行匹配的准确性低的技术问题。
根据本发明实施例的一个方面,提供了一种文本的处理方法。该方法包括:获取输入的原始文本的多个原始短句和每个原始短句的多个原始词,并获取目标文本的多个目标短句和每个目标短句的多个目标词,其中,目标文本为与原始文本待进行匹配的文本;根据每个原始词的原始词向量和每个原始词在所处的原始短句中的重要性权重,确定每个原始短句的原始短句向量,得到多个原始短句向量,并根据每个目标词的目标词向量和每个目标词在所处的目标短句中的重要性权重,确定每个目标短句的目标短句向量,得到多个目标短句向量;根据每个原始短句向量和每个原始短句在原始文本中的重要性权重,确定第一目标矩阵,并根据每个目标短句向量和每个目标短句在目标文本中的重要性权重,确定第二目标矩阵;根据第一目标矩阵和第二目标矩阵获取原始文本和目标文本之间的相似度;在相似度大于目标阈值的情况下,确定目标文本与原始文本相匹配,并输出目标文本。
根据本发明实施例的另一方面,还提供了一种文本的处理装置。该装置包括:第一获取单元,用于获取输入的原始文本的多个原始短句和每个原始短句的多个原始词,并获取目标文本的多个目标短句和每个目标短句的多个目标词,其中,目标文本为与原始文本待进行匹配的文本;第一确定单元,用于根据每个原始词的原始词向量和每个原始词在所处的原始短句中的重要性权重,确定每个原始短句的原始短句向量,得到多个原始短句向量,并根据每个目标词的目标词向量和每个目标词在所处的目标短句中的重要性权重,确定每个目标短句的目标短句向量,得到多个目标短句向量;第二确定单元,用于根据每个原始短句向量和每个原始短句在原始文本中的重要性权重,确定第一目标矩阵,并根据每个目标短句向量和每个目标短句在目标文本中的重要性权重,确定第二目标矩阵;第二获取单元,用于根据第一目标矩阵和第二目标矩阵获取原始文本和目标文本之间的相似度;第三确定单元,用于在相似度大于目标阈值的情况下,确定目标文本与原始文本相匹配,并输出目标文本。
根据本发明实施例的另一方面,还提供了一种存储介质。该存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行项中所述的方法。
在本发明实施例中,获取原始文本的多个原始短句和每个原始短句的多个原始词,获取目标文本的多个目标短句和每个目标短句的多个目标词;根据每个原始词的原始词向量和对应的重要性权重确定每个原始短句的原始短句向量,根据每个目标词的目标词向量和对应的重要性权重确定每个目标短句的目标短句向量;根据每个原始短句向量和对应的重要性权重确定的第一目标矩阵和根据每个目标短句向量和对应的重要性权重确定的第二目标矩阵,获取原始文本和目标文本之间的相似度;在相似度大于目标阈值时,确定目标文本与原始文本相匹配,输出目标文本。也就是说,对用户输入语句和标准语句分别进行词层面和短句层面的处理,将长句切分成短句,从长句中挖掘出重要的信息,计算用户输入和标准语句的相似度,进而返回与用户输入的语句对应的标准语句,达到了有效地将用户输入语句与标准语句进行匹配的目的,提高了对文本进行匹配的准确性,进而解决了相关技术对文本进行匹配的准确性低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种文本的处理方法的硬件环境的示意图;
图2是根据本发明实施例的一种文本的处理方法的流程图;
图3是根据本发明实施例的一种高血压小助手的交互式界面的示意图;
图4是根据本发明实施例的另一种高血压小助手的交互式界面的示意图;
图5是根据本发明实施例的一种通过层级注意力网络比对语句相似度的示意图;
图6是根据本发明实施例的另一种通过层级注意力网络比对语句相似度的示意图;
图7是根据本发明实施例的一种原始语料扩充的示意图;
图8是根据本发明实施例的一种基于层级注意力机制和交互式的语句匹配的示意图;
图9是根据本发明实施例的一种文本的处理装置的示意图;以及
图10是根据本发明实施例的一种电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种文本的处理方法的实施例。
可选地,在本实施例中,上述文本的处理方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。图1是根据本发明实施例的一种文本的处理方法的硬件环境的示意图。如图1所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于PC、手机、平板电脑等。本发明实施例的文本的处理方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的文本的处理方法也可以是由安装在其上的客户端来执行。
图2是根据本发明实施例的一种文本的处理方法的流程图。如图2所示,该方法可以包括以下步骤:
步骤S202,获取输入的原始文本的多个原始短句和每个原始短句的多个原始词,并获取目标文本的多个目标短句和每个目标短句的多个目标词,其中,目标文本为与原始文本待进行匹配的文本。
在步骤S202提供的技术方案中,可以获取通过会话窗口输入的原始文本,其中,会话窗口可以为任何交互式界面,比如,该会话窗口为问题匹配场景中的交互式界面。可选地,该问题匹配场景为机器自动问答场景,用于智能输出标准问题并回答客户所提出的问题,比如,该会话窗口可以为高血压问答系统中的交互式界面,用于对用户输入的高血压问题输出对应的标准问题和回答。该会话窗口还可以为搜索引擎的输入窗口,用于对用户输入的请求提供搜索结果等。
该实施例获取通过会话窗口输入的原始文本,可以为用户输入的长句,该长句可以为单个的长句、由多个原始短句组成的长句、口语化的长句,也可以为多样化、个性化的口语表述,其中,原始短句可以看作是由多个原始词组成的语句。该实施例的原始文本还可以为问句、陈述句、小短文等,此处不做任何限制。
可选地,该实施例的原始文本具有对应的原始词向量集,该原始词向量集可以包括多个原始词向量,每个原始词向量用于指示原始文本中的独立的词语,也即,每个原始词向量与对应的词语是具有映射关系的,维数可以为300维。
可选地,该实施例按照逗号将原始文本分成多个原始短句。比如,原始短句由M个短句构成,不足时以空缺补齐。可以使用结巴分词系统,将M个原始短句处理为独立的原始词语{x1,x2...xN},每个原始短句可以由N个原始词语构成,不足时以空缺补齐。
可选地,该实施例通过词嵌入技术,将原始文本中的每个原始短句的每个原始词映射成为对应的原始词向量{x1,x2...xN},可以采用原始词向量(word2vec)模型对每个原始词语进行处理,得到对应的每个原始词向量,每个原始词向量可以为300维,也即,原始词向量集中的原始词向量xi(i为1、2...N)可以为一个300维的向量。可选地,该实施例的分词工具word2vec还可以由fast-text、ELMO、GLOVE等分词工具替代,也可以用BERT模型直接对句向量进行表示。
在该实施例中,可以通过数据爬取和专业审核,构建一个由多个问答对组成的目标文本数据库,该文本数据库存储了多个目标文本,每个目标文本为待与输入至会话窗口中的原始文本进行匹配的文本,该目标文本数据库可以为问答库,目标文本可以为预先存储的标准化的文本,比如,为存储在问答库中的标准问句,该标准文件可以为书面语。
该实施例的目标文本具有对应的目标词向量集,该目标词向量集包括多个目标词向量,每个目标词向量用于指示目标文本中的独立的词语,也即,每个目标词向量与对应的词语是具有映射关系的,可以为300维。
可选地,该实施例按照逗号将目标文本分成多个目标短句。比如,目标短句由M′个短句构成,不足时以空缺补齐。可以使用结巴分词系统,将M′个目标短句处理为独立的目标词语{x1′,x2′...xN′},每个目标短句可以由N′个目标词构成,不足时以空缺补齐。
可选地,该实施例通过词嵌入技术,将目标文本中的每个目标短句的每个目标词映射成为对应的目标词向量{x1′,x2′...xN′},可以采用目标词向量(word2vec)模型对每个目标词语进行处理,得到对应的每个目标词向量,每个目标词向量可以为300维,也即,目标词向量集中的目标词向量xi′(i为1、2...N)可以为一个300维的向量。
步骤S204,根据每个原始词的原始词向量和每个原始词在所处的原始短句中的重要性权重,确定每个原始短句的原始短句向量,得到多个原始短句向量,并根据每个目标词的目标词向量和每个目标词在所处的目标短句中的重要性权重,确定每个目标短句的目标短句向量,得到多个目标短句向量。
在步骤S204提供的技术方案中,每个原始词在所处的原始短句中的重要性权重可以为每个原始词的原始词向量的重要性权重,每个目标词在所处的目标短句中的重要性权重可以为每个目标词的目标词向量的重要性权重。可选地,根据与原始文本对应的原始词向量集中的每个原始词向量和每个原始词向量的重要性权重,确定与每个原始词向量对应的原始词所处的原始短句的原始短句向量,得到多个原始短句向量,其中,原始词向量的重要性权重用于指示与原始词向量对应的原始词在所处的原始短句中的重要程度;根据与目标文本对应的目标词向量集中的每个目标词向量和每个目标词向量的重要性权重,确定与每个目标词向量对应的目标词所处的目标短句的目标短句向量,得到多个目标短句向量,其中,目标词向量的重要性权重用于指示与目标词向量对应的目标词在所处的目标短句中的重要程度。
在该实施例中,原始文本中的原始词对所处的原始文本中的原始短句的语义理解的贡献程度不一样,也即,一个短句中的不同词语对短句的语义理解的重要性程度不一样。为更好得理解一句短句,需要判断出这一短句中不同的词的重要性。在获取与原始文本对应的原始词向量集中的每个原始词向量之后,获取每个原始词向量的重要性权重,该原始词向量的重要性权重用于指示与原始词向量对应的原始词在所处的原始短句中的重要程度,也即,计算原始文本中的原始短句中的各个原始词语在所处的原始短句中的重要性权重。
在获取与原始文本对应的原始词向量集中的每个原始词向量和每个原始词向量的重要性权重之后,根据与原始文本对应的原始词向量集中的每个原始词向量和每个原始词向量的重要性权重,确定与每个原始词向量对应的原始词所处的原始短句的原始短句向量,从而得到多个原始短句向量。
可选地,该实施例从原始文本的词层面进行处理,可以将原始文本中的同一原始短句的各个原始词向量通过门控循环单元(GRU)进行处理,得到各个原始词向量在所处的原始短句中的重要性权重{a1,a2...aN},进而通过各个原始词向量的重要性权重来调整原始短句中的各个原始词向量,同时组合调整后的原始短句中的所有原始词向量,得到原始短句的原始短句向量,该原始短句向量强化了对原始短句的语义理解贡献程度较大的原始词向量,而弱化了对原始短句的语义理解贡献程度较小的原始词向量,从而抓住了用户在原始文本中所表述的重点。
在该实施例中,目标文本中的目标词语对所处的目标文本中的目标短句的语义理解的贡献程度不一样。在获取与目标文本对应的目标词向量集中的每个目标词向量之后,获取每个目标词向量的重要性权重,该目标词向量的重要性权重用于指示与目标词向量对应的目标词在所处的目标短句中的重要程度,也即,计算目标文本中的目标短句中的各个目标词语在所处的目标短句中的重要性权重。
在获取与目标文本对应的目标词向量集中的每个目标词向量和每个目标词向量的重要性权重之后,根据与目标文本对应的目标词向量集中的每个目标词向量和每个目标词向量的重要性权重,确定与每个目标词向量对应的目标词所处的目标短句的目标短句向量,得到多个目标短句向量。
可选地,该实施例从目标文本的词层面进行处理,可以将目标文本中的同一目标短句的各个目标词向量通过门控循环单元进行处理,得到各个目标词向量在所处的目标短句中的重要性权重{a1′,a2′...aN′},通过各个目标词向量的重要性权重来调整目标短句中的各个目标词向量,同时组合调整后的目标短句中的所有目标词向量,得到目标短句的目标短句向量,该目标短句向量强化了对目标短句的语义理解贡献程度较大的目标词向量,而弱化了对目标短句的语义理解贡献程度较小的目标词向量,从而抓住了用户在目标文本中所表述的重点。
步骤S206,根据每个原始短句向量和每个原始短句在原始文本中的重要性权重,确定第一目标矩阵,并根据每个目标短句向量和每个目标短句在目标文本中的重要性权重,确定第二目标矩阵。
在步骤S206提供的技术方案中,每个原始短句在原始文本中的重要性权重可以为原始短句的重要性权重,用于指示原始短句在原始文本中的重要程度,每个目标短句在目标文本中的重要性权重可以为目标短句的重要性权重,用于指示目标短句在目标文本中的重要程度。
在该实施例中,原始文本包括多个原始短句,每个原始短句对原始文本的语义理解的贡献程度不同。为更好地理解一句长句,也需要判别组成其的短句的重要性。可选地,该实施例从原始文本的短句层面进行处理,在获取每个原始短句向量之后,获取每个原始短句在原始文本中的重要性权重,该原始短句的重要性权重用于指示目标短句在目标文本中的重要程度。可选地,通过门控循环单元对原始文本的多个原始短句进行处理,得到每个原始短句在原始文本中的重要性权重。通过每个原始短句的重要性权重对每个原始短句向量进行调整,同时组合原始文本中的所有调整后的原始短句向量,可以将调整后的原始短句向量顺着排布,从而得到第一目标矩阵,该第一目标矩阵也即原始文本的特征矩阵。
可选地,该实施例的目标文本包括多个目标短句,每个目标短句对目标文本的语义理解的贡献程度不同。可选地,该实施例从目标文本的短句层面进行处理,在获取每个目标短句向量之后,获取每个目标短句的重要性权重,该目标短句的重要性权重用于指示目标短句在目标文本中的重要程度。可选地,通过门控循环单元对目标文本的多个目标短句进行处理,得到每个目标短句在目标文本中的重要性权重。通过每个目标短句的重要性权重对每个目标短句向量进行调整,同时组合目标文本中的所有调整后的目标短句向量,可以将调整后的目标短句向量顺着排布,从而得到第二目标矩阵,该第二目标矩阵也即目标文本的特征矩阵。
步骤S208,根据第一目标矩阵和第二目标矩阵获取原始文本和目标文本之间的相似度。
在步骤S208提供的技术方案中,在得到第一目标矩阵和第二目标矩阵之后,根据第一目标矩阵和第二目标矩阵获取原始文本和目标文本之间的相似度,可以将第一目标矩阵和第二目标矩阵作点积,将点积结果作为原始文本和目标文本之间的相似度或者相似得分(0~1)。
可选地,该实施例的相似度可以为原始文本和目标文本同义和不同义的概率{p1,p2}(p1+p2=1)。
步骤S210,在相似度大于目标阈值的情况下,确定目标文本与原始文本相匹配,并输出目标文本。
在步骤S210提供的技术方案中,在根据第一目标矩阵和第二目标矩阵获取原始文本和目标文本之间的相似度之后,可以判断相似度是否大于目标阈值,该目标阈值可以为用于衡量输入原始文本与预先存储的目标文本之间的相似的临界值。如果相似度大于目标阈值,则目标文本与原始文本相似,则确定目标文本与原始文本相匹配,可以在会话窗口输出目标文本,从而将输入的原始文本转化为标准的目标文本。
可选地,该实施例适用于任何将口语化语句转换为标准化语句的场景,比如,智能客服根据用户所述的问题确定标准问题,搜索引擎对用户输入的请求提供准确的搜索问题等。
通过上述步骤S202至步骤S210,获取原始文本的多个原始短句和每个原始短句的多个原始词,获取目标文本的多个目标短句和每个目标短句的多个目标词;根据每个原始词的原始词向量和对应的重要性权重确定每个原始短句的原始短句向量,根据每个目标词的目标词向量和对应的重要性权重确定每个目标短句的目标短句向量;根据每个原始短句向量和对应的重要性权重确定的第一目标矩阵和根据每个目标短句向量和对应的重要性权重确定的第二目标矩阵,获取原始文本和目标文本之间的相似度;在相似度大于目标阈值时,确定目标文本与原始文本相匹配,输出目标文本。也就是说,对用户输入语句和标准语句分别进行词层面和短句层面的处理,将长句切分成短句,从长句中挖掘出重要的信息,计算用户输入和标准语句的相似度,进而返回与用户输入的语句对应的标准语句,达到了有效地将用户输入语句与标准语句进行匹配的目的,提高了对文本进行匹配的准确性,进而解决了相关技术对文本进行匹配的准确性低的技术问题。
作为一种可选的实施方式,在步骤S210,输出目标文本时,该方法还包括:输出与目标文本相匹配的答复文本,其中,原始文中本用于请求获取答复文本。
在该实施例中,原始文本可以为用户在会话窗口中输入的用于请求获取答复文本的文本。在会话窗口输入原始文本时,除了通过该实施例的上述方法自动输出目标文本之外,还可以输出与目标文本相匹配的答复文本,比如,智能客服根据用户所述的问题除了输出标准问题之外,还可以进行简要回答,搜索引擎对用户输入的请求除了提供准确的搜索问题之外,还可以提供针对搜索问题回答的搜索结果等。
该实施例能够抓住原始文本中的重点,对于输入的过长的原始文本,能够自动识别出各个原始短句的重要性,因而该实施例可以够抓住原始文本中的关键部分,对用户输入的原始文本进行针对性回答。
举例而言,用户输入的原始文本为“女,45岁,家族中有心脏病史,前一阵带孩子比较劳累,最近胸闷头晕,血压很高,请问吃什么药好”,则系统识别与其相似度最高的目标文本为“高血压吃什么药好”,并返回与药物相关的答复文本,从而达到了提高对文本进行匹配的准确性的目的。
该实施例可以识别输入的不同表述下的同一个问题,对用户输入的原始文本具有更强的适应性。当用户输入的原始文本存在语句重构、语序调换、口语化等现象时,也能够正确找出对应的目标文本。比如,用户输入的原始文本为“诊断出血压偏高,这是怎么回事?”,则识别出与该原始文本对应的目标文本为“高血压的定义”,并返回准确的答复文本,从而达到了提高对文本进行匹配的准确性的目的。
作为一种可选的实施方式,在得到多个原始短句向量和多个目标短句向量之前,该方法还包括:通过预先训练好的第一神经网络模型对每个原始词向量进行处理,得到每个原始词在所处的原始短句中的重要性权重;通过第一神经网络模型对每个目标词向量进行处理,得到每个目标词在所处的目标短句中的重要性权重。
在该实施例中,在根据每个原始词的原始词向量和每个原始词在所处的原始短句中的重要性权重,确定每个原始短句的原始短句向量,得到多个原始短句向量之前,需要获取每个原始词向量的重要性权重,可以预先训练第一神经网络模型,通过第一神经网络模型对原始词向量集中的多个原始词向量进行处理,得到每个原始词向量的重要性权重,该第一神经网络模型为对原始文本的句意进行理解的单元,可以为门控循环单元GRU。
该是私立通过第一神经网络模型对原始词向量集中的多个原始词向量进行处理,得到每个原始词向量的重要性权重,从而确定与原始词向量对应的原始词在所处的原始短句中的重要程度,比如,原始文本包括词语1、词语2……词语N,分别对应原始词向量集中的词向量1、词向量2……词向量N,通过第一神经网络模型对词向量1、词向量2……词向量N进行处理,得到向量1、词向量2……词向量N在所处原始短句中的重要性权重,进而根据与原始文本对应的原始词向量集中的每个原始词向量和每个原始词向量的重要性权重,确定与每个原始词向量对应的原始词所处的原始短句的原始短句向量,得到多个原始短句向量。
可选地,该实施例通过计算原始词向量的重要性权重,其中,用于表示原始短句j的第i个目标词向量,用于表示通过第一神经网络模型GRU对进行处理之后得到的参数,u用于表示随机初始化的参数,Attention()用于表示第一神经网络模型的注意力网络,用于表示原始短句j的第i个原始词向量在原始短句j的重要性权重。
可选地,在实现上述时,可以但不限于通过进行实现。其中,w用于表示权重,b用于表示偏置参数,在整个训练过程中不断被调整。
可选地,在根据每个目标词的目标词向量和每个目标词在所处的目标短句中的重要性权重,确定每个目标短句的目标短句向量,得到多个目标短句向量之前,需要获取每个目标词向量的重要性权重,还可以通过第一神经网络模型对目标词向量集中的多个目标词向量进行处理,得到每个目标词向量的重要性权重。
可选地,该实施例的目标文本包括词语1、词语2……词语N,分别对应目标词向量集中的词向量1、词向量2……词向量N,通过第一神经网络模型对词向量1、词向量2……词向量N进行处理,得到向量1、词向量2……词向量N在所处目标短句中的重要性权重。
可选地,该实施例通过计算目标词向量的重要性权重,其中,用于表示目标短句j的第i个目标词向量,用于表示通过第一神经网络模型GRU对进行处理之后得到的参数,u用于表示随机初始化的参数,Attention()用于表示第一神经网络模型的注意力网络,用于表示目标短句j的第i个目标词向量在目标短句j的重要性权重。
可选地,在实现上述时,可以但不限于通过进行实现。其中,w用于表示权重,b用于表示偏置参数,在整个训练过程中不断被调整。
作为一种可选的实施方式,训练第一神经网络模型的过程包括:获取第一文本样本和第一文本样本中的词在所处的短句中的重要性权重;通过第一文本样本和词在所处的短句中的重要性权重,对第一子神经网络模型进行训练,得到第一神经网络模型。
在该实施例中,预先获取第一文本样本,确定第一文本样本中的词在所处的短句中的重要性权重,进而通过第一文本样本和词在所处的短句中的重要性权重,对第一子神经网络模型进行训练,得到用于确定词向量在所处的短句中的重要性权重的第一神经网络模型,以实现为对原始文本和目标文本的句意进行理解的单元,比如,门控循环单元GRU,其中,第一子神经网络模型为初始建立的神经网络模型。
可选地,为了达到更好的处理效果,该实施例的第一神经网络模型还可以为长短时记忆网络(Long Short-Term Memory,简称为LSTM),循环神经网络(Recurrent NeuralNetwork,简称为RNN)、Transformer模块等,此处不做任何限制。
作为一种可选的实施方式,步骤S204,根据每个原始词的原始词向量和每个原始词在所处的原始短句中的重要性权重,确定每个原始短句的原始短句向量,得到多个原始短句向量包括:通过每个原始词在所处的原始短句中的重要性权重,对每个原始词向量进行调整,得到多个调整后的原始词向量;将同一原始短句中的多个调整后的原始词向量求和,得到多个原始短句向量。
在该实施例中,在根据每个原始词的原始词向量和每个原始词在所处的原始短句中的重要性权重,确定每个原始短句的原始短句向量时,可以通过每个原始词向量的重要性权重,对每个原始词向量进行调整,得到多个调整后的原始词向量,比如,获取每个原始词向量的重要性权重和每个原始词向量的积,从而得到多个调整后的原始词向量。在得到多个调整后的原始词向量之后,将同一原始短句中的多个调整后的原始词向量求和,得到多个原始短句向量,比如,{s1,s2...sM},其中,sj可以用于表示原始文本中的第j个短句向量,N可以用于表示原始文本中的原始短句中的原始词的数量,i=1,2……N,{s1,s2...sM}可以用于表示原始文本的多个短句向量,M可以用于表示原始文本中的原始短句的数量。
作为一种可选的实施方式,步骤S204,根据每个目标词的目标词向量和每个目标词在所处的目标短句中的重要性权重,确定每个目标短句的目标短句向量,得到多个目标短句向量包括:通过每个目标词在所处的目标短句中的重要性权重,对每个目标词向量进行调整,得到多个调整后的目标词向量;将同一目标短句中的多个调整后的目标词向量求和,得到多个目标短句向量。
在该实施例中,在根据每个目标词的目标词向量和每个目标词在所处的目标短句中的重要性权重,确定每个目标短句的目标短句向量时,可以通过每个目标词向量的重要性权重,对每个目标词向量进行调整,得到多个调整后的目标词向量,比如,获取每个目标词向量的重要性权重和每个目标词向量的积,将所获得的积作为调整后的目标词向量,从而得到多个调整后的目标词向量。在得到多个调整后的目标词向量之后,将同一目标短句中的多个调整后的目标词向量求和,得到多个目标短句向量,比如,{s1,s2...sM},其中,sj可以用于表示目标文本中的第j个短句向量,N可以用于表示目标文本中的目标短句中的目标词的数量,{s1,s2...sM}可以用于表示目标文本的多个短句向量,M可以用于表示目标文本中的原始短句的数量。
作为一种可选的实施方式,在步骤S206,确定第一目标矩阵和第二目标矩阵之前,该方法还包括:通过预先训练好的第二神经网络模型对每个原始短句向量进行处理,得到每个原始短句在原始文本中的重要性权重;通过第二神经网络模型对每个目标短句向量进行处理,得到每个目标短句在目标文本中的重要性权重。
在该实施例中,在根据每个原始短句向量和每个原始短句在原始文本中的重要性权重,确定第一目标矩阵之前,获取每个原始短句在原始文本中的重要性权重,可以通过预先训练好的第二神经网络模型对原始文本中的每个原始短句向量进行处理,得到每个原始短句在原始文本中的重要性权重。其中,第二神经网络模型可以为门控循环单元GRU。
可选地,该实施例通过第二神经网络模型对每个原始短句向量进行处理,得到每个原始短句的重要性权重,从而确定原始短句在所处的原始文本中的重要程度,比如,原始文本包括原始短句1、原始短句2……原始短句N,通过第二神经网络模型对原始短句1、原始短句2……原始短句N进行处理,得到原始短句1、原始短句2……原始短句N在所处的原始文文本中的重要性权重,进而根据每个原始短句向量和每个原始短句的重要性权重,确定第一目标矩阵。
可选地,该实施例通过计算每个原始短句在原始文本中的重要性权重,其中,可以用于表示长句k(原始文本)的原始短句j,可以用于表示通过第二神经网络模型GRU对进行处理之后得到的参数,u可以用于表示随机初始化的参数,Attention()可以用于表示第二神经网络模型的注意力网络,可以用于表示长句k(原始文本)的原始短句j在长句k(原始文本)的中的重要性权重。
可选地,在实现上述时,可以但不限于通过进行实现。其中,w用于表示权重,b用于表示偏置参数,在整个训练过程中不断被调整。
可选地,在根据每个目标短句向量和每个目标短句在目标文本中的重要性权重,确定第二目标矩阵之前,通过第二神经网络模型对每个目标短句向量进行处理,得到每个目标短句在目标文本中的重要性权重。
在该实施例中,在通过第二文本样本对第二子神经网络模型进行训练,得到第二神经网络模型之后,除了通过第二神经网络模型对每个原始短句向量进行处理,得到每个原始短句在原始文本中的重要性权重之外,还可以通过第二神经网络模型对每个目标短句向量进行处理,得到每个目标短句在目标文本中的重要性权重,从而确定每个目标短句在所处的目标文本中的重要程度。比如,目标文本包括目标短句1、目标短句2……目标短句N,通过第二神经网络模型对目标短句1、目标短句2……目标短句N进行处理,得到目标短句1、目标短句2……目标短句N在所处目标文本中的重要性权重。
可选地,该实施例通过计算每个目标短句在目标文本中的重要性权重,其中,可以用于表示长句k(目标文本)的目标短句j,可以用于表示通过第二神经网络模型GRU对进行处理之后得到的参数,u可以用于表示随机初始化的参数,Attention()可以用于表示第二神经网络模型的注意力网络,可以用于表示长句k(目标文本)的目标短句j在长句k(目标文本)中的重要性权重。
可选地,在实现上述时,可以但不限于通过进行实现。其中,w用于表示权重,b用于表示偏置参数,在整个训练过程中不断被调整。
作为一种可选的实施方式,训练第二神经网络模型的过程包括:获取第二文本样本和第二文本样本中的短句在第二文本样本中的重要性程度;通过第二文本样本和短句在第二文本样本中的重要性程度,对第二子神经网络模型进行训练,得到第二神经网络模型。
可选地,该实施例预先获取第二文本样本和第二文本样本中的短句在第二文本样本中的重要性程度,通过第二文本样本和短句在第二文本样本中的重要性程度,对第二子神经网络模型进行训练,得到用于确定短句在所处的文本中的重要性权重的第二神经网络模型,其中,第二神经网络模型可以为门控循环单元GRU,第二子神经网络模型为初始建立的神经网络模型。
可选地,为了达到更好的效果,该实施例的第二神经网络模型还可以为长短时记忆网络LSTM,循环神经网络RNN、Transformer模块等,此处不做任何限制。
作为一种可选的示例,为了使模型能够分辨出原始文本和目标文本相似还是不相似,需要先准备大量的同义句来训练上述第一子神经网络模型和第二子神经网络模型。可以将一对语句输入第一子神经网络模型或者第二神经子网络模型,(两个语句分别为用户输入的语句和多个已知标准语句中的一句),可以输出一个0到1之间的数,来表示这两句话的相似程度。可选地,如果上述两句话的语义完全相同,则输出1,如果完全不同,则输出0。因此,该实施例第一子神经网络模型和第二子神经网络模型进行训练的过程就是不断输入语句对,通过不断调整网络参数使其能够尽量输出与一对语句对应的标签(0或1),可以使用反向传播法,利用梯度下降技术逐步使参数逼近理想值。
该实施例可以自动生成用于语句匹配所需要的训练语料。有监督算法通常需要大量语料作为支撑,主要需要大量与应用场景相关的同义句语料,而这些语料有时并不容易获得然而,当问答系统应用在垂直领域时,从网络上可爬取的同义句资源是十分有限的,语料不足成为了训练第一子神经网络模型和第二子神经网络模型的巨大障碍。针对该情况,该实施例提出了多种同义句数据生成方法,可以根据给定的一句话自动生成多句与其意义相同但形式不同的语句。
可选地,该实施例通过语料聚类方法来扩充用于训练第一子神经网络模型和第二子神经网络模型的文本样本。可以将爬取得到的文本样本通过语句之间的最短编辑距离、语义距离等特征构建无向带权图,通过自动聚类算法使其自发地进行聚类,从而使得语义相似的语句聚在同一类中,最后将其组合并交给人工进行进一步审核,从而有利于挖掘出现有语料中语义相同而形式差别很大的同义句,进一步得到文本样本。
该实施例还可以通过相似句生成方法来扩充用于训练第一子神经网络模型和第二子神经网络模型的文本样本。由于可获取的同义句有限,该实施例用模型生成相似语句来扩充数据集。可选地,该实施例使用中文数据集以及上述审核过的相似语句对作为文本样本来训练Transformer模型,用它来生成与原句类似的语句,再进行人工标注来检验扩充到的文本样本的生成质量,从而得到文本样本,实现了快速获得大量优质语料的目的。
该实施例还可以通过二次翻译方法来扩充用于训练第一子神经网络模型和第二子神经网络模型的文本样本。由于不同语言对同一句话的表达多样性,该实施例利用二次翻译得到一句话的多个同义句,可以调用谷歌翻译API,将原句翻译成日语和泰语,再将翻译后的语句翻译回汉语,从而得到与原句意义相同的语句,并交给人工进行校验,从而得到文本样本。
需要说明的是,上述扩充用于训练第一子神经网络模型和第二子神经网络模型的文本样本的方法仅为本发明实施例的优选实施方式,并不代表本发明实施例的用于训练第一子神经网络模型和第二子神经网络模型的文本样本的方法仅为上述语料聚类方法、相似句生成方法、二次翻译方法,任何可以实现扩充用于训练第一子神经网络模型和第二子神经网络模型的文本样本的方法都在该实施例的方法之内,此处不再一一举例说明。
作为一种可选的实施方式,步骤S206,根据每个原始短句向量和每个原始短句在原始文本中的重要性权重,确定第一目标矩阵包括:通过每个原始短句在原始文本中的重要性权重,对每个原始短句向量进行调整,得到多个调整后的原始短句向量;将多个调整后的原始短句向量组合成第一目标矩阵。
在该实施例中,在根据每个原始短句向量和每个原始短句的重要性权重,确定第一目标矩阵时,可以通过每个原始短句的重要性权重,对每个原始短句向量进行调整,得到多个调整后的原始短句向量,比如,获取每个原始短句的重要性权重和每个原始短句向量的积,将所获得的积作为调整后的原始短句向量,从而得到多个调整后的原始短句向量。在得到多个调整后的原始短句向量之后,将多个调整后的原始短句向量组合成第一目标矩阵,比如,将每个原始短句的重要性权重和每个原始短句向量的积顺着依次,得到矩阵dk,其中,j=1,2……M,M用于表示原始文本的原始短句的数量,k=1,2。
作为一种可选的实施方式,步骤S206,根据每个目标短句向量和每个目标短句在目标文本中的重要性权重,确定第二目标矩阵包括:通过每个目标短句在目标文本中的重要性权重,对每个目标短句向量进行调整,得到多个调整后的目标短句向量;将多个调整后的目标短句向量组合成第二目标矩阵。
在该实施例中,在根据每个目标短句向量和每个目标短句的重要性权重,确定第二目标矩阵时,可以通过每个目标短句的重要性权重,对每个目标短句向量进行调整,得到多个调整后的目标短句向量,比如,获取每个目标短句的重要性权重和每个目标短句向量的积,将所获得的积作为调整后的目标短句向量,从而得到多个调整后的目标短句向量。在得到多个调整后的目标短句向量之后,将多个调整后的目标短句向量组合成第二目标矩阵,比如,将每个目标短句的重要性权重和每个目标短句向量的积依次排布,得到矩阵dk,其中,j=1,2……M,M用于表示目标文本的目标短句的数量,k=1,2。
作为一种可选的实施方式,在步骤S202,获取输入的原始文本之后,该方法还包括:对原始文本进行切分处理,得到原始文本的多个原始短句和每个原始短句的多个原始词;将每个原始短句的每个原始词转化为原始词向量,得到原始词向量集。
在该实施例中,在获取输入的原始文本之后,可以对原始文本进行切分处理,可以按照原始文本中的逗号将原始文本切分成多个原始短句。可选地,每个原始文本由M个原始短句构成,不足时以空缺补齐。可选地,该实施例可以通过结巴分词系统,将原始文本中的原始短句处理为独立的原始词语{x1,x2...xN},比如,每个原始短句由N个原始词语构成,不足时可以以空缺补齐,从而实现了将每个原始短句的每个原始词转化为原始词向量,得到原始词向量集的目的。
作为一种可选的实施方式,在步骤S202,获取目标文本之后,该方法还包括:对目标文本进行切分处理,得到目标文本的多个目标短句和每个目标短句的多个目标词;将每个目标短句的每个目标词转化为目标词向量,得到目标词向量集。
在该实施例中,在遍历目标文本数据库中待比对的每个目标文本之后,可以对目标文本进行切分处理,可以按照目标文本中的逗号将目标文本切分成多个目标短句。可选地,每个目标文本由M个目标短句构成,不足时以空缺补齐。可选地,该实施例可以通过结巴分词系统,将遍历到的目标文本中的目标短句处理为独立的目标词语{x1,x2...xN},比如,遍历到的每个目标短句由N个目标词语构成,不足时可以以空缺补齐,从而实现了将遍历到的每个目标短句的每个目标词转化为原始词向量,得到目标词向量集的目的。
作为一种可选的实施方式,步骤S208,根据第一目标矩阵和第二目标矩阵获取原始文本和目标文本之间的相似度包括:获取第一目标矩阵和第二目标矩阵二者之间的点积;将点积确定为相似度。
在该实施例中,在根据第一目标矩阵和第二目标矩阵获取原始文本和目标文本之间的相似度时,可以获取第一目标矩阵和第二目标矩阵二者之间的点积,比如,第一目标矩阵为d1,第二目标矩阵为d2,则第一目标矩阵d1和第二目标矩阵d1二者之间的点积V=d1·d2 T为相似度矩阵,则将V确定为原始文本和目标文本二者之间的相似度,进而在从多个相似度中获取最大相似度,并在最大相似度大于目标阈值的情况下,确定与最大相似度对应的目标文本为与原始文本语义相似的对象文本,在会话窗口输出与对象文本相匹配的答复文本,从而提高了对文本进行匹配的准确性。
可选地,该实施例通过预先训练好的卷积神经网络和线性神经网络对第一目标矩阵和第二目标矩阵之间的相似度矩阵进行处理,进而输出处理结果,其中,卷积神经网络的卷积层可以利用10个2乘2的卷积核对矩阵进行特征提取,并配合一个2乘2的最大池化层学习局部特征最大值;再利用全连接层将所得矩阵投影到256维的特征空间中。可选地,卷积层也可由线性层替代,从而达到更好的处理效果。
可选地,该实施例的层级注意力网络包括上述第一神经网络模型和第二神经网络模型,该实施例的层级注意力网络可以用于比对句子相似度,以判断两句话是否为同义句。该层级注意力网络用于对长句进行更好地处理,可以用于计算两个句子的相似性。其中,层级包括词语层、短句层和长句层;注意力机制,表示的是此系统判断不同部分重要性的能力;网络是因为这种结构是通过深度学习的神经网络实现的。在问答场景中主要表现为将用户输入的句子和数据库中标准问句的比配。其在比较长句-长句,长句-短句,短句-长句的情景下匹配的准确性更为准确。
可选地,该实施例将一对句子输入上述层级注意力网络(在该实施例的背景下,两个句子分别为用户输入句和已知标准句中的一句),层级注意力网络将输出一个0到1之间的数,来表示这两句话的相似程度。可选地,如果两句话的语义完全相同,则输出1;完全不同,则输出0。
作为一种可选的实施方式,确定目标文本与原始文本相匹配的过程包括:遍历目标文本数据库中待匹配的每个目标文本;获取原始文本和每个目标文本之间的相似度,得到多个相似度;从多个相似度中获取最大相似度,并在最大相似度大于目标阈值的情况下,确定与最大相似度对应的目标文本与原始文本相匹配。
可选地,获取通过会话窗口输入的原始文本,其中,原始文本用于请求获取答复文本;根据与原始文本对应的原始词向量集中的每个原始词向量和每个原始词向量的重要性权重,确定与每个原始词向量对应的原始词所处的原始短句的原始短句向量,得到多个原始短句向量,其中,原始词向量的重要性权重用于指示与原始词向量对应的原始词在所处的原始短句中的重要程度;遍历目标文本数据库中待比对的每个目标文本,对每个目标文本执行以下操作,得到与多个目标文本一一对应的多个相似度:根据与目标文本对应的目标词向量集中的每个目标词向量和每个目标词向量的重要性权重,确定与每个目标词向量对应的目标词所处的目标短句的目标短句向量,得到多个目标短句向量,其中,目标词向量的重要性权重用于指示与目标词向量对应的目标词在所处的目标短句中的重要程度;根据每个原始短句向量和每个原始短句的重要性权重,确定第一目标矩阵,并根据每个目标短句向量和每个目标短句的重要性权重,确定第二目标矩阵,其中,原始短句的重要性权重用于指示原始短句在原始文本中的重要程度,目标短句的重要性权重用于指示目标短句在目标文本中的重要程度;根据第一目标矩阵和第二目标矩阵获取原始文本和目标文本之间的相似度;从多个相似度中获取最大相似度,并在最大相似度大于目标阈值的情况下,确定与最大相似度对应的目标文本为与原始文本语义相似的对象文本,在会话窗口输出与对象文本相匹配的答复文本。
在该实施例中,可以遍历目标文本数据库中待比对的每个目标文本,通过该实施例的上述方法获取原始文本和每个目标文本之间的相似度,从而得到与多个目标文本一一对应的多个相似度。
举例而言,将用户输入问句与多个标准问句执行上述操作,得到用户输入问句与标准问句1的相似得分1,用户输入问句与标准问句2的相似得分2……用户输入问句与标准问句N的相似得分N。
在得到多个相似度之后,可以从多个相似度中获取最大相似度,判断最大相似度是否大于目标阈值。如果最大相似度大于目标阈值,则确定与最大相似度对应的目标文本与原始文本相匹配,也即,确定与最大相似度对应的目标文本为与原始文本语义相似的对象文本,也即,在目标文本数据库中可以找到与用户输入的原始文本语义相似的标准问句,进而在会话窗口输出与对象文本相匹配的答复文本,该答复文本为对与最大相似度对应的目标文本进行回答的标准文本,从而有效地将用户输入与标准化语句进行匹配,并返回对应的答复。
作为一种可选的示例,该实施例遍历目标文本数据库中待比对的每个目标文本,对每个目标文本执行以下操作,直至确定出与原始文本语义相似的对象文本:根据与目标文本对应的目标词向量集中的每个目标词向量和每个目标词向量的重要性权重,确定与每个目标词向量对应的目标词所处的目标短句的目标短句向量,得到多个目标短句向量,其中,目标词向量的重要性权重用于指示与目标词向量对应的目标词在所处的目标短句中的重要程度;根据每个原始短句向量和每个原始短句的重要性权重,确定第一目标矩阵,并根据每个目标短句向量和每个目标短句的重要性权重,确定第二目标矩阵,其中,原始短句的重要性权重用于指示原始短句在原始文本中的重要程度,目标短句的重要性权重用于指示目标短句在目标文本中的重要程度;根据第一目标矩阵和第二目标矩阵获取原始文本和目标文本之间的相似度;在相似度大于目标阈值的情况下,确定目标文本为与原始文本语义相似的对象文本,则在会话窗口输出与对象文本相匹配的答复文本。
作为一种可选的实施方式,在从多个相似度中获取最大相似度之后,该方法还包括:在最大相似度不大于目标阈值的情况下,确定目标文本数据库中不存在与原始文本相匹配的目标文本,并输出提示信息,其中,提示信息用于提示再次获取不同于原始文本的文本。
在该实施例中,在从多个相似度中获取最大相似度之后,判断最大相似度是否大于目标阈值。如果判断出最大相似度不大于目标阈值,则确定目标文本数据库中不存在与原始文本的语义相似的对象文本,也即,目标数据库中没有与原始文本相匹配的文本,则通过会话窗口输出提示信息,该提示信息用于提示再次向会话窗口输入不同于原始文本的文本,可以为兜底回复,比如,在高血压问答系统中,当用户输入的原始文本为与高血压无关的问题时,能够通过用户输入的问题与目标文本之间的相似度是否超过目标阈值,来确定出用户输入的问题是否为与高血压无关的问题,如果判断出用户输入的问题为与高血压无关的问题,则在会话窗口返回提示信息,而不是返回与输入的原始文本无关的回答。
作为一种可选的示例,该实施例通过数据爬取和专业审核,构建一个由多个问答对组成的问答库,并将其中的问句确定为目标文本。当用户通过客户端输入问题时,系统通过训练好的层级注意力网络(HAN)将用户输入的问题与问答库中已有的标准问句进行比对,分别计算出用户问句与每一个标准问句的相似度分值(此分值在0~1之间),取其中得分最高的标准问句,并判断此得分是否符合输出答复文本的触发条件,比如,判断得分是否超过目标阈值。如果得分超过目标阈值,则确定能够在问答库中找到和该用户输入的问句意义相同的标准问句,并返回与标准问句对应的回答。如果不符合触发条件,则说明问答库中没有存储能够回答用户输入的问题的问答对,则返回通用性的兜底回答,比如,输出“请您准确得描述问题,再次输入。
该实施例的文本的处理方法可以为一种基于层级注意力机制的语句匹配方法,将长句切分成短句,在所得的短句上再进行注意力机制分析,从而得到长句的矩阵表示,具有词语层面和短句层面的注意力机制;对用户输入的语句和标准语句两个句子分别做两层注意力机制之后形成的是相似度矩阵,然后可以用卷积神经网络提取特征计算其相似度,从而能够有效地将用户输入的语句与标准语句进行匹配,避免了语义理解偏移,提高了对文本进行匹配的准确性,进而解决了相关技术对文本进行匹配的准确性低的技术问题。
下面结合优选的实施例对本发明的技术方案进行说明。具体以基于层级注意力机制和交互式的语句匹配方法进行举例说明。
在机器自动问答的场景中,对于表述规范且长度较短(少于10字)的问句,机器通常可以返回理想的回答。然而,当问句超过一定长度或者比较口语化时,机器往往无法抓住用户所表述的重点,从而返回不相关的回答。
该实施例的文本处理方法可在任何交互式界面中实现,下面应用在高血压问答系统中的场景进行介绍。
图3是根据本发明实施例的一种高血压小助手的交互式界面的示意图。如图3所示,为即时通讯应用中的对话框。用户输入“neng服用固本延龄丸吗”,该语句为用户输入的带有错别字“neng”的语句,在对话框中返回“您好,识别到您问的问题是:高血压患者要长期服用降压药,他们也能服用固本延龄丸吗?对应的答案是:医生建议这个要看具体的病症表现,关于具体的药物选择方面也是需要遵从就诊医生的建议的不是自己想当然想吃什么药物就吃什么,这样的做法是不可取的”。
图4是根据本发明实施例的另一种高血压小助手的交互式界面的示意图。如图4所示,用户输入语句“医生您好,我有高血压心脏病,请问怎么锻炼”,该语句为用户输入的带有多个逗号的语句,在对话框中返回“您好,识别到您的问题是:高血压心脏病怎么锻炼。对应的答案是:首先,不要选择清晨锻炼,因为倾城是心脑血管发病的高峰时间,容易出现意外,所以一般选择下午4:00~6:00,此时不仅是高血压的低峰,而且经过一天的日照,尘埃也处于较高的空中,空气质量较好。其次,活动强度,不要参加竞技类、具有对抗性质的比赛,如篮球、足球比赛等,除了日常的散步、家务,可以适当的慢跑、游泳、只要自己不感觉劳累就可,要随着自己的可接受程度慢慢增加运动强度。如果血压控制不佳或者超过180/110mmHg暂停运动锻炼。
该实施例的高血压小助手的交互式界面,还可以允许用户输入未声明高血压前提的语句,该产品均能返回详尽专业的回答,从而在高血压问答助手这一产品中提高了系统的整体匹配精确度,进而改善了用户体验。
该实施例的核心部分为用于比对语句相似度的层级注意力网络(HAN)。该网络的主要作用是计算两个语句的相似性,以判断两句话是否为同义句。在问答场景中,主要表现为将用户输入的语句和数据库中预先存储的标准问句进行比配。其在比较长句与长句,长句与短句,短句与长句的情景下,对用户输入的问句匹配的标准问句和对应的答复的准确性比较高。
图5是根据本发明实施例的一种通过层级注意力网络比对语句相似度的示意图。如图5所示,该实施例将一对语句A和语句B输入本网络,语句A为用户输入句,语句B为已知标准句中的一句。通过层级注意力网络的处理,将输出一个0到1之间的数,用于表示语句A和语句B二者之间的相似程度。如果语句A和语句B的语义完全相同,则输出1;如果语句A和语句B的语义完全不同,则输出0。
可选地,该实施例将一个长句看作是由多个短句组成的,其中,多个短句可以是以逗号为分界,而一个短句可以看作是由多个词语组成的。为了更好地理解一句短句,需要判断出这一短句中不同的词语的重要性;同理,为了更好地理解一句长句,也需要我们判别组成其的短句孰轻孰重。该实施例的层级注意力网络就是基于此,可以对长句进行更好的处理。其中的层级,用于表示词语层、短句层和长句层;注意力机制,表示的是此系统判断不同部分重要性的能力;称之为网络是因为这种结构是通过深度学习的神经网络实现的。
图6是根据本发明实施例的另一种通过层级注意力网络比对语句相似度的示意图。如图6所示,为实施例的层级注意力网络的具体实现过程。左侧的上下两部分分别用于表示代表输入的两句话;在对这两句话进行词层面和短句层面的处理之后,可以通过神经网络求出两句话的相似度,以衡量它们的相似程度。
由上述可知,该实施例的层级注意力网络的特点是,先对一个短句中的各词语进行学习,通过各词语的重要性权重找出关键词语,比如,将重要性权重大于目标阈值的词语确定为短句的关键词语;再对一个长句中的各短句进行学习,通过各个短句的重要性权重找出长句中的关键短句,比如,将重要性权重大于目标阈值的短句确定为长句的关键短句。通过这种词语->短句->长句的层级结构,层级注意力网络可以更好地理解语句中的各个部分,从而在语句的各种操作中得到更好的结果。
下面对层级注意力网络对语句进行处理的过程进行介绍。
该实施例可以按照逗号将输入的一句话分成多个短句。假设每个长句由M个短句构成,不足时可以空缺补齐。可选地,该实施例使用结巴分词系统,将短句处理为独立的词语{x1,x2...xN}。假设每个短句由N个词语构成,不足时可以空缺补齐。
该实施例可以通过词嵌入技术,将对长句进行切分得到的每个词语映射成为对应的词向量{x1,x2...xN}。可选地,该实施例可以采用word2vec训练词向量,其中,每个词向量可以300维,也即,前面的词向量{x1,x2...xN}为一个300维的向量。
该实施例在计算短句中的词语重要性权重时,可以将同一短句中的词向量通过门控循环单元GRU,学习到各个词在原短句中的重要性权重{a1,a2...aN}。通过重要性权重调整短句中的各个词向量,同时组合同一短句中的所有词,得到长句的每个短句向量。
可选地,该实施例通过计算词向量的重要性权重,其中,用于表示短句j的第i个词向量,用于表示通过GRU对进行处理之后得到的参数,u用于表示随机初始化的参数,Attention()用于表示注意力网络,用于表示短句j的第i个词向量在短句j的重要性权重。{s1,s2...sM},其中,sj可以用于表示长句中的第j个短句向量,N可以用于表示长句中的短句中的词语的数量,i=1,2……N,{s1,s2...sM}可以用于表示长句的多个短句向量,M可以用于表示长句中的短句的数量。
可选地,在实现上述时,可以但不限于通过进行实现。其中,w用于表示权重,b用于表示偏置参数,在整个训练过程中不断被调整。
可选地,在实现上述时,可以但不限于通过进行实现。其中,w用于表示权重,b用于表示偏置参数,在整个训练过程中不断被调整。
该实施例在计算长句中的短句的重要性权重时,可以将每个短句向量输入至另一个门控循环单元GRU,通过GRU学习到每个短句在原长句中的重要性权重{b1,b2...bM}。通过重要性权重调整长句中的各个短句向量,同时组合同一长句中的所有短句,得到两个长句的矩阵化表示{d1,d2}
可选地,该实施例通过计算每个短句在长句中的重要性权重,其中,可以用于表示长句k的短句j,可以用于表示通过GRU对进行处理之后得到的参数,u可以用于表示随机初始化的参数,Attention()可以用于表示注意力网络,可以用于表示长句k的短句j在长句k中的重要性权重。将bjhj依次排列,得到矩阵dk,其中,j=1,2……M,M用于表示长句的短句的数量,k=1,2。
可选地,在实现上述时,可以但不限于通过进行实现。其中,w用于表示权重,b用于表示偏置参数,在整个训练过程中不断被调整。
在该实施例中,在得到两个长句对应的矩阵之后,可以通过两个长句对应的矩阵确定两个长句的相似性。该实施例利用卷积神经网络层和全链接神经网络层,学习两个长句对应的矩阵中的重要特征,其中,全链接神经网络层为将一个向量空间中的向量投影到另一个计算更方便的空间,以便更高效得计算。可选地,该实施例将所得的两个长句对应的矩阵作点积,从而求出两个语句之间的相似度矩阵V=d1·d2 T。
在上述相似度矩阵的基础上,连接一层神经网络层,该神经网络层包括一层卷积神经网络、一层全连接神经网络和归一化softmax层,最终输出两句话是同义和不同义的概率{p1,p2}(p1+p2=1)。p=linear[CNN(V)]
其中,上述卷积神经网络层可以利用10个2乘2的卷积核对相似度矩阵进行特征提取,并配合一个2乘2的最大池化层学习局部特征最大值;再利用上述全连接层将所得矩阵投影到256维的特征空间中。上述softmax层为数学函数。
该实施例可以利用有监督的深度学习模型,精准理解句意并进行语句匹配。该实施例改进了交互式深度学习模型,将其应用在问题匹配的场景中,其中,交互式指两个句子中的词语互相作用,在词维度上计算彼此之间的相关性。通过对语句中各组成部分进行深度理解,能够从单个长句或由几个逗号组成的长句中挖掘出重要的信息,返回对应的短句。另外,对于多样化、个性化的口语表述,该实施例也能够将其转换为标准的书面语。
下面对该实施例的数据准备过程进行介绍。
在该实施例中,为了使模型能够分辨出两个语句相似还是不相似,在整个模型的训练过程中,需要先准备大量的同义句来训练模型,可以不断输入句子对,通过不断调整网络参数使其能够尽量输出一对句子对应的标签(0或1),可选地,该实施例使用反向传播法,利用梯度下降技术逐步使参数逼近理想值。然而,当问答系统应用在垂直领域时,从网络上可爬取的同义句资源十分有限,语料不足成为了训练模型的最大障碍。
该实施例可以自动生成用于语句匹配所需要的训练语料。有监督算法需要大量语料作为支撑,而这些语料有时并不容易获得。在本发明中,主要需要大量与应用场景相关的同义句,尤其是和高血压相关的同义句。因此,本发明提出一种能够自动生成与所给句意义近似的语料扩充方法,以快速获得大量优质语料。
针对该情况,该实施例提出了多种同义句数据生成方法,可根据给定的一句话自动生成多句与其意义相同但形式不同的语句。
下面对该实施例的通过语料聚类扩充原始语料的方法进行介绍。
图7是根据本发明实施例的一种原始语料扩充的示意图。如图7所示,该实施例的原始语料包括语料聚类、相似句生成和二次翻译。
作为一种可选的示例,该实施例将爬取得到的某一场景下的语句通过语句之间的最短编辑距离、语义距离等特征构建无向带权图,通过自动聚类算法使其自发地进行聚类,从而使得语义相似的语句聚在同一类中,最后将其组合并交给人工进行进一步审核。该方法有利于挖掘出现有语料中语义相同而形式差别很大的同义句。
作为另一种可选的示例,该实施例由于可获取的同义句有限,因而通过模型生成相似句来扩充数据集。该实施例可以使用中文数据集以及上述审核过的相似语句对作为训练语料来训练Transformer模型,用其生成与原句类似的语句,再进行人工标注检验生成质量。
作为另一种可选的示例,由于不同语言对同一句话的表达具有多样性,该实施例利用二次翻译得到一句话的多个同义句。可以调用谷歌翻译API,将原句翻译成日语和泰语,再将翻译后的语句翻译回汉语,从而得到与原句意义相同的语句,并交给人工进行校验。其中,亚洲语言之间的翻译更为准确。
下面对该实施例的基于层级注意力机制的系统架构进行介绍。
图8是根据本发明实施例的一种基于层级注意力机制和交互式的语句匹配的示意图。如图8所示,该实施例的方案可以在windows上进行实现,也可以应用于高血压问答助手上。通过数据爬取和专业审核,首先构建一个由多个问答对组成的问答库,并将其中的问句(书面语,短句)称为标准问句,包括标准问句1、标准问句2……标准问句N。
当用户通过客户端输入问句时,系统可以通过训练好的层级注意力网络(HAN)将用户输入的问句与问答库中已有的标准问句1、标准问句2……标准问句N一一进行比对,分别计算出用户问句与每一个标准问句的相似度分值(此分值在0~1之间),取其中的最大相似度分值,判断此最大相似度分值是否符合回答触发条件,比如,判断此最大相似度分值是否大于一定阈值,如果判断出符合触发条件,比如,判断出此最大相似度分值大于一定阈值,则认为能够在问答库中找到和该用户输入的问句意义相同的标准问句,并返回与对应标准问句对应的回答。如果不符合触发条件,也即,判断出此最大相似度分值不大于一定阈值,则确定问答库中没有存储与用户输入的问句对应的问答对,则可以返回通用性的兜底回答,比如,当用户输入与高血压无关的问题时,系统能够通过识别出其为与高血压无关的问题,并返回提示“请您准确得描述问题,再次输入”,而不是返回与问题无关的回答。
该实施例提出了一种基于层级注意力机制的语句匹配方法,可以将长句切分成短句,在所得的短句上再进行注意力机制分析,从而得到长句的矩阵表示,具有两层注意力机制;对输入语句和标准语句这两个语句分别做两层注意力机制处理,形成的是相似度矩阵,然后用卷积神经网络提取特征计算其相似度,从而能够有效地将用户输入与标准化语句进行匹配,进而解决了语义理解偏移问题。
需要说明的是,该实施例的核心技术可以为语句相似度对比,其主要通过层级注意力网络(HAN)来实现。其中,对句意的理解部分主要通过门控循环单元(GRU)来实现。为了达到更好的处理效果,句意理解部分还可以替换成其他单元,比如,长短时记忆网络(LSTM),循环神经网络(RNN)、Transformer模块等,此处不再一一举例说明。
该实施例的实质是将口语化的长句与已有的标准化语句匹配,其中,长句既可以是问句,也可以是陈述句、小短文等。因此,该是私立适用于任何将口语化语句标准化的场景。比如,智能客服根据用户所述问题进行简要回答、搜索引擎对用户输入的请求提供搜索结果等,此处不再一一举例说明。
该实施例的一些小的功能单元亦可由同种类功能单元替代。比如,分词所用的工具word2vec也可以由fast-text、ELMO、GLOVE等分词工具替代,也可以用BERT模型直接对句向量进行表示。神经网络中的卷积层也可由线性层替代,以达到更好的处理效果,此处不再一一举例说明。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
根据本发明实施例的另一方面,还提供了一种用于实施上述文本的处理方法的文本的处理装置。图9是根据本发明实施例的一种文本的处理装置的示意图。如图9所示,该文本的处理装置900可以包括:第一获取单元10、第一确定单元20、第二确定单元30、第二获取单元40和第三确定单元50。
第一获取单元10,用于获取输入的原始文本的多个原始短句和每个原始短句的多个原始词,并获取目标文本的多个目标短句和每个目标短句的多个目标词,其中,目标文本为与原始文本待进行匹配的文本。
第一确定单元20,用于根据每个原始词的原始词向量和每个原始词在所处的原始短句中的重要性权重,确定每个原始短句的原始短句向量,得到多个原始短句向量,并根据每个目标词的目标词向量和每个目标词在所处的目标短句中的重要性权重,确定每个目标短句的目标短句向量,得到多个目标短句向量。
第二确定单元30,用于根据每个原始短句向量和每个原始短句在原始文本中的重要性权重,确定第一目标矩阵,并根据每个目标短句向量和每个目标短句在目标文本中的重要性权重,确定第二目标矩阵。
第二获取单元40,用于根据第一目标矩阵和第二目标矩阵获取原始文本和目标文本之间的相似度。
第三确定单元50,用于在相似度大于目标阈值的情况下,确定目标文本与原始文本相匹配,并输出目标文本。
需要说明的是,该实施例中的第一获取单元10可以用于执行本申请实施例中的步骤S202,该实施例中的第一确定单元20可以用于执行本申请实施例中的步骤S204,该实施例中的第二确定单元30可以用于执行本申请实施例中的步骤S206,该实施例中的第二获取单元40可以用于执行本申请实施例中的步骤S208,该实施例中的第三确定单元50可以用于执行本申请实施例中的步骤S210。
此处需要说明的是,上述单元与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述单元作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
图10是根据本发明实施例的一种电子装置的结构框图。如图10所示,该电子装置包括存储器1002和处理器1004,该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器1004可以被设置为通过计算机程序执行以下步骤:
S1,获取输入的原始文本的多个原始短句和每个原始短句的多个原始词,并获取目标文本的多个目标短句和每个目标短句的多个目标词,其中,目标文本为与原始文本待进行匹配的文本;
S2,根据每个原始词的原始词向量和每个原始词在所处的原始短句中的重要性权重,确定每个原始短句的原始短句向量,得到多个原始短句向量,并根据每个目标词的目标词向量和每个目标词在所处的目标短句中的重要性权重,确定每个目标短句的目标短句向量,得到多个目标短句向量;
S3,根据每个原始短句向量和每个原始短句在原始文本中的重要性权重,确定第一目标矩阵,并根据每个目标短句向量和每个目标短句在目标文本中的重要性权重,确定第二目标矩阵;
S4,根据第一目标矩阵和第二目标矩阵获取原始文本和目标文本之间的相似度;
S5,在相似度大于目标阈值的情况下,确定目标文本与原始文本相匹配,并输出目标文本。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等),或者具有与图10所示不同的配置。
其中,存储器1002可用于存储软件程序以及模块,如本发明实施例中的文本的处理方法和装置对应的程序指令/模块,处理器1004通过运行存储在存储器1002内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本的处理方法。存储器1002可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1002可进一步包括相对于处理器1004远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器1002具体可以但不限于用于存储原始词向量、原始词向量的重要性权重、目标词向量和目标词向量的重要性权重等信息。作为一种示例,如图10所示,上述存储器1002中可以但不限于包括上述文本的处理装置900中的第一获取单元10、第一确定单元20、第二确定单元30、第二获取单元40和第三确定单元50。此外,还可以包括但不限于上述文本的处理装置中的其他模块单元,本示例中不再赘述。
上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1006包括一个网络适配器(NetworkInterface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1006为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子装置还包括:显示器1008,用于显示上述目标代码在第一目标函数中的执行状态;连接总线1010,用于连接上述电子装置中的各个模块部件。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取输入的原始文本的多个原始短句和每个原始短句的多个原始词,并获取目标文本的多个目标短句和每个目标短句的多个目标词,其中,目标文本为与原始文本待进行匹配的文本;
S2,根据每个原始词的原始词向量和每个原始词在所处的原始短句中的重要性权重,确定每个原始短句的原始短句向量,得到多个原始短句向量,并根据每个目标词的目标词向量和每个目标词在所处的目标短句中的重要性权重,确定每个目标短句的目标短句向量,得到多个目标短句向量;
S3,根据每个原始短句向量和每个原始短句在原始文本中的重要性权重,确定第一目标矩阵,并根据每个目标短句向量和每个目标短句在目标文本中的重要性权重,确定第二目标矩阵;
S4,根据第一目标矩阵和第二目标矩阵获取原始文本和目标文本之间的相似度;
S5,在相似度大于目标阈值的情况下,确定目标文本与原始文本相匹配,并输出目标文本。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
在输出目标文本时,输出与目标文本相匹配的答复文本,其中,原始文本用于请求获取答复文本。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
在得到多个原始短句向量和多个目标短句向量之前,通过预先训练好的第一神经网络模型对每个原始词向量进行处理,得到每个原始词在所处的原始短句中的重要性权重;通过第一神经网络模型对每个目标词向量进行处理,得到每个目标词在所处的目标短句中的重要性权重。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取第一文本样本和第一文本样本中的词在所处的短句中的重要性权重;
S2,通过第一文本样本和词在所处的短句中的重要性权重,对第一子神经网络模型进行训练,得到第一神经网络模型。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,通过每个原始词在所处的原始短句中的重要性权重,对每个原始词向量进行调整,得到多个调整后的原始词向量;
S2,将同一原始短句中的多个调整后的原始词向量求和,得到多个原始短句向量。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,通过每个目标词在所处的目标短句中的重要性权重,对每个目标词向量进行调整,得到多个调整后的目标词向量;
S2,将同一目标短句中的多个调整后的目标词向量求和,得到多个目标短句向量。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在确定第一目标矩阵和第二目标矩阵之前,通过预先训练好的第二神经网络模型对每个原始短句向量进行处理,得到每个原始短句在原始文本中的重要性权重;
S2,通过第二神经网络模型对每个目标短句向量进行处理,得到每个目标短句在目标文本中的重要性权重。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取第二文本样本和第二文本样本中的短句在第二文本样本中的重要性程度;
S2,通过第二文本样本和短句在第二文本样本中的重要性程度,对第二子神经网络模型进行训练,得到第二神经网络模型。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,通过每个原始短句在原始文本中的重要性权重,对每个原始短句向量进行调整,得到多个调整后的原始短句向量;
S2,将多个调整后的原始短句向量组合成第一目标矩阵。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,通过每个目标短句在目标文本中的重要性权重,对每个目标短句向量进行调整,得到多个调整后的目标短句向量;
S2,将多个调整后的目标短句向量组合成第二目标矩阵。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,获取第一目标矩阵和第二目标矩阵二者之间的点积;
S2,将点积确定为相似度。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,遍历目标文本数据库中待匹配的每个目标文本;
S2,获取原始文本和每个目标文本之间的相似度,得到多个相似度;
S3,从多个相似度中获取最大相似度,并在最大相似度大于目标阈值的情况下,确定与最大相似度对应的目标文本与原始文本相匹配。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
在从多个相似度中获取最大相似度之后,在最大相似度不大于目标阈值的情况下,确定目标文本数据库中不存在与原始文本相匹配的目标文本,并输出提示信息,其中,提示信息用于提示再次获取不同于原始文本的文本。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (15)
1.一种文本的处理方法,其特征在于,包括:
获取输入的原始文本的多个原始短句和每个所述原始短句的多个原始词,并获取目标文本的多个目标短句和每个所述目标短句的多个目标词,其中,所述目标文本为与所述原始文本待进行匹配的文本;
根据每个所述原始词的原始词向量和每个所述原始词在所处的所述原始短句中的重要性权重,确定每个所述原始短句的原始短句向量,得到多个原始短句向量,并根据每个所述目标词的目标词向量和每个所述目标词在所处的所述目标短句中的重要性权重,确定每个所述目标短句的目标短句向量,得到多个目标短句向量;
根据每个所述原始短句向量和每个所述原始短句在所述原始文本中的重要性权重,确定第一目标矩阵,并根据每个所述目标短句向量和每个所述目标短句在所述目标文本中的重要性权重,确定第二目标矩阵;
根据所述第一目标矩阵和所述第二目标矩阵获取所述原始文本和所述目标文本之间的相似度;
在所述相似度大于目标阈值的情况下,确定所述目标文本与所述原始文本相匹配,并输出所述目标文本。
2.根据权利要求1所述的方法,其特征在于,在输出所述目标文本时,所述方法还包括:
输出与所述目标文本相匹配的答复文本,其中,所述原始文本用于请求获取所述答复文本。
3.根据权利要求1所述的方法,其特征在于,在得到多个所述原始短句向量和多个所述目标短句向量之前,所述方法还包括:
通过预先训练好的第一神经网络模型对每个所述原始词向量进行处理,得到每个所述原始词在所处的所述原始短句中的重要性权重;
通过所述第一神经网络模型对每个所述目标词向量进行处理,得到每个所述目标词在所处的所述目标短句中的重要性权重。
4.根据权利要求3所述的方法,其特征在于,训练所述第一神经网络模型的过程包括:
获取第一文本样本和所述第一文本样本中的词在所处的短句中的重要性权重;
通过所述第一文本样本和所述词在所处的所述短句中的重要性权重,对第一子神经网络模型进行训练,得到所述第一神经网络模型。
5.根据权利要求1所述的方法,其特征在于,根据每个所述原始词的原始词向量和每个所述原始词在所处的所述原始短句中的重要性权重,确定每个所述原始短句的原始短句向量,得到多个原始短句向量包括:
通过每个所述原始词在所处的所述原始短句中的重要性权重,对每个所述原始词向量进行调整,得到多个调整后的所述原始词向量;
将同一所述原始短句中的多个调整后的所述原始词向量求和,得到多个所述原始短句向量。
6.根据权利要求1所述的方法,其特征在于,根据每个所述目标词的目标词向量和每个所述目标词在所处的所述目标短句中的重要性权重,确定每个所述目标短句的目标短句向量,得到多个目标短句向量包括:
通过每个所述目标词在所处的所述目标短句中的重要性权重,对每个所述目标词向量进行调整,得到多个调整后的所述目标词向量;
将同一所述目标短句中的多个调整后的所述目标词向量求和,得到多个所述目标短句向量。
7.根据权利要求1所述的方法,其特征在于,在确定所述第一目标矩阵和所述第二目标矩阵之前,所述方法还包括:
通过预先训练好的第二神经网络模型对每个所述原始短句向量进行处理,得到每个所述原始短句在所述原始文本中的重要性权重;
通过所述第二神经网络模型对每个所述目标短句向量进行处理,得到每个所述目标短句在所述目标文本中的重要性权重。
8.根据权利要求7所述的方法,其特征在于,训练所述第二神经网络模型的过程包括:
获取第二文本样本和所述第二文本样本中的短句在所述第二文本样本中的重要性程度;
通过所述第二文本样本和所述短句在所述第二文本样本中的重要性程度,对第二子神经网络模型进行训练,得到所述第二神经网络模型。
9.根据权利要求1所述的方法,其特征在于,根据每个所述原始短句向量和每个所述原始短句在所述原始文本中的重要性权重,确定第一目标矩阵包括:
通过每个所述原始短句在所述原始文本中的重要性权重,对每个所述原始短句向量进行调整,得到多个调整后的所述原始短句向量;
将多个调整后的所述原始短句向量组合成所述第一目标矩阵。
10.根据权利要求1所述的方法,其特征在于,根据每个所述目标短句向量和每个所述目标短句在所述目标文本中的重要性权重,确定第二目标矩阵包括:
通过每个所述目标短句在所述目标文本中的重要性权重,对每个所述目标短句向量进行调整,得到多个调整后的所述目标短句向量;
将多个调整后的所述目标短句向量组合成所述第二目标矩阵。
11.根据权利要求1所述的方法,其特征在于,根据所述第一目标矩阵和所述第二目标矩阵获取所述原始文本和所述目标文本之间的相似度包括:
获取所述第一目标矩阵和所述第二目标矩阵二者之间的点积;
将所述点积确定为所述相似度。
12.根据权利要求1至11中任意一项所述的方法,其特征在于,确定所述目标文本与所述原始文本相匹配的过程包括:
遍历目标文本数据库中待匹配的每个所述目标文本;
获取所述原始文本和每个所述目标文本之间的所述相似度,得到多个所述相似度;
从所述多个相似度中获取最大相似度,并在所述最大相似度大于所述目标阈值的情况下,确定与所述最大相似度对应的所述目标文本与所述原始文本相匹配。
13.根据权利要求12所述的方法,其特征在于,在从所述多个相似度中获取最大相似度之后,所述方法还包括:
在所述最大相似度不大于所述目标阈值的情况下,确定所述目标文本数据库中不存在与所述原始文本相匹配的所述目标文本,并输出提示信息,其中,所述提示信息用于提示再次获取不同于所述原始文本的文本。
14.一种文本的处理装置,其特征在于,包括:
第一获取单元,用于获取输入的原始文本的多个原始短句和每个所述原始短句的多个原始词,并获取目标文本的多个目标短句和每个所述目标短句的多个目标词,其中,所述目标文本为与所述原始文本待进行匹配的文本;
第一确定单元,用于根据每个所述原始词的原始词向量和每个所述原始词在所处的所述原始短句中的重要性权重,确定每个所述原始短句的原始短句向量,得到多个原始短句向量,并根据每个所述目标词的目标词向量和每个所述目标词在所处的所述目标短句中的重要性权重,确定每个所述目标短句的目标短句向量,得到多个目标短句向量;
第二确定单元,用于根据每个所述原始短句向量和每个所述原始短句在所述原始文本中的重要性权重,确定第一目标矩阵,并根据每个所述目标短句向量和每个所述目标短句在所述目标文本中的重要性权重,确定第二目标矩阵;
第二获取单元,用于根据所述第一目标矩阵和所述第二目标矩阵获取所述原始文本和所述目标文本之间的相似度;
第三确定单元,用于在所述相似度大于目标阈值的情况下,确定所述目标文本与所述原始文本相匹配,并输出所述目标文本。
15.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至13任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910178294.XA CN110033022A (zh) | 2019-03-08 | 2019-03-08 | 文本的处理方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910178294.XA CN110033022A (zh) | 2019-03-08 | 2019-03-08 | 文本的处理方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110033022A true CN110033022A (zh) | 2019-07-19 |
Family
ID=67235191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910178294.XA Pending CN110033022A (zh) | 2019-03-08 | 2019-03-08 | 文本的处理方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110033022A (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929527A (zh) * | 2019-11-15 | 2020-03-27 | 北京明略软件系统有限公司 | 一种确定语义相似度方法及装置 |
CN111259113A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN111368552A (zh) * | 2020-02-26 | 2020-07-03 | 北京市公安局 | 一种面向特定领域的网络用户群组划分方法及装置 |
CN111414765A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
CN111581929A (zh) * | 2020-04-22 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 基于表格的文本生成方法及相关装置 |
CN111627512A (zh) * | 2020-05-29 | 2020-09-04 | 北京大恒普信医疗技术有限公司 | 一种相似病历的推荐方法、装置,电子设备及存储介质 |
CN111753541A (zh) * | 2020-06-24 | 2020-10-09 | 云南电网有限责任公司信息中心 | 一种对于合同文本数据进行自然语言处理nlp的方法及系统 |
CN111767391A (zh) * | 2020-03-27 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 目标文本生成方法、装置、计算机系统和介质 |
CN111859997A (zh) * | 2020-06-16 | 2020-10-30 | 北京百度网讯科技有限公司 | 机器翻译中的模型训练方法、装置、电子设备及存储介质 |
CN111930894A (zh) * | 2020-08-13 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 长文本匹配方法及装置、存储介质、电子设备 |
CN112035671A (zh) * | 2020-11-05 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 状态检测方法、装置、计算机设备及存储介质 |
CN112183111A (zh) * | 2020-09-28 | 2021-01-05 | 亚信科技(中国)有限公司 | 长文本语义相似度匹配方法、装置、电子设备及存储介质 |
CN112651224A (zh) * | 2020-12-24 | 2021-04-13 | 天津大学 | 工程施工安全管理文档文本智能检索方法及装置 |
CN112732896A (zh) * | 2020-12-31 | 2021-04-30 | 天津开心生活科技有限公司 | 目标信息显示方法、装置、电子设备和介质 |
CN112765962A (zh) * | 2021-01-15 | 2021-05-07 | 上海微盟企业发展有限公司 | 一种文本纠错方法、装置及介质 |
CN113469627A (zh) * | 2021-07-26 | 2021-10-01 | 亿海蓝(北京)数据技术股份公司 | 船期相似性判断方法、装置、电子设备及存储介质 |
CN115114903A (zh) * | 2022-06-28 | 2022-09-27 | 中国银行股份有限公司 | 用户故事审核方法及装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156728A (zh) * | 2011-03-31 | 2011-08-17 | 河南理工大学 | 一种改进的基于用户兴趣模型的个性化摘要系统 |
CN102955772A (zh) * | 2011-08-17 | 2013-03-06 | 北京百度网讯科技有限公司 | 一种基于语义的相似度计算方法和装置 |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN105893524A (zh) * | 2016-03-31 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 一种智能问答方法及装置 |
CN107194617A (zh) * | 2017-07-06 | 2017-09-22 | 北京航空航天大学 | 一种app软件工程师软技能分类系统及方法 |
CN107480133A (zh) * | 2017-07-25 | 2017-12-15 | 广西师范大学 | 一种基于答案蕴涵与依存关系的主观题自适应阅卷方法 |
CN107562792A (zh) * | 2017-07-31 | 2018-01-09 | 同济大学 | 一种基于深度学习的问答匹配方法 |
CN107844469A (zh) * | 2017-10-26 | 2018-03-27 | 北京大学 | 基于词向量查询模型的文本简化方法 |
CN108491515A (zh) * | 2018-03-26 | 2018-09-04 | 中国科学技术大学 | 一种用于校园心理咨询的句对匹配度预测方法 |
CN108804677A (zh) * | 2018-06-12 | 2018-11-13 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及系统 |
CN109062977A (zh) * | 2018-06-29 | 2018-12-21 | 厦门快商通信息技术有限公司 | 一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统 |
WO2019012908A1 (ja) * | 2017-07-13 | 2019-01-17 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
CN109299478A (zh) * | 2018-12-05 | 2019-02-01 | 长春理工大学 | 基于双向长短期记忆神经网络的智能自动问答方法及系统 |
-
2019
- 2019-03-08 CN CN201910178294.XA patent/CN110033022A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156728A (zh) * | 2011-03-31 | 2011-08-17 | 河南理工大学 | 一种改进的基于用户兴趣模型的个性化摘要系统 |
CN102955772A (zh) * | 2011-08-17 | 2013-03-06 | 北京百度网讯科技有限公司 | 一种基于语义的相似度计算方法和装置 |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN105893524A (zh) * | 2016-03-31 | 2016-08-24 | 上海智臻智能网络科技股份有限公司 | 一种智能问答方法及装置 |
CN107194617A (zh) * | 2017-07-06 | 2017-09-22 | 北京航空航天大学 | 一种app软件工程师软技能分类系统及方法 |
WO2019012908A1 (ja) * | 2017-07-13 | 2019-01-17 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
CN107480133A (zh) * | 2017-07-25 | 2017-12-15 | 广西师范大学 | 一种基于答案蕴涵与依存关系的主观题自适应阅卷方法 |
CN107562792A (zh) * | 2017-07-31 | 2018-01-09 | 同济大学 | 一种基于深度学习的问答匹配方法 |
CN107844469A (zh) * | 2017-10-26 | 2018-03-27 | 北京大学 | 基于词向量查询模型的文本简化方法 |
CN108491515A (zh) * | 2018-03-26 | 2018-09-04 | 中国科学技术大学 | 一种用于校园心理咨询的句对匹配度预测方法 |
CN108804677A (zh) * | 2018-06-12 | 2018-11-13 | 合肥工业大学 | 结合多层级注意力机制的深度学习问题分类方法及系统 |
CN109062977A (zh) * | 2018-06-29 | 2018-12-21 | 厦门快商通信息技术有限公司 | 一种基于语义相似度的自动问答文本匹配方法、自动问答方法和系统 |
CN109299478A (zh) * | 2018-12-05 | 2019-02-01 | 长春理工大学 | 基于双向长短期记忆神经网络的智能自动问答方法及系统 |
Non-Patent Citations (5)
Title |
---|
CHUANQI TAN 等,: "Context-Aware Answer Sentence Selection With Hierarchical Gated Recurrent Neural Networks", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
JUNQING HE 等,: "Hierarchical Attention and Knowledge Matching Networks With Information Enhancement for End-to-End Task-Oriented Dialog Systems", 《IEEE》 * |
李兰君 等,: "基于改进孪生网络结构的相似法律案例检索研究", 《北京大学学报(自然科学版)》 * |
段旭磊 等,: "微博文本的句向量表示及相似度计算方法研究", 《计算机工程》 * |
程志强 等,: "一种基于向量词序的句子相似度算法研究", 《计算机仿真》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929527A (zh) * | 2019-11-15 | 2020-03-27 | 北京明略软件系统有限公司 | 一种确定语义相似度方法及装置 |
CN110929527B (zh) * | 2019-11-15 | 2023-05-09 | 北京明略软件系统有限公司 | 一种确定语义相似度方法及装置 |
CN111259113A (zh) * | 2020-01-15 | 2020-06-09 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN111259113B (zh) * | 2020-01-15 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 文本匹配方法、装置、计算机可读存储介质和计算机设备 |
CN111368552A (zh) * | 2020-02-26 | 2020-07-03 | 北京市公安局 | 一种面向特定领域的网络用户群组划分方法及装置 |
CN111414765A (zh) * | 2020-03-20 | 2020-07-14 | 北京百度网讯科技有限公司 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
CN111414765B (zh) * | 2020-03-20 | 2023-07-25 | 北京百度网讯科技有限公司 | 句子一致性的判定方法、装置、电子设备及可读存储介质 |
CN111767391A (zh) * | 2020-03-27 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 目标文本生成方法、装置、计算机系统和介质 |
CN111767391B (zh) * | 2020-03-27 | 2024-04-16 | 北京沃东天骏信息技术有限公司 | 目标文本生成方法、装置、计算机系统和介质 |
CN111581929A (zh) * | 2020-04-22 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 基于表格的文本生成方法及相关装置 |
CN111627512A (zh) * | 2020-05-29 | 2020-09-04 | 北京大恒普信医疗技术有限公司 | 一种相似病历的推荐方法、装置,电子设备及存储介质 |
CN111859997B (zh) * | 2020-06-16 | 2024-01-26 | 北京百度网讯科技有限公司 | 机器翻译中的模型训练方法、装置、电子设备及存储介质 |
CN111859997A (zh) * | 2020-06-16 | 2020-10-30 | 北京百度网讯科技有限公司 | 机器翻译中的模型训练方法、装置、电子设备及存储介质 |
CN111753541B (zh) * | 2020-06-24 | 2023-08-15 | 云南电网有限责任公司信息中心 | 一种对于合同文本数据进行自然语言处理nlp的方法及系统 |
CN111753541A (zh) * | 2020-06-24 | 2020-10-09 | 云南电网有限责任公司信息中心 | 一种对于合同文本数据进行自然语言处理nlp的方法及系统 |
CN111930894A (zh) * | 2020-08-13 | 2020-11-13 | 腾讯科技(深圳)有限公司 | 长文本匹配方法及装置、存储介质、电子设备 |
CN111930894B (zh) * | 2020-08-13 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 长文本匹配方法及装置、存储介质、电子设备 |
CN112183111A (zh) * | 2020-09-28 | 2021-01-05 | 亚信科技(中国)有限公司 | 长文本语义相似度匹配方法、装置、电子设备及存储介质 |
CN112035671B (zh) * | 2020-11-05 | 2021-02-26 | 腾讯科技(深圳)有限公司 | 状态检测方法、装置、计算机设备及存储介质 |
CN112035671A (zh) * | 2020-11-05 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 状态检测方法、装置、计算机设备及存储介质 |
CN112651224A (zh) * | 2020-12-24 | 2021-04-13 | 天津大学 | 工程施工安全管理文档文本智能检索方法及装置 |
CN112732896A (zh) * | 2020-12-31 | 2021-04-30 | 天津开心生活科技有限公司 | 目标信息显示方法、装置、电子设备和介质 |
CN112765962B (zh) * | 2021-01-15 | 2022-08-30 | 上海微盟企业发展有限公司 | 一种文本纠错方法、装置及介质 |
CN112765962A (zh) * | 2021-01-15 | 2021-05-07 | 上海微盟企业发展有限公司 | 一种文本纠错方法、装置及介质 |
CN113469627B (zh) * | 2021-07-26 | 2023-07-18 | 亿海蓝(北京)数据技术股份公司 | 船期相似性判断方法、装置、电子设备及存储介质 |
CN113469627A (zh) * | 2021-07-26 | 2021-10-01 | 亿海蓝(北京)数据技术股份公司 | 船期相似性判断方法、装置、电子设备及存储介质 |
CN115114903A (zh) * | 2022-06-28 | 2022-09-27 | 中国银行股份有限公司 | 用户故事审核方法及装置 |
CN115114903B (zh) * | 2022-06-28 | 2024-05-24 | 中国银行股份有限公司 | 用户故事审核方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033022A (zh) | 文本的处理方法、装置和存储介质 | |
CN111339774B (zh) | 文本的实体关系抽取方法和模型训练方法 | |
CN108986908A (zh) | 问诊数据处理方法、装置、计算机设备和存储介质 | |
CN109446927B (zh) | 基于先验知识的双人交互行为识别方法 | |
CN111026842A (zh) | 自然语言处理方法、自然语言处理装置及智能问答系统 | |
CN108363690A (zh) | 基于神经网络的对话语义意图预测方法及学习训练方法 | |
CN109902665A (zh) | 相似人脸检索方法、装置及存储介质 | |
CN107423398A (zh) | 交互方法、装置、存储介质和计算机设备 | |
CN107967255A (zh) | 一种判定文本相似性的方法和系统 | |
CN110675944A (zh) | 分诊方法及装置、计算机设备及介质 | |
CN110532996A (zh) | 视频分类的方法、信息处理的方法以及服务器 | |
CN110795913B (zh) | 一种文本编码方法、装置、存储介质及终端 | |
Shah et al. | Image captioning using deep neural architectures | |
CN107870964A (zh) | 一种应用于答案融合系统的语句排序方法及系统 | |
CN110462676A (zh) | 电子装置、其控制方法和非暂态计算机可读记录介质 | |
Han et al. | CookGAN: Meal image synthesis from ingredients | |
JP2018022496A (ja) | 自然言語処理装置に用いられるトレーニングデータを作成する方法と機器 | |
CN112000788B (zh) | 一种数据处理方法、装置以及计算机可读存储介质 | |
CN109272003A (zh) | 一种消除深度学习模型中未知错误的方法与装置 | |
CN109992781A (zh) | 文本特征的处理、装置、存储介质和处理器 | |
CN109977394A (zh) | 文本模型训练方法、文本分析方法、装置、设备及介质 | |
EP3726435A1 (en) | Deep neural network training method and apparatus, and computer device | |
Dsouza et al. | Chat with bots intelligently: A critical review & analysis | |
CN110457661A (zh) | 自然语言生成方法、装置、设备及存储介质 | |
CN110580341A (zh) | 一种基于半监督学习模型的虚假评论检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |