CN112949293A - 一种相似文本生成方法、相似文本生成装置及智能设备 - Google Patents

一种相似文本生成方法、相似文本生成装置及智能设备 Download PDF

Info

Publication number
CN112949293A
CN112949293A CN202110141735.6A CN202110141735A CN112949293A CN 112949293 A CN112949293 A CN 112949293A CN 202110141735 A CN202110141735 A CN 202110141735A CN 112949293 A CN112949293 A CN 112949293A
Authority
CN
China
Prior art keywords
similar
words
word
generating
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110141735.6A
Other languages
English (en)
Other versions
CN112949293B (zh
Inventor
熊为星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubtech Robotics Corp
Original Assignee
Ubtech Robotics Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubtech Robotics Corp filed Critical Ubtech Robotics Corp
Priority to CN202110141735.6A priority Critical patent/CN112949293B/zh
Publication of CN112949293A publication Critical patent/CN112949293A/zh
Application granted granted Critical
Publication of CN112949293B publication Critical patent/CN112949293B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本申请公开了一种相似文本生成方法、相似文本生成装置、智能设备及计算机可读存储介质。其中,该方法包括:对输入语句进行分词处理,得到组成所述输入语句的至少一个词语;生成各个词语的相似词的词向量;基于已训练的相似文本生成模型及各个词向量,生成所述输入语句的相似语句。通过本申方案,可以在节约人力资源的前提下实现相似文本的高效生成。

Description

一种相似文本生成方法、相似文本生成装置及智能设备
技术领域
本申请属于人工智能技术领域,尤其涉及一种相似文本生成方法、相似文本生成装置、智能设备及计算机可读存储介质。
背景技术
在对常见问题解答(Frequently Asked Questions,FAQ)平台,例如FAQ机器人进行训练时,需要用到大量相似问题作为训练样本,才能够训练出高准确率的FAQ平台。在上述过程中,以大量相似问题为基础的训练样本的获取是非常重要的一环。现有技术中,往往采用传统的人工标注相似问题的方法来实现训练样本的获取,该方法需要耗费大量人力资源,且效率较为低下。
发明内容
本申请提供了一种相似文本生成方法、相似文本生成装置、智能设备及计算机可读存储介质,可以在节约人力资源的前提下实现相似文本的高效生成。
第一方面,本申请提供了一种相似文本生成方法,包括:
对输入语句进行分词处理,得到组成上述输入语句的至少一个词语;
生成各个词语的相似词的词向量;
基于已训练的相似文本生成模型及各个词向量,生成上述输入语句的相似语句。
第二方面,本申请提供了一种相似文本生成装置,包括:
分词单元,用于对输入语句进行分词处理,得到组成上述输入语句的至少一个词语;
第一生成单元,用于生成各个词语的相似词的词向量;
第二生成单元,用于基于已训练的相似文本生成模型及各个词向量,生成上述输入语句的相似语句。
第三方面,本申请提供了一种智能设备,上述智能设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。
第五方面,本申请提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。
本申请与现有技术相比存在的有益效果是:首先对输入语句进行分词处理,得到组成上述输入语句的至少一个词语,然后生成各个词语的相似词的词向量,最后基于已训练的相似文本生成模型及各个词向量,即可生成上述输入语句的相似语句。上述过程基于已训练的相似文本生成模型及组成原语句(也即输入语句)的各个词语的相似词的词向量即可生成原语句的相似语句,不再需要客服人员人工进行相似文本的标注,可大大提升相似文本的生成效率,同时节约了人力。可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的相似文本生成方法的实现流程示意图;
图2是本申请实施例提供的相似文本生成方法中步骤102的具体实现流程示意图;
图3是本申请实施例提供的相似文本生成模型的架构示意图;
图4是本申请实施例提供的相似文本生成装置的结构示意图;
图5是本申请实施例提供的智能设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为了说明本申请所提出的技术方案,下面通过具体实施例来进行说明。
下面对本申请实施例提供的一种相似文本生成方法进行描述。请参阅图1,该相似文本生成方法包括:
步骤101,对输入语句进行分词处理,得到组成上述输入语句的至少一个词语。
在本申请实施例,为了实现相似文本的生成,智能设备可先接收一输入语句,该输入语句即为相似文本生成的基础。其中,该输入语句可以是用户主动输入的语句;或者,该输入语句也可以是智能设备从互联网上所抓取得到的语句,此处不作限定。
在获得了输入语句后,智能设备可对该输入语句进行分词处理,此处不对分词处理时所采用的分词算法作出限定,例如,可以是采用基于隐马尔可夫模型的分词算法、基于n元语法的分词算法或基于字符串匹配的分词算法等。在分词处理完成后,即可得到组成输入语句的至少一个词语。
步骤102,生成各个词语的相似词的词向量。
在本申请实施例中,智能设备将生成各个词语的相似词的词向量;也即,针对每个词语,智能设备都将执行同样的操作流程,以获得该词语所唯一对应的相似词的词向量。为便于理解,请参阅图2,本申请实施例将以单个词语为例,对如何生成该单个词语的相似词的词向量作出解释及说明,其过程如下:
步骤1021,针对每个词语,查找出上述词语的M个近义词。
在本申请实施例中,智能设备可以先查找出词语的M个近义词,其中,M为一变量而非定值,其通常为大于2的正整数。为进一步提升查找出的近义词的丰富性,智能设备可通过多种不同的查找方法来进行查找。
示例性地,智能设备可在预设的第一查找方法下,查找出上述词语的第一数量个近义词,其中,上述第一查找方法基于回译实现。以输入文本是中文为例,该第一查找方法具体为:首先,将该词语分别从中文翻译为预设的两种以上外语;然后,再将词语分别从这两种以上外语翻译回中文,即可得到第一数量个近义词。举例来说,词语为“世界”;智能设备可先选取5种外语,例如选取英语、德语、法语、西班牙语及俄语;将该词语分别翻译至所选取的这几种外语下,即可得到该词语在英语中的表述“world”和/或“earth”,在德语中的表述“welt”,在法语中的表述“monde”,在西班牙语中的表述“mundo”及在俄语中的表述“мир”;然后智能设备再将该词语在各个外语中的表述翻译成中文,所得到的与原中文词语不同的中文表述即为近义词。如此,通过这一基于回译的查找方法即可查找出词语的多个相似词。记第一数量为m,则可知m是变量,例如,m可能为0也可能为10。上述翻译的过程可通过百度翻译、谷歌翻译或其它翻译工具来实现。
示例性地,智能设备可在预设的第二查找方法下,查找出上述词语的第二数量个近义词,其中,上述第二查找方法基于同义词林实现。具体地,该同义词林可以是哈工大同义词林的扩充版,下面对该哈工大同义词林的扩充版进行简单介绍:哈工大信息检索研究室所提出的同义词林共收词53859条;该同义词林按照人民日报语料库中词语的出现频率,只保留了频度不低于3的部分词语,得到了39099个词条;经过哈工大实验室再次扩充,最终得到77343条词条,也即哈工大同义词林的扩充版。以该哈工大同义词林的扩充版为例,该第二查找方法具体为:查找出在该哈工大同义词林的扩充版中所收录的该词语的所有近义词。举例来说,通过该哈工大同义词林的扩充版,可以获得“世界”的近义词包括有[“天下”,“世”,“世上”,“大地”,“天底下”,...,“全世界”,“全球”,“环球”,“举世”,“中外”,“寰宇”]等。记第二数量为n,则可知n同样也是变量。当然,也可以采用其它同义词林实现第二查找方法,此处不作限定。
示例性地,智能设备可在预设的第三查找方法下,查找出上述词语的第三数量个近义词,其中,上述第三查找方法基于词向量的相似度实现。以word2vec为例,word2vec是一种词嵌入方式,其可以将一词语的表达转换成某个维度的向量形式,这样一来,通过比较两个词语的词向量的相似度即可得到这两个词语的相似程度。考虑到不同训练语料集下所训练出来的word2vec模型基于同一词语而输出的最相似词会有差异,本申请实施例可采用维基百科提供的2017年的数据来对CBOW(Continuous Bag-of-Word)模型进行训练。训练结束后所得的CBOW模型(也即已训练的CBOW模型)即可进行词语的最相似词(也即近义词)的输出。举例来说,如下表1所示,已训练的CBOW模型可输出与词语“世界”最相似的若干个词及对应的相似度得分:
Figure BDA0002928844830000051
Figure BDA0002928844830000061
表1
其中,相似度得分越高,表示与词语的相似度越高。智能设备可对第三数量进行限定,例如可限定为一定值l。也即,通过词向量的相似度查找出与词语最为相似的l个词语作为近义词。上述例子中,l被设定为20。
由此,智能设备通过第一查找方法、第二查找方法及第三查找方法,共查找出第一数量+第二数量+第三数量(也即m+n+l)个近义词。智能设备可基于这m+n+l个近义词,获得M个近义词,其中,M不大于m+n+l。在一些实施例中,考虑到这m+n+l个近义词通常情况下有着重复,因而,为了提高后续的处理效率,可以对这m+n+l个近义词进行去重处理,以此来获得M个近义词。
步骤1022,从上述M个近义词中,筛选得到与上述词语最相似的N个近义词。
在本申请实施例中,虽然步骤1021已通过一定方式对查找到的m+n+l个近义词进行了精简,得到了M个近义词,但由于M非定值,在M较大的情况下,可能导致后续处理速度较慢。因而,此处可进一步对这M个近义词进行筛选,以得到与原始的词语最相似的N个近义词,其中,N为定值,通常为小于M的正整数。举例来说,智能设备在设定好l后,可将N设定为一小于l的数值,则由于M的取值通常无法小于l,因而N必然也会小于M。例如,在l被智能设备设定为20的情况下,N可以被智能设备设定为10。
在一些实施例中,由于BERT模型的发布使自然语言处理(Natural LanguageProcessing,NLP)的预训练模型走向成功,因而智能设备可采用预训练的BERT模型,对这M个近义词进行筛选,则上述步骤1022可具体表现为:先通过预训练的BERT模型,生成M个近义词的词向量以及原始的词语的词向量;然后计算这M个近义词的词向量与该词语的词向量的余弦相似度;最后基于余弦相似度,从这M个近义词中确定与该词语最相似的N个近义词。也即,这M个近义词可通过BERT模型进行编码,得到M*768维的词向量;除此之外,原来的词语也可通过BERT模型进行编码,得到1*768维的词向量,即示例中的“世界”这个词语,也将得到对应的词向量;最后,可计算M*768维的词向量(也即M个近义词的词向量)与原来的词语的词向量的余弦相似度,由此可得到各个近义词与原来的词语的相似度,根据相似度由高至低进行排序后,即可获得与原来的词语的相似度最高(也即与原来的词语最为相似)的N个近义词,实现对M个近义词的筛选。
步骤1023,计算得到上述N个近义词的平均词向量,将上述平均词向量作为上述词语的相似词的词向量。
在本申请实施例中,智能设备可对这N个近义词进行平均词向量的计算,并将该平均词向量作为原始的词语的相似词的词向量。具体地,可以先获取这N个近义词的词向量,然后通过计算这N个近义词的词向量在每个维度下的均值,即可得到平均词向量。需要注意的是,每个词向量的维度相同,且每个词向量包括多个维度。示例性地,这里的N个近义词的词向量可以通过前文所提出的预训练的BERT模型而获得,每个近义词的词向量均为1*768维,那么即可获得N*768维的词向量来表示N个近义词;将每一维度上的N个数值相加后取均值,即可得到该维度下的平均值,最终可获得1*768维的词向量,该1*768维的词向量即为原始的词语的相似词的词向量。
步骤103,基于已训练的相似文本生成模型及各个词向量,生成上述输入语句的相似语句。
在本申请实施例中,该相似文本生成模型具体为一结合了注意力(Attention)机制的序列到序列(Seq2Seq)模型。该相似文本生成模型的架构与机器翻译架构一致,分为编码器(Encoder)部分及解码器(Decoder)部分。
该相似文本生成模型的训练样本为相似文本对,该相似文本对为语义相同的两个语句所构成的一对文本,可将一相似文本对中的任一条语句作为输入来对相似文本生成模型进行训练。
请参阅图3,图3以相似文本对“世界大学排行榜单”及“全球高校排名”为例,给出了相似文本生成模型在训练过程中的架构示意。其中,将“世界大学排行榜单”作为待生成相似文本的语句,通过分词得到了“世界”、“大学”、“排行”及“榜单”四个词语,每个词语均可通过步骤102所介绍的方式,得到对应的相似词的词向量。每个词向量均可被输入到编码器的嵌入(embedding)层来对输入的数据进行编码,也即,“世界”的相似词的词向量被输入到编码器的嵌入层来对所输入的“世界”一词进行编码,“大学”的相似词的词向量被输入到编码器的嵌入层来对所输入的“大学”一词进行编码,以此类推。需要注意的是,各个词语的词向量的输入在图3中进行了省略,未能在图3中示出。在该相似文本生成模型中,编码器采用了两层BiLSTM进行编码,解码器同样采用了两层BiLSTM进行解码,最终输出训练结果,其中,解码器的首个输入位为起始位占位符,且在解码器的输出阶段需结合Attention机制,获得解码器的各输入位(也即编码器的各输出位)的注意力分布情况。也即,对于一相似文本对来说,其中一条语句被输入到待训练的相似文本生成模型,得到训练结果,该训练结果可与该相似文本对中的另一条语句进行损失计算,实现对相似文本生成模型的优化。在大量训练样本的训练下,损失逐渐收敛,即可获得已训练的相似文本生成模型,并将该已训练的相似文本生成模型投入到应用场景下。
相似文本生成模型的应用过程与训练过程类似:在获得输入语句的各个词语的相似词的词向量后,将各个词语及对应的词向量输入至相似文本生成模型中(每个词向量会被输入到编码器的嵌入层来对对应的词语进行编码),最终可获得该相似文本生成模型基于输入语句所生成的相似语句,该相似语句与输入语句的语义基本相同,但表述不同。
在一些实施例中,智能设备还可训练出一语义判别模型,来对相似文本生成模型所输出的相似文本的准确程度进行判定。该语义判别模型是一二分类任务,可通过二分类来判断所输入的两个语句是否语义相同,输出为1代表语义相同,0代表语义不同。基于此,该语义判别模型的训练样本所使用的语料可如下表2所示:
语句1 语句2 语义相关
世界大学排行榜单 全球高校排名 1
世界大学排名 清华大学排名 0
…… …… ……
表2
其中,语义判别模型的训练样本包括有相似文本对,以及不相似文本对。其中,不相似文本对即为语义不同的两个语句所构成的一对文本。该训练样本可基于互联网上开源的数据集而获得,该数据集可以是哈工大的LCQMC数据集和/或百度开源的数据集等,此处不作限定。
具体地,该语义判别模型可采用hugging face开源的transformers包中的BERT模型,并且使用适用于中文的chinese_wwm_ext_pytorch的BERT版本模型;在此基础上进一步进行训练及微调,可得到适用于二分类任务的语义判别模型。
在获得已训练的语义判别模型后,可将步骤103所得到的相似语句及对应的输入语句共同输入至该已训练的语义判别模型中。若该语义判别模型判定该相似语句与该输入语句的语义相同,则认为该相似语句确实与输入语句相似,可保留该相似语句。若该语义判别模型判定该相似语句与该输入语句的语义不同,则认为该相似语句与输入语句不相似,可舍弃该相似语句。
本申请实施例所提出的相似文本生成方法有着多种不同的应用场景。例如,在FAQ机器人中,通过该相似文本生成方法可降低客服人员进行语料标注的压力,同时提高所生成的相似语句与输入语句的相似度,从而使机器人的回复准确度显著提升。又例如,在教学场景下,可通过该相似文本生成方法来为学生学习句子改写及转述提供参考,一定程度上提升教学质量。再例如,在问答平台(比如知乎)中,可通过该相似文本生成方法来对问答平台上已有的问题或用户想要提问的问题进行相似问的扩充,从而更有效地比对用户想要提问的问题是否已与问答平台上的某问题相关,若相关则可提示用户是否的确需要在问答平台进行提问,以此减少用户重复提问的情况。
由上可见,通过本申请实施例,首先对输入语句进行分词处理,得到组成上述输入语句的至少一个词语,然后生成各个词语的相似词的词向量,最后基于已训练的相似文本生成模型及各个词向量,即可生成上述输入语句的相似语句。上述过程基于已训练的相似文本生成模型及组成原语句(也即输入语句)的各个词语的相似词的词向量即可生成原语句的相似语句,不再需要客服人员人工进行相似文本的标注,可大大提升相似文本的生成效率,同时节约了人力。
对应于前文所提出的相似文本生成方法,本申请实施例提供了一种相似文本生成装置,上述相似文本生成装置集成于智能设备。请参阅图4,本申请实施例中的相似文本生成装置400包括:
分词单元401,用于对输入语句进行分词处理,得到组成上述输入语句的至少一个词语;
第一生成单元402,用于生成各个词语的相似词的词向量;
第二生成单元403,用于基于已训练的相似文本生成模型及各个词向量,生成上述输入语句的相似语句。
可选地,上述第一生成单元402,包括:
查找子单元,用于针对每个词语,查找出上述词语的M个近义词,其中,M为大于2的正整数;
筛选子单元,用于从上述M个近义词中,筛选得到与上述词语最相似的N个近义词,其中,N为小于M的正整数;
计算子单元,用于计算得到上述N个近义词的平均词向量,将上述平均词向量作为上述词语的相似词的词向量。
可选地,上述查找子单元,包括:
第一查找子单元,用于在预设的第一查找方法下,查找出上述词语的第一数量个近义词,其中,上述第一查找方法基于回译实现;
第二查找子单元,用于在预设的第二查找方法下,查找出上述词语的第二数量个近义词,其中,上述第二查找方法基于同义词林实现;
第三查找子单元,用于在预设的第三查找方法下,查找出上述词语的第三数量个近义词,其中,上述第三查找方法基于词向量的相似度实现;
近义词获取子单元,用于基于上述第一数量个近义词、上述第二数量个近义词及上述第三数量个近义词,获得M个近义词。
可选地,上述近义词获取子单元,具体用于对上述第一数量个近义词、上述第二数量个近义词及上述第三数量个近义词进行去重处理,获得M个近义词。
可选地,上述筛选子单元,包括:
词向量生成子单元,用于通过预训练的BERT模型,生成上述M个近义词的词向量以及上述词语的词向量;
相似度计算子单元,用于计算上述M个近义词的词向量与上述词语的词向量的余弦相似度;
近义词确定子单元,用于基于上述余弦相似度,从上述M个近义词中确定与上述词语最相似的N个近义词。
可选地,上述计算子单元,包括:
词向量获取子单元,用于获取上述N个近义词的词向量,其中,每个词向量的维度相同,且每个词向量包括多个维度;
均值计算子单元,用于计算上述N个近义词的词向量在每个维度下的均值,以得到平均词向量。
可选地,上述相似文本生成装置400还包括:
语义判别单元,用于在上述生成上述输入语句的相似语句之后,将上述相似语句及上述输入语句共同输入至已训练的语义判别模型中;
语句处理单元,用于若上述语义判别模型判定上述相似语句与上述输入语句的语义相同,则保留上述相似语句,若上述语义判别模型判定上述相似语句与上述输入语句的语义不同,则舍弃上述相似语句。
由上可见,通过本申请实施例,首先对输入语句进行分词处理,得到组成上述输入语句的至少一个词语,然后生成各个词语的相似词的词向量,最后基于已训练的相似文本生成模型及各个词向量,即可生成上述输入语句的相似语句。上述过程基于已训练的相似文本生成模型及组成原语句(也即输入语句)的各个词语的相似词的词向量即可生成原语句的相似语句,不再需要客服人员人工进行相似文本的标注,可大大提升相似文本的生成效率,同时节约了人力。
本申请实施例还提供了一种智能设备,请参阅图5,本申请实施例中的智能设备5包括:存储器501,一个或多个处理器502(图5中仅示出一个)及存储在存储器501上并可在处理器上运行的计算机程序。其中:存储器501用于存储软件程序以及单元,处理器502通过运行存储在存储器501的软件程序以及单元,从而执行各种功能应用以及数据处理,以获取上述预设事件对应的资源。具体地,处理器502通过运行存储在存储器501的上述计算机程序时实现以下步骤:
对输入语句进行分词处理,得到组成上述输入语句的至少一个词语;
生成各个词语的相似词的词向量;
基于已训练的相似文本生成模型及各个词向量,生成上述输入语句的相似语句。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,上述生成各个词语的相似词的词向量,包括:
针对每个词语,查找出上述词语的M个近义词,其中,M为大于2的正整数;
从上述M个近义词中,筛选得到与上述词语最相似的N个近义词,其中,N为小于M的正整数;
计算得到上述N个近义词的平均词向量,将上述平均词向量作为上述词语的相似词的词向量。
在上述第二种可能的实施方式作为基础而提供的第三种可能的实施方式中,上述生成各个词语的相似词的词向量,包括:
针对每个词语,查找出上述词语的M个近义词,其中,M为大于2的正整数;
从上述M个近义词中,筛选得到与上述词语最相似的N个近义词,其中,N为小于M的正整数;
计算得到上述N个近义词的平均词向量,将上述平均词向量作为上述词语的相似词的词向量。
在上述第三种可能的实施方式作为基础而提供的第四种可能的实施方式中,上述查找出上述词语的M个近义词,包括:
在预设的第一查找方法下,查找出上述词语的第一数量个近义词,其中,上述第一查找方法基于回译实现;
在预设的第二查找方法下,查找出上述词语的第二数量个近义词,其中,上述第二查找方法基于同义词林实现;
在预设的第三查找方法下,查找出上述词语的第三数量个近义词,其中,上述第三查找方法基于词向量的相似度实现;
基于上述第一数量个近义词、上述第二数量个近义词及上述第三数量个近义词,获得M个近义词。
在上述第二种可能的实施方式作为基础而提供的第五种可能的实施方式中,上述从上述M个近义词中,筛选得到与上述词语最相似的N个近义词,包括:
通过预训练的BERT模型,生成上述M个近义词的词向量以及上述词语的词向量;
计算上述M个近义词的词向量与上述词语的词向量的余弦相似度;
基于上述余弦相似度,从上述M个近义词中确定与上述词语最相似的N个近义词。
在上述第二种可能的实施方式作为基础而提供的第六种可能的实施方式中,上述计算得到上述N个近义词的平均词向量,包括:
获取上述N个近义词的词向量,其中,每个词向量的维度相同,且每个词向量包括多个维度;
计算上述N个近义词的词向量在每个维度下的均值,以得到平均词向量。
在上述第一种可能的实施方式作为基础,或者上述第二种可能的实施方式作为基础,或者上述第三种可能的实施方式作为基础,或者上述第四种可能的实施方式作为基础,或者上述第五种可能的实施方式作为基础,或者上述第六种可能的实施方式作为基础而提供的第七种可能的实施方式中,在上述生成上述输入语句的相似语句之后,处理器502通过运行存储在存储器501的上述计算机程序时实现以下步骤:
将上述相似语句及上述输入语句共同输入至已训练的语义判别模型中;
若上述语义判别模型判定上述相似语句与上述输入语句的语义相同,则保留上述相似语句;
若上述语义判别模型判定上述相似语句与上述输入语句的语义不同,则舍弃上述相似语句。
应当理解,在本申请实施例中,所称处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器501可以包括只读存储器和随机存取存储器,并向处理器502提供指令和数据。存储器501的一部分或全部还可以包括非易失性随机存取存储器。例如,存储器501还可以存储设备类别的信息。
由上可见,通过本申请实施例,首先对输入语句进行分词处理,得到组成上述输入语句的至少一个词语,然后生成各个词语的相似词的词向量,最后基于已训练的相似文本生成模型及各个词向量,即可生成上述输入语句的相似语句。上述过程基于已训练的相似文本生成模型及组成原语句(也即输入语句)的各个词语的相似词的词向量即可生成原语句的相似语句,不再需要客服人员人工进行相似文本的标注,可大大提升相似文本的生成效率,同时节约了人力。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关联的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括是电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (10)

1.一种相似文本生成方法,其特征在于,包括:
对输入语句进行分词处理,得到组成所述输入语句的至少一个词语;
生成各个词语的相似词的词向量;
基于已训练的相似文本生成模型及各个词向量,生成所述输入语句的相似语句。
2.如权利要求1所述的相似文本生成方法,其特征在于,所述生成各个词语的相似词的词向量,包括:
针对每个词语,查找出所述词语的M个近义词,其中,M为大于2的正整数;
从所述M个近义词中,筛选得到与所述词语最相似的N个近义词,其中,N为小于M的正整数;
计算得到所述N个近义词的平均词向量,将所述平均词向量作为所述词语的相似词的词向量。
3.如权利要求2所述的相似文本生成方法,其特征在于,所述查找出所述词语的M个近义词,包括:
在预设的第一查找方法下,查找出所述词语的第一数量个近义词,其中,所述第一查找方法基于回译实现;
在预设的第二查找方法下,查找出所述词语的第二数量个近义词,其中,所述第二查找方法基于同义词林实现;
在预设的第三查找方法下,查找出所述词语的第三数量个近义词,其中,所述第三查找方法基于词向量的相似度实现;
基于所述第一数量个近义词、所述第二数量个近义词及所述第三数量个近义词,获得M个近义词。
4.如权利要求3所述的相似文本生成方法,其特征在于,所述基于所述第一数量个近义词、所述第二数量个近义词及所述第三数量个近义词,获得M个近义词,包括:
对所述第一数量个近义词、所述第二数量个近义词及所述第三数量个近义词进行去重处理,获得M个近义词。
5.如权利要求2所述的相似文本生成方法,其特征在于,所述从所述M个近义词中,筛选得到与所述词语最相似的N个近义词,包括:
通过预训练的BERT模型,生成所述M个近义词的词向量以及所述词语的词向量;
计算所述M个近义词的词向量与所述词语的词向量的余弦相似度;
基于所述余弦相似度,从所述M个近义词中确定与所述词语最相似的N个近义词。
6.如权利要求2所述的相似文本生成方法,其特征在于,所述计算得到所述N个近义词的平均词向量,包括:
获取所述N个近义词的词向量,其中,每个词向量的维度相同,且每个词向量包括多个维度;
计算所述N个近义词的词向量在每个维度下的均值,以得到平均词向量。
7.如权利要求1至6任一项所述的相似文本生成方法,其特征在于,在所述生成所述输入语句的相似语句之后,所述相似文本生成方法还包括:
将所述相似语句及所述输入语句共同输入至已训练的语义判别模型中;
若所述语义判别模型判定所述相似语句与所述输入语句的语义相同,则保留所述相似语句;
若所述语义判别模型判定所述相似语句与所述输入语句的语义不同,则舍弃所述相似语句。
8.一种相似文本生成装置,其特征在于,包括:
分词单元,用于对输入语句进行分词处理,得到组成所述输入语句的至少一个词语;
第一生成单元,用于生成各个词语的相似词的词向量;
第二生成单元,用于基于已训练的相似文本生成模型及各个词向量,生成所述输入语句的相似语句。
9.一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202110141735.6A 2021-02-02 2021-02-02 一种相似文本生成方法、相似文本生成装置及智能设备 Active CN112949293B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110141735.6A CN112949293B (zh) 2021-02-02 2021-02-02 一种相似文本生成方法、相似文本生成装置及智能设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110141735.6A CN112949293B (zh) 2021-02-02 2021-02-02 一种相似文本生成方法、相似文本生成装置及智能设备

Publications (2)

Publication Number Publication Date
CN112949293A true CN112949293A (zh) 2021-06-11
CN112949293B CN112949293B (zh) 2023-11-21

Family

ID=76241427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110141735.6A Active CN112949293B (zh) 2021-02-02 2021-02-02 一种相似文本生成方法、相似文本生成装置及智能设备

Country Status (1)

Country Link
CN (1) CN112949293B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535927A (zh) * 2021-07-30 2021-10-22 杭州网易智企科技有限公司 获取相似文本的方法、介质、装置和计算设备
CN116414958A (zh) * 2023-02-06 2023-07-11 飞算数智科技(深圳)有限公司 文本语料的生成方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977401A (zh) * 2019-03-15 2019-07-05 上海火商智能科技有限公司 一种基于神经网络的语义识别方法
CN111460838A (zh) * 2020-04-23 2020-07-28 腾讯科技(深圳)有限公司 智能翻译模型的预训练方法、装置和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977401A (zh) * 2019-03-15 2019-07-05 上海火商智能科技有限公司 一种基于神经网络的语义识别方法
CN111460838A (zh) * 2020-04-23 2020-07-28 腾讯科技(深圳)有限公司 智能翻译模型的预训练方法、装置和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113535927A (zh) * 2021-07-30 2021-10-22 杭州网易智企科技有限公司 获取相似文本的方法、介质、装置和计算设备
CN116414958A (zh) * 2023-02-06 2023-07-11 飞算数智科技(深圳)有限公司 文本语料的生成方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN112949293B (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN107122413B (zh) 一种基于图模型的关键词提取方法及装置
CN109255118B (zh) 一种关键词提取方法及装置
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
CN106970910B (zh) 一种基于图模型的关键词提取方法及装置
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN109325229B (zh) 一种利用语义信息计算文本相似度的方法
WO2017198031A1 (zh) 解析语义的方法和装置
CN108536807B (zh) 一种信息处理方法及装置
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN114428850B (zh) 一种文本检索匹配方法和系统
CN110750642A (zh) 一种基于cnn的中文关系分类方法及系统
CN108491399B (zh) 基于语境迭代分析的汉译英机器翻译方法
CN112949293A (zh) 一种相似文本生成方法、相似文本生成装置及智能设备
CN110969005B (zh) 一种确定实体语料之间的相似性的方法及装置
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
CN110728135A (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN107122378B (zh) 对象处理方法、装置及移动终端
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
CN117131155A (zh) 多类目识别方法、装置、电子设备及储存介质
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质
CN113505196B (zh) 基于词性的文本检索方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant