CN116414965B - 初始对话内容生成方法、装置、介质和计算设备 - Google Patents

初始对话内容生成方法、装置、介质和计算设备 Download PDF

Info

Publication number
CN116414965B
CN116414965B CN202310600635.4A CN202310600635A CN116414965B CN 116414965 B CN116414965 B CN 116414965B CN 202310600635 A CN202310600635 A CN 202310600635A CN 116414965 B CN116414965 B CN 116414965B
Authority
CN
China
Prior art keywords
phrase
candidate
probability
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310600635.4A
Other languages
English (en)
Other versions
CN116414965A (zh
Inventor
彭立彪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Lingxin Intelligent Technology Co ltd
Original Assignee
Beijing Lingxin Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Lingxin Intelligent Technology Co ltd filed Critical Beijing Lingxin Intelligent Technology Co ltd
Priority to CN202310600635.4A priority Critical patent/CN116414965B/zh
Publication of CN116414965A publication Critical patent/CN116414965A/zh
Application granted granted Critical
Publication of CN116414965B publication Critical patent/CN116414965B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种初始对话内容生成方法、装置、介质和计算设备,包括:获取初始对话文本,其中,初始对话文本包括至少一轮对话;基于初始对话文本中的各个词语的类别,获取多个候选词;多个候选词中包括两种目标类别的词语;根据多个候选词之间的相关度,确定初始对话文本的待替换词组;待替换词组包括两个不同目标类别的候选词;采用目标词组替换初始对话文本中的待替换词组,得到目标初始对话文本;目标词组从预设词库中得到,预设词库基于人类对话获取。本申请基于词语的类别和相关度,从初始对话文本中获取待替换词组,可以排除无意义的对话内容,确定不同初始对话文本对应的不同的待替换词组,提高生成目标初始对话文本的质量,增加多样性。

Description

初始对话内容生成方法、装置、介质和计算设备
技术领域
本申请的实施例涉及自然语言处理领域,更具体地涉及一种初始对话内容生成方法、装置、介质和计算设备。
背景技术
随着科学技术以及经济水平的发展,当今社会正在逐步往服务型社会转变,以更好的为用户提供服务。在前述背景下,越来越多的基于深度神经网络的对话模型被应用于提供高智能、低成本的服务。但是对于这类模型的训练工作来说,大量的对话数据是必不可少的前提,而对于特定领域下的对话机器人,搜集训练数据的难度和成本很高,因此如何低成本、高效率的获取大量的训练数据是训练文本模型的关键。
然而在对话内容的生成方面,现有技术中一般都是基于对话内容生成模板生成对话内容,即通过固定的词库插入到固定替换词位置的对话内容生成模板中,生成初始对话文本。由于模板中替换词的位置是固定的,用于替换模板中替换词的词库也是固定的,所以利用固定的对话模板生成的对话内容的多样性和对话质量较差。
发明内容
在本上下文中,本发明期望提供一种初始对话内容生成方法、装置、介质和计算设备,在确定词语的类别和相关度的基础上,从初始对话文本中获取待替换词组,并采用基于人类对话得到的目标词组替代所述待替换词组,使生成的目标初始对话文本的结构质量和逻辑质量以及多样性得到有效提升。
在本申请的第一方面中,提供了一种初始对话内容生成方法,包括:
获取初始对话文本,其中,所述初始对话文本包括至少一轮对话;
基于所述初始对话文本中的各个词语的类别,获取多个候选词;多个候选词中包括两种目标类别的词语;
根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组;所述待替换词组包括两个不同目标类别的候选词;
采用目标词组替换所述初始对话文本中的待替换词组,得到目标初始对话文本;
所述目标词组从预设词库中得到,所述预设词库基于人类对话获取。
在本申请的一个实施例中,所述根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组,包括:
基于各个候选词的类别,得到多个候选词组;每一候选词组均包括一个情感词和一个主题词;
获取第一概率;第一概率用于表示所述初始对话文本中,一个候选词组的出现概率;不同的第一概率关联不同的候选词组;
获取第二概率;第二概率用于表示所述初始对话文本中,情绪词单独出现的概率,不同第二概率关联的情绪词不同;
获取第三概率;第三概率用于表示所述初始对话文本中,主题词单独出现的概率,不同第三概率关联的主题词不同;
基于各个第一概率、第二概率和第三概率,将符合相关度阈值的候选词组,作为所述初始对话文本的待替换词组。
在本申请的一个实施例中,所述基于各个第一概率、第二概率和第三概率,将符合相关度阈值的候选词组,作为所述初始对话文本的待替换词组,包括:
若第一概率大于第一相关度阈值,则将所述第一概率对应的候选词组作为候选替换词组;
基于各个第一概率、第二概率和第三概率,获取各个候选替换词组的相关度值;
若相关度值大于第二相关度阈值,则将所述相关度值对应的候选替换词组,作为所述初始对话文本的待替换词组。
在本申请的一个实施例中,所述候选替换词组的相关度值,基于该候选替换词组的点互信息确定
所述候选替换词组的点互信息,根据该候选替换词组对应的第一概率、第二概率和第三概率计算得到。
在本申请的一个实施例中,所述预设词库包括:第一词库和第二词库包括:第一词库和第二词库;
所述第一词库至少包括目标词组;所述目标词组,基于多个待替换词组,进行去重处理后得到;
所述第二词库中的词组,与所述第一词库中的词组不同。
在本申请的一个实施例中,通过如下方式对多个待替换词组进行去重处理,得到目标词组:
获取各个待替换词组之间的相似度;
根据各个待替换词组之间的相似度,从多个待替换词组中得到目标词组集合;所述目标词组集合中,任意两个目标词组的相似度小于预设阈值。
在本申请的一个实施例中,所述获取多个候选词,包括:
将所述初始对话文本划分为多个单句,并分别输入到预设识别模型中,得到所述多个单句中每个词语的分类结果;所述分类结果包括情绪类别和主题类别;
根据分类结果,获取所述初始对话文本中的情绪词和主题词,作为候选词。
在本申请的一个实施例中,所述预设识别模型通过以下方式对多个单句中的词语进行分类:
将所述多个单句划分为多个单字;
依次对所述多个单字进行分类,得到各个单字对应的分类结果;
将各个单字的识别结果分别对应组合,得到所述多个单句中的各个词语的分类结果;
其中,每个单字对应的分类结果至少包括以下项的分类概率:
情绪词的首字、情绪词的单字、主题词的首字、主题词的单字以及非情绪非主题单字。
在本申请的一个实施例中,采用目标词组替换所述初始对话文本中的待替换词组,得到目标初始对话文本之后,所述方法还包括:
从所述目标初始对话文本中获取具有语序问题的单句;
将所述具有语序问题的单句输入到文本改写模型中,得到更正语序问题后的目标初始对话文本。
在本申请的第二方面中,提供了一种初始对话内容生成装置,包括:获取模块,被配置为获取初始对话文本,其中,所述初始对话文本包括至少一轮对话;
识别模块,被配置为基于所述初始对话文本中的各个词语的类别,获取多个候选词;多个候选词中包括两种目标类别的词语;
词组定位模块模块,被配置为根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组;生成模块,被配置为采用目标词组替换所述待替换词组,得到目标初始对话文本;
所述目标词组从预设词库中得到,所述预设词库基于人类对话获取。
在本申请的第三方面中,提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如第一方面所述的方法。
在本申请的第四方面中,提供了一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现第一方面所述的方法。
根据本申请实施例的初始对话内容生成方法、装置、介质和计算设备,可以通过初始对话文本中包含的词语类别,从所述初始对话文本中获取目标类别的候选词,即根据初始对话文本中词语的语义信息,筛选出具有目标语义信息的候选词,然后基于所述候选词之间的相关度,从初始对话文本的词语的结构上确定所述初始对话文本的待替换词组,实现从初始对话文本的内容结构方面对初始对话文本进行筛选,基于初始对话文本的结构,准确确定不同初始对话文本中对应的不同待替换词组,使每个待替换词组之间都具有词语语义关联和词语结构关联,从而在生成目标初始对话文本时,可以有效提高目标初始对话文本的结构质量,最后利用基于人类对话获取的预设词库中的目标词组替换不同初始对话文本对应的不同待替换词组,以得到更多不同的目标初始对话文本,即每次利用目标词组进行替换后,都可以生成包含人类对话的真实目标初始对话文本,提高了目标初始对话文本的逻辑质量,并在利用全部目标词组进行替换后,生成与待替换词组数量相同的目标初始对话文本,增加了生成的目标初始对话文本的真实性和多样性。
附图说明
通过参考附图阅读下文的详细描述,本申请示例性实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施例,其中:
图1为本申请一实施例提供的初始对话内容生成方法的流程示意图;
图2为本申请一实施例提供的获取一个候选词的流程示意图;
图3为本申请一实施例提供的通过预设识别模型获取候选词的示意图;
图4为本申请一实施例提供的确定初始对话文本的待替换词组的流程示意图;
图5为本申请一实施例提供的文本改写模型的结构示意图;
图6为本申请一实施例提供的初始对话内容生成装置的示意图;
图7为本申请一实施例提供的一种介质的结构示意图;
图8为本申请一实施例提供的一种计算设备的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施例来描述本申请的原理和精神。应当理解,给出这些实施例仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本申请的实施例可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术;在软件层面上,其主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(machine learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习和式教学习等技术。
自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
下面参考本申请的若干代表性实施例,详细阐释本申请的原理和精神。
示例性方法
下面参考图1,介绍本申请一实施例提供的初始对话内容生成方法,该方法包括:
步骤S101,获取初始对话文本。其中,所述初始对话文本包括至少一轮对话。
在本申请实施例中,所述初始对话文本可以是基于机器人之间的对话数据获取,也可以是从两个(包括两个以上)参与者共同对话的内容中获取,还可以从各类聊天软件中导出的历史对话内容中获取。所述初始对话文本还可以来自于真实世界的真实语句,或者通过对话生成模型等数字化技术生成的语句。其中,所述初始对话文本的获取,可以是从一个完整的对话记录中获取的前n轮对话内容。例如,一个完整的对话记录中包含10条对话,按照对话内容出现的先后顺序,依次获取最先出现的4条对话作为一个初始对话文本。
在本申请的实施例中,由于对话文本的形成,至少需要一轮对话,而一轮对话至少需要两句或两句以上的文本构成。例如,问答文本,问:我想买一部手机。答:你喜欢哪个牌子?问:H手机怎么样?答:用了都说好。而获取初始对话文本,需要在获取到的对话文本或对话内容的基础上,再筛选出前n轮带首句文本的对话内容,作为初始对话文本。
步骤S102,基于所述初始对话文本中的各个词语的类别,获取多个候选词,具体可参照图2所示的获取候选词的流程。其中,多个候选词中包括两种目标类别的词语。
根据图2所示,获取多个候选词的过程包括:将所述初始对话文本划分为多个单句,并分别输入到预设识别模型中,得到所述多个单句中每个词语的分类结果。所述分类结果包括情绪类别和主题类别。根据分类结果,获取所述初始对话文本中的情绪词和主题词,作为候选词。
在本申请的实施例中,如图2所示,为了从所述初始对话文本中获取候选词,需要先确定初始对话文本中包含的各个词语对应的类别。根据实际需求,可以预先为所述初始对话文本中的词语设置多个类别,例如情绪类别、主题类别、非情绪非主题类别。所述各个词语对应的类别的获取,需要将所述初始对话文本划分为多个单句,并分别输入到预设识别模型中,得到所述多个单句中每个词语的分类结果。即将划分好的各个单句输入到预设识别模型中进行识别,按输入顺序输出各个单字的分类概率,再根据各个单字的分类概率确定各个单字的分类。由于各个单字的分类概率是根据输入的顺序输出的,所以直接按照各个单字的分类将各个单字组合成词语,即可得到各个词语对应的类别,然后提取出其中的主题词和情绪词作为候选词。
所述预设识别模型通过以下方式对多个单句中的词语进行分类:将所述多个单句划分为多个单字。依次对所述多个单字进行分类,得到各个单字对应的分类结果。将各个单字的识别结果分别对应组合,得到所述多个单句中的各个词语的分类结果。
其中,每个单字对应的分类结果至少包括以下项的分类概率:情绪词的首字、情绪词的单字、主题词的首字、主题词的单字以及非情绪非主题单字。
在本申请的实施例中,所述预设识别模型,可以是预先基于BERT模型构建的,也可以是预先基于CNN模型、biLSTM模型和CRF模型构建的。所述预设识别模型可以根据所述单字的分类结果,预设多个分类进行构建。例如,可以获取多个包含任意内容的单句作为所述模型的训练输入,将“情绪词的首字、情绪词的单字、主题词的首字、主题词的单字以及非情绪非主题单字”作为所述预设识别模型的预设分类,以减小训练输入的单句中各单字的训练输出和正确分类之间的损失,构建所述预设识别模型。
在本申请实施例中,所述预设识别模型的结构如图3所示。输入到所述预设识别模型的单句,会将单句句首标记为CLS,句尾标记为SEP,单句整体被划分为A1~An个单字,以此保证单句中各个单字的输入顺序。之后,将各个单字转化为向量E1~En,将句首标记转化为Ecls,句尾标记为Esep,再基于预设模型的网络结构对E1~En进行处理,直至为每个单字输出最大的分类概率U1~Un。根据句首和句尾标记Tcls和Tsep,按照顺序输出U1~Un对应的分类结果,从图3中可看出,输入的单句中第二个字A2和A3的分类概率U2和U3对应的是主题词首字B-topic,以及主体词单字I-topic,即单字A2和单字A3可以组合为一个主题词。再比如,输入单句为:我今天很悲伤,预设识别模型输出:O,O,O,O,B-emo,I-emo,即“悲”为情绪词首字B-emo,“伤”为情绪词单字I-emo,“悲”和“伤”这两个单字就可以根据分类结果组合为情绪词“悲伤”。
此外,在所述预设识别模型中,单字分类结果包括的分类概率项可以用字母表示,例如,情绪词的首字B-emo、情绪词的单字I-emo、主题词的首字B-topic、主题词的单字I-topic以及非情绪非主题单字O。其中,所述情绪词首字B-emo和连续相邻的情绪词单字I-emo可组成情绪词,所述主题词单字B-topic和连续相邻的主题词单字I-topic可组成主题词。
在本申请的实施例中,同样可以参照图3所示的预设识别模型的输出结果,即通过预设分类模型将多个单句划分为多个单字,之后再对单字进行分类得到各个单字的分类结果。然后,可以将各个单字的识别结果分别组合,例如将图3中B-topic主题词首字和I-topic主题词单字进行组合,得到一个主题词。同样的,情绪词也是根据预设识别模型对单句进行识别,对应得到各个单字的识别结果,再根据识别结果组合后得到的。可以理解的是,在本申请中,情绪词和主题词可以同时出现在同一个单句,也可以分别出现在不同的单句。
在本申请的实施例中,若一个初始对话文本中仅单独出现了情绪词,未出现主题词,则不需要对此初始对话文本进行下一步处理。同样的,若一个初始对话文本中仅单独出现了主题词,未出现情绪词,则也需要对此初始对话文本进行剔除处理。若一个初始对话文本中既未出现情绪词,也未出现主题词,同样也不会进行下一步处理。即,只有在初始对话文本中同时出现情绪词和主题词时,才将所述情绪词和主题词作为候选词,并保留所述候选词对应的初始对话文本。未同时出现至少一个情绪词作为候选词,以及至少一个主题词作为候选词的初始对话文本,将会被排除,不进入到下一处理步骤。
步骤S103,根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组。所述待替换词组包括两个不同目标类别的候选词。
参照图4所示,确定所述初始对话文本的待替换词组的过程,包括:
基于各个候选词的类别,得到多个候选词组。每一候选词组均包括一个情感词和一个主题词。
在本申请的实施例中,所述候选词的类别包括情绪词和主题词。所述候选词组,可以根据初始文本生成的需求,选择一个情感词和一个主题词作为两个候选词,组成一个候选词组。在一个初始对话文本中出现多个情绪词和主题词时,可以将每个主题词和情绪词都进行组合,形成多个候选词组。例如,在一个初始对话文本中有多个情感词时,可以将每一个情感词与主题词分别组合,形成多个候选词组。再比如,在一个初始对话文本中有多个主题词和情感词,可以将每个情感词和每个主题词穷尽列出组合方式并进行组合,得到多个候选词组。
获取第一概率。其中,第一概率用于表示所述初始对话文本中,一个候选词组的出现概率。不同的第一概率关联不同的候选词组。
在本申请的实施例中,第一概率代表的就是一个候选词组在一个初始对话文本中同时出现的概率,即一个候选词组中包含的情绪词和主题词同时出现的概率。例如:
角色A:你今天穿的衣服真好看。
角色B:真的吗?我好开心。
角色A:真的,这个衣服设计的很好。
角色B:听说这个衣服是某知名设计师设计的,我真的很喜欢。
角色A:我也喜欢这个设计师设计的衣服。
角色B:太好了,下次我们一起去买衣服吧。
上述初始对话文本中,主题词为“衣服”,情绪词为“开心”和“喜欢”。根据上述情绪词和主题词,可以获取到两个候选词组,一个是“衣服”和“开心”组成的候选词组C,另外一个是“衣服”和“喜欢”组成的候选词组D。候选词组C中的情绪词和主题词同时出现的第一概率C1为66.7%,候选词组D中的情绪词和主题词同时出现的第一概率D1为33.3%。即候选词组C和候选词组D的第一概率不同,第一概率C1关联的是候选词组C,而第一概率D1关联的是候选词组D。
获取第二概率。第二概率用于表示所述初始对话文本中,情绪词单独出现的概率,不同第二概率关联的情绪词不同。
在本申请的实施例中,所述第二概率表示候选词组中情绪词单独出现的概率。再次以上述初始对话文本为例,所述候选词组C中,情绪词“开心”单独出现的第二概率C2为12.5%,所述候选词组D中,情绪词“喜欢”单独出现的第二概率D2为25%。第二概率C2关联的是候选词组C中的情绪词“开心”,第二概率D2关联的是候选词组D中的情绪词“喜欢”。
获取第三概率。第三概率用于表示所述初始对话文本中,主题词单独出现的概率,不同第三概率关联的主题词不同。
在本申请的实施例中,所述第三概率表示候选词组中主题词单独出现的概率。同样的,以上述初始对话文本为例,所述候选词组C中,主题词“衣服”单独出现的第三概率C3为62.5%,所述候选词组D中主题词“衣服”单独出现的第三概率D3也是62.5%。第三概率C3关联的是候选词组C中的主题词“衣服”,第三概率D3关联的是候选词组D中的主题词“衣服”。
基于各个第一概率、第二概率和第三概率,将符合相关度阈值的候选词组,作为所述初始对话文本的待替换词组。
在本申请的实施例中,基于上述示例初始对话文本中的候选词组C对应的第一概率C1、第二概率C2以及第三概率C3,可以计算出候选词组C中情绪词和主题词之间的相关度值。即,针对每个候选词组中的两个候选词,可以根据对应的第一概率、第二概率和第三概率计算出二者的相关度值,以衡量两个候选词之间的相关度。其中,确定所述初始对话文本的待替换词组的过程,包括:
若第一概率大于第一相关度阈值,则将所述第一概率对应的候选词组作为候选替换词组。
在本申请的实施例中,所述第一相关度阈值可以根据实际需求设置。例如,在初始对话文本中的候选词组的数量为m时,可以将第一相关度阈值设置为m/2。即,当第一概率大于第一相关度阈值m/2时,就可以将大于所述第一相关度阈值的第一概率关联的候选词组,作为候选替换词组。可以理解的是,所述第一相关度阈值,可以根据初始对话文本中候选词组数量而修改,例如修改为m/3、m/4、m/5…m/m-1等。
基于各个第一概率、第二概率和第三概率,获取各个候选替换词组的相关度值。
在本申请的实施例中,所述候选替换词组的相关度值,基于该候选替换词组的点互信息确定。所述候选替换词组的点互信息,根据该候选替换词组对应的第一概率、第二概率和第三概率计算得到。其中,所述点互信息,按照如下计算式计算:
其中,为x和y之间的相关度,/>为x和y同时出现对应的第一概率,为x单独出现对应的第二概率,/>为y单独出现对应的第三概率。所述x和y之间的相关度即为一个候选替换词组中包含的情绪词和主题词之间的相关度。
在本申请的实施例中,确定候选替换词组的相关度(计算候选替换词组的点互信息)的目的是为了避免出现第一概率较高,但是候选替换词组中包含的候选词之间并无相关度的情况出现。也即,排除同时出现概率(第一概率)较高,但内部候选词并无相关度或相关度较低的候选替换词组。
举例说明,在同一个初始对话文本中包括3个候选替换词组,候选替换词组Z1由候选词A和候选词B组成,候选替换词Z2组由候选词A和候选词C组成,候选词组Z3由候选词B和候选词C组成。而候选词组Z3的组成是由于候选替换词组Z1对应的第一概率Z11,以及候选替换词组Z2对应的第一概率Z21,均大于第一相关度阈值,导致候选替换词组Z3的第一概率Z31也大于第一相关度阈值。但是,候选替换词组Z3中包含的两个候选词之间并无相关度,所以需要计算二者之间的点互信息作为相关度值,用于判断候选替换词组Z3是否可作为待替换词组。
再次举例说明,假设有25次候选词A、候选词B和候选词C同时出现。其中,有25次中候选词A和候选词B同时出现,25次中候选词A和候选词C同时出现,25次不包含候选词A、B和C仅有候选词D和候选词E同时出现。此时,候选词A和候选词B对应的第一概率为50%,候选词A和候选词C对应的第一概率为50%,候选词B和候选词C对应的第一概率为25%,候选词D和候选词E对应的第一概率为25%。根据点互信息计算式,计算得到候选词A和候选词B之间的相关度值为0.415,候选词A和候选词C之间的相关度值为0.415,候选词B和候选词C之间的相关度值为0,候选词D和候选词E之间的相关度为2。可见,虽然候选词B和候选词C的第一概率为25%,但是二者之间相关度值为0,并不能构成可作为待替换词组的候选替换词组。
若相关度值大于第二相关度阈值,则将所述相关度值对应的候选替换词组,作为所述初始对话文本的待替换词组。
在本申请的实施例中,所述第二相关度阈值也可以根据实际需求设置。例如,在需要生成大量不同的初始对话文本时,可以将第二相关度阈值设置为0,即只要候选替换词组具有相关度(相关度值大于0),就可以作为初始对话文本的待替换词组,即一个初始对话文本中可以具有多个待替换词组,并且可以通过替换掉不同待替换词组,生成不同的初始对话文本。再比如,为提高生成的初始对话文本的结构质量,可以将第二相关度阈值设置为不小于1的数值,如1、2或3等,只要候选替换词组的相关度值不大于第二相关度阈值,就不能作为待替换词组,即提高待替换词组的相关度,确保待替换词组能够对应相同相关度值的词组进行替换,提高生成新目标初始对话文本的结构质量。在本申请的实施例中,基于获取候选词组、候选替换词组以及待替换词组的过程,能够依次排除非目标类别词语、情绪词和主题词同时出现概率和相关度值不符合相关度阈值的词组。即,排除非情绪非主题词语,以仅保留情绪词和主题词作为候选词。根据每个候选词组中的两个词同时出现的概率(第一概率),排除同时出现概率不大于第一相关度阈值的词组。再计算出候选替换词组的相关度值,排除相关度不满足要求的候选替换词组,保留相关度值满足要求的候选替换词组作为待替换词组。通过排除掉不符合要求的词组及对应的初始对话文本,可以提高原始初始对话文本的结构质量(待替换词组所在的初始对话文本),进而提高基于原始初始对话文本(待替换词组所在的初始对话文本)生成的目标初始对话文本的结构质量。
举例说明,如表1和表2所示的两个初始对话文本。其中,表1中的主题词“足球比赛”跟情绪词“激动”为相关度值大于第二相关度阈值的候选替换词组,即主题词“足球比赛”和情绪词“激动”可作为待替换词组。
表1
表2所示的初始对话文本,主题词为“足球比赛”和“不好的事情”,情绪词为“害怕”,其中, “足球比赛”和“害怕”的相关度值不大于第二相关度阈值,“不好的事情”和“害怕”的相关度值大于第二相关度阈值,所以“不好的事情”和“害怕”可作为待替换词组,用于被替换后生成目标初始对话文本。
表2
另外,上述获取候选词组、获取候选替换词组以及获取待替换词组的过程,可以说明本申请提供的初始对话内容生成方法可以不依赖数据集的结构质量和逻辑质量,能够随机获取初始对话文本并进行一系列的处理,筛选出符合预设标准的初始对话文本,排除无意义的、不符合相关度阈值的初始对话文本。
步骤S104,采用目标词组替换所述初始对话文本中的待替换词组,得到目标初始对话文本。所述目标词组从预设词库中得到,所述预设词库基于人类对话获取。
在本申请的实施例中,各个待替换词组所在初始对话文本中的位置是不同的。例如,依旧可以参照表1和表2中的初始对话文本内容,其中,表1中的待替换词组“足球比赛”和“激动”所在位置,与表2中的“不好的事情”和“害怕”所在位置完全不同。因此,一个目标词组可以替换掉初始对话文本中的一个待替换词组,若各个初始对话文本中均有一个待替换词组被目标词组替换,被替换过待替换词组的初始对话文本均为目标初始对话文本,增加了生成目标初始对话文本的多样性。
本申请实施例中,还可以将待替换词组补充至所述预设词库中。所述预设词库包括:第一词库和第二词库。
所述第一词库至少包括目标词组。所述第一词库中的目标词组可以是经过去重处理后得到。
其中,可以通过如下方式对多个目标词组进行去重处理,得到目标词组:获取各个目标词组之间的相似度。根据各个目标词组之间的相似度,从多个目标词组中得到目标词组集合。所述目标词组集合中,任意两个目标词组的相似度小于预设阈值。
在本申请的实施例中,所述各个目标词组之间的相似度可以基于文本相似度算法计算得到。例如,文本相似度算法中的编辑距离、simhash相似度算法、语义相似度算法以及余弦相似度算法等。其中,所述编辑距离,是对两个目标词组之间的差异程度进行量化量测,判断两个目标词组之间的相似度。若两个目标词组之间相似度大于预设阈值,则从相似度大于预设阈值的两个目标词组之间剔除其中一个目标词组。以此类推,可以将各个待替换词组加入预设词库中,然后对预设词库中的所有目标词组进行去重处理,使得预设词库不断得到更新和补充。
在本申请的实施例中,所述预设阈值,可以根据实际需求进行设置。例如,设置为100%,两个目标词组的相似度在100%的时候,就去掉其中一个目标词组。再比如,还可以根据实际需求设置为80%或90%,即两个目标词组之间的相似度在80%或90%以上,就剔除其中一个目标词组。
在本申请的实施例中,需要说明的是,通过目标词组替换待替换词组时,还可以基于TF-IDF算法判断生成的目标初始对话文本与原初始对话文本是否完全相同。若相同,则更换不同的目标词组生成目标初始对话文本,并将相同的目标初始对话文本剔除,排除同质性较高的目标初始对话文本。
其中,所述TF-IDF算法是计算初始对话文本中待替换词组和目标词组出现的词频(TF),以及逆文本频率指数(IDF),将所述待替换词组提取出来,对比原始初始对话文本(用目标词组替换前)和生成的目标初始对话文本的,然后比对这两个文本的待替换词组和目标词组。若待替换词组和目标词组的相似度大于预设阈值,则判定为这两个对话文本相似,将相似的两个对话文本的其中一个文本剔除。
所述第二词库中的词组,与所述第一词库中的词组不同。
在本申请的实施中,可以获取语义不同的情绪词和主题词加入到第二词库中。所述第二词库中的词组可以根据所述相关度阈值进行获取,即第二词库中每个词组关联的第一概率大于第一相关度阈值,每个词组的相关度值大于第二相关度阈值。也就是说,第二词库中的词组在符合相关度阈值的基础上,可以在语义方面与第一词库中的词组完全不同。例如,经过对第一词库中的词组进行统计,得到所有词组中带有悲伤情绪的情绪词概率超过50%,那么获取带有高兴情绪的情绪词概率超过50%的词组集合加入到第二词库中。
另外,还可以在基于第一词库中的目标词组全部用于生成目标初始对话文本之后,利用第二词库中的词组继续替换初始对话文本中的待替换词组,提高预设词库中词组的多样性。使预设词组在替换待替换词组时,增加生成目标初始对话文本的多样性。
在本申请的一实施例中,根据步骤S101~S104,举例说明,当有用户与智能机器人聊天时,例如情感倾诉机器人、对话问答机器人以及心理问题咨询机器等,此时就需要为智能机器人生成多种初始对话文本。由于智能机器人自身也需要主动进行沟通和询问,所以仅仅包括被动的回答对话内容并不能实现智能机器人的功能。因此,在智能机器人投入到使用之前,需要根据上述步骤S101~步骤S104提供的初始对话内容生成方法,为智能机器人生成多样性较好,结构质量和逻辑质量较高的初始对话文本。
在本申请的实施例中,可以根据步骤S101先随机获取一些结构质量和逻辑质量未知的初始对话文本,例如基于机器人之间的对话生成的、现有对话生成模型生成的、人机互动或者真人互动的初始对话文本。
在本申请的实施例中,根据步骤S102,针对每个初始对话文本,获取初始对话文本中各个词语的类别,即将初始对话文本中各个词语进行分类。将分类到情绪类别的词语和分类到主题类别的词语,作为候选词。
其中,对各个词语进行分类是基于预设识别模型,先对各个词语中的单字进行分类,再组合成各个词语的分类结果的。各个词语的分类结果,可以包括情绪词、主题词以及非情绪非主题词,所述非情绪非主题词可以排除掉。并且,在一个初始对话文本中仅包括一个情绪词或一个主题词,亦或只有非情绪非主题词,那么不能将这个初始对话文本作为生成目标初始对话文本的基础,需要将这个初始对话文本剔除。
在本申请实施例中,根据步骤S103,需要先将候选词按照一个情绪词和一个主题词进行配对,组成候选词组,再根据候选词组的相关度,确定初始对话文本中的待替换词组。所述候选词组之间的相关度,包括:表示候选词组中两个词语同时出现概率的第一概率,以及候选词组中两个词语之间点互信息的相关度值。将候选词组的第一概率大于第一相关度阈值时,所述候选词组可作为候选替换词组,同时排除掉不可作为候选替换词组的候选词组,以及排除掉不包含候选替换词组的初始对话文本。再将相关度值大于第二相关度阈值的候选替换词组,作为待替换词组。当一个初始对话文本中不包括待替换词组时,也不能将这个初始对话文本作为生成目标初始对话文本的基础,需要将这个初始对话文本剔除。
在本申请实施例中,根据步骤S104,采用目标词组替换待替换词组,得到目标初始对话文本。所述目标词库可以作为一个预设词库中的一部分。所述待替换词组可以补充到预设词库中。所述预设词库可以包括两个词库,即第一词库和第二词库,所述目标词组可以作为所述第一词库的一部分。此外,在所述目标词组全部用于生成目标初始对话文本之后,可以利用第一词库中其他符合相关度阈值的情绪词和主题词,生成更多目标初始对话文本。另外,还可以利用第二词库中含义不同、符合相关度阈值的情绪词和主题词,生成更多目标初始对话文本,进一步增加初始对话文本的多样性。
在本申请的另一个实施例中,步骤S104,采用目标词组替换所述初始对话文本中的待替换词组,得到目标初始对话文本之后,还包括:从所述目标初始对话文本中获取具有语序问题的单句。将所述具有语序问题的单句输入到文本改写模型中,得到更正语序问题后的目标初始对话文本。
在本申请的实施例中,如图5所示的包含编码器encoder和解码器decoder结构的文本改写模型。其中,所述文本分类模型可以是基于具有语序问题的单句和正确的单句训练后得到。
在申请实施例中,将具有语序问题的单句再输入到所述文本改写模型中,对具有语序问题的单句进行改写,以改正语序问题。所述具有语序问题的单句输入到文本改写模型中,会进行编码处理,将具有语序问题的单句编码为向量,然后基于所述向量更正语序问题,再对更正后的单句向量进行解码处理,得到更正后的单句。利用更正后的单句对应替换更正前具有语序问题的单句,得到更正语序问题后的目标初始对话文本。此外,所述目标初始对话文本中具有语序问题的单句,可以基于文本分类模型,将生成的所有目标初始对话文本进行语序问题分类后获取到的。
在本申请实施例中,文本改写模型还可以在不改变具有语序问题的单句含义的情况下,修复不通顺的问题,同时还可以让更正后单句内容与对应的更正前具有语序问题的单句内容不完全一致,再将不完全一致的单句替换掉对应目标初始对话文本中的具有语序问题的单句,形成新的目标初始对话文本,增加目标初始对话文本的多样性。
在本申请的实施例中,所述文本改写模型的结构可以是由编码器encoder和解码器decoder构成的,也可以是单独由解码器decoder构成。所述文本生成模型的训练数据,可以是基于人工获取的训练样本对预设的文本生成模型进行训练后得到的。也可以是通过使用替换的方式构建的,即将文本生成模型训练中随机mask相关词后进行预测补全的方式进行构建。例如从训练样本中随机选择15%的词,然后其中80%替换成[mask]标记,10%保持不变,10%随机替换成其他词,使模型根据训练样本的语句结构预测文本生成内容。
本申请实施例提供的初始对话内容生成方法,可以通过初始对话文本中包含的词语类别,从所述初始对话文本中获取目标类别的候选词,即根据初始对话文本中词语的语义信息,筛选出具有目标语义信息的候选词。然后基于所述候选词之间的相关度,从候选词之间的结构方面确定所述初始对话文本的待替换词组。即在经过词语语义筛选的基础上,实现从词语的结构方面对初始对话文本进行筛选,准确确定不同初始对话文本中对应的不同待替换词组,使每个待替换词组之间都具有词语语义关联和词语结构关联,无需再获取更多高质量的初始对话文本作为更多初始对话内容生成的基础。最后利用基于人类对话获取的预设词库中的目标词组替换不同初始对话文本对应的不同待替换词组,得到更多不同的包含人类对话的目标初始对话文本,增加了目标初始对话文本的多样性;并且,通过根据人类对话获取的预设词库中的目标词组对待替换词组进行替换,以使生成的初始对话文本具有人类语言逻辑。本申请基于词语的类别和词语的相关度,可以从不同的初始对话文本中获取不同待替换词组,排除了错误或缺失语言逻辑、语法和语句结构的对话内容,保留了所述待替换词组所在的结构质量逻辑质量较高的初始对话文本。并且,由于不同的初始对话文本中待替换词组的位置均不同,在利用目标词组对待替换词组进行替换后,可以得到更多不同的目标初始对话文本,增加了生成目标初始对话文本的多样性。
此外,本申请实施例提供的初始对话内容生成方法,在所述获取待替换词组的过程中,可以基于候选词之间的相关度,利用相关度阈值对候选词进行判断,将候选词之间同时出现频率(第一概率)和相关度值均符合相关度阈值的候选词作为待替换词组。由于本申请实施例在确定待替换词组的过程中,需要利用相关度阈值确定候选词能否成为待替换词组,所以在确定待替换词组的过程中,同样排除了不符合相关度阈值的候选词。即确定待替换词组的过程中,排除了相关度不符合要求的多个候选词,提高了待替换词组的结构质量,进而提高了利用待替换词组生成目标初始对话文本的结构质量。
另外,本申请通过对目标词组的去重处理,避免在利用目标词组替换待替换词组时,生成同质性较高的目标初始对话文本。并且,由于目标词组是从基于人类对话获取的预设词库中得到的,所以采用目标词组替换待替换词组时,可以保证生成的目标初始对话文本的结构质量和逻辑质量。同时,在保证目标对话文本准确生成的基础上,利用目标词组对每个带有待替换词组的初始对话文本都进行一轮替换,增强目标初始对话文本生成的多样性。
示例性装置
在介绍了本申请示例性实施例的介质之后,接下来,参考图6对本申请示例性实施方式的初始对话内容生成装置进行说明,该装置包括:
获取模块201,被配置为获取初始对话文本,其中,所述初始对话文本包括至少一轮对话。
作为一种可选实施方式,所述获取模块201可以基于机器人之间的对话数据获取所述初始对话文本。也可以是从两个以上参与者共同对话的内容中获取。还可以从各类聊天软件中导出的历史对话内容中获取。所述获取模块201获取到的所述初始对话文本,还可以来自于真实世界的真实语句,或者通过对话生成模型等数字化技术生成的语句。其中,所述获取模块201可以是从一个完整的对话记录中,获取的前n轮对话内容作为所述初始对话文本。例如,一个完整的对话记录中包含10条对话文本,按照对话内容出现的先后顺序,依次通过所述获取模块201获取最先出现的4条对话文本作为一个初始对话文本。
识别模块202,被配置为基于所述初始对话文本中的各个词语的类别,获取多个候选词。多个候选词中包括两种目标类别的词语。
作为一种可选实施方式,所述识别模块202获取所述多个候选词的过程,包括:
将所述初始对话文本划分为多个单句,并分别输入到预设识别模型中,得到所述多个单句中每个词语的分类结果。所述分类结果包括情绪类别和主题类别。
根据分类结果,获取所述初始对话文本中的情绪词和主题词,作为候选词。
作为一种可选实施方式,所述识别模块202基于预设识别模型,通过以下方式对多个单句中的词语进行分类:
将所述多个单句划分为多个单字;
依次对所述多个单字进行分类,得到各个单字对应的分类结果。
将各个单字的识别结果分别对应组合,得到所述多个单句中的各个词语的分类结果。
其中,每个单字对应的分类结果至少包括以下项的分类概率:
情绪词的首字、情绪词的单字、主题词的首字、主题词的单字以及非情绪非主题单字。
词组确定模块203,被配置为根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组。
作为一种可选实施方式,所述词组确定模块203根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组的过程,包括:
基于各个候选词的类别,得到多个候选词组。每一候选词组均包括一个情绪词和一个主题词。
获取第一概率。第一概率用于表示所述初始对话文本中,一个候选词组的出现概率。不同的第一概率关联不同的候选词组。
获取第二概率。第二概率用于表示所述初始对话文本中,情绪词单独出现的概率。不同第二概率关联的情绪词不同。
获取第三概率。第三概率用于表示所述初始对话文本中,主题词单独出现的概率。不同第三概率关联的主题词不同。
基于各个第一概率、第二概率和第三概率,将符合相关度阈值的候选词组,作为所述初始对话文本的待替换词组。
作为一种可选实施方式,所述词组确定模块203基于各个第一概率、第二概率和第三概率,将符合相关度阈值的候选词组,作为所述初始对话文本的待替换词组的过程,包括:
若第一概率大于第一相关度阈值,则将所述第一概率对应的候选词组作为候选替换词组。
基于各个第一概率、第二概率和第三概率,获取各个候选替换词组的相关度值。
若相关度值大于第二相关度阈值,则将所述相关度值对应的候选替换词组,作为所述初始对话文本的待替换词组。
作为一种可选实施方式,所述词组确定模块203基于候选替换词组的点互信息,获取各个候选替换词组的相关度值。
其中,所述候选替换词组的点互信息,根据该候选替换词组对应的第一概率、第二概率和第三概率计算得到。
生成模块204,被配置为采用目标词组替换所述初始对话文本中的待替换词组,得到目标初始对话文本。所述目标词组从预设词库中得到,所述预设词库基于人类对话获取。
作为一种可选实施方式,可以将所述待替换词组补充到所述预设词库中。所述预设词库包括:第一词库和第二词库。
所述第一词库至少包括目标词组。所述目标词组是经过去重处理后得到。
所述第二词库中的词组,与所述第一词库中的词组不同。
作为一种可选实施方式,通过如下方式对多个目标词组进行去重处理:
获取各个目标词组之间的相似度。
根据各个目标词组之间的相似度,从多个目标词组中得到目标词组集合。所述目标词组集合中,任意两个目标词组的相似度小于预设阈值。
作为一种可选实施方式,在生成模块204采用目标词组替换所述初始对话文本中的待替换词组,得到目标初始对话文本之后,还可以包括更正模块。
所述更正模块,被配置为从所述目标初始对话文本中获取具有语序问题的单句,将所述具有语序问题的单句输入到文本改写模型中,得到更正语序问题后的目标初始对话文本。
本申请实施例提供的初始对话内容生成装置,由于在获取待替换词组的过程中,基于目标类别以及词语间相关度获取符合相关度阈值的待替换词组,能够排除不包含目标类别词语初始对话文本,即能够排除不具有目标语义信息的初始对话文本。并且,通过词语相关度确定初始对话文本中待替换词组的位置,能够保留待替换词组中两个词之间的结构信息,使待替换词组在各个初始对话文本中的位置不同,再通过基于人类对话获取的词库中的目标词组对待替换词组进行全部替换,生成具有人类对话逻辑,且对话文本内容完全不同的目标初始对话文本。在提高了生成目标初始对话文本的结构质量和逻辑质量的同时,增加了生成目标初始对话文本的多样性。
示例性介质
在介绍了本申请示例性实施方式的方法和装置之后,接下来,参考图7对本申请示例性实施方式的计算机可读存储介质进行说明,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如,获取初始对话文本,其中,所述初始对话文本包括至少一轮对话;基于所述初始对话文本中的各个词语的类别,获取多个候选词;多个候选词中包括两种目标类别的词语;根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组;所述待替换词组包括两个不同目标类别的候选词;采用目标词组替换所述初始对话文本中的待替换词组,得到目标初始对话文本;所述目标词组从预设词库中得到,所述预设词库基于人类对话获取。各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
示例性计算设备
在介绍了本申请示例性实施方式的方法、介质和装置之后,接下来,参考图8对本申请示例性实施方式的用于初始对话内容生成的计算设备。
图8示出了适于用来实现本申请实施方式的示例性计算设备40的框图,该计算设备40可以是计算机系统或服务器。图8显示的计算设备40仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算设备40的组件可以包括但不限于:一个或者多个处理器或者处理单元401,系统存储器402,连接不同系统组件(包括系统存储器402和处理单元401)的总线403。
计算设备40典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备40访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器402可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)4021和/或高速缓存存储器4022。计算设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM4023可以用于读写不可移动的、非易失性磁介质(图8中未显示,通常称为“硬盘驱动器”)。尽管未在图8中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。系统存储器402中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块4024的程序/实用工具4025,可以存储在例如系统存储器402中,且这样的程序模块4024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块4024通常执行本申请所描述的实施例中的功能和/或方法。
计算设备40也可以与一个或多个外部设备404(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口405进行。并且,计算设备40还可以通过网络适配器406与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图8所示,网络适配器406通过总线403与计算设备40的其它模块(如处理单元401等)通信。应当明白,尽管图8中未示出,可以结合计算设备40使用其它硬件和/或软件模块。
处理单元401通过运行存储在系统存储器402中的程序,从而执行各种功能应用以及数据处理,例如,获取初始对话文本,其中,所述初始对话文本包括至少一轮对话;基于所述初始对话文本中的各个词语的类别,获取多个候选词;多个候选词中包括两种目标类别的词语;根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组;所述待替换词组包括两个不同目标类别的候选词;采用目标词组替换所述初始对话文本中的待替换词组,得到目标初始对话文本;所述目标词组从预设词库中得到,所述预设词库基于人类对话获取。各步骤的具体实现方式在此不再重复说明。应当注意,尽管在上文详细描述中提及了图像识别模型的训练装置的若干单元/模块或子单元/子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
在本申请的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
通过以上描述,本发明本实施例提供以下技术方案,但不仅限于此:
1.一种初始对话内容生成方法,包括:
获取初始对话文本,其中,所述初始对话文本包括至少一轮对话;
基于所述初始对话文本中的各个词语的类别,获取多个候选词;多个候选词中包括两种目标类别的词语;
根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组;所述待替换词组包括两个不同目标类别的候选词;
采用目标词组替换所述初始对话文本中的待替换词组,得到目标初始对话文本;
所述目标词组从预设词库中得到,所述预设词库基于人类对话获取。
2.根据技术方案1所述的初始对话内容生成方法,所述根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组,包括:
基于各个候选词的类别,得到多个候选词组;每一候选词组均包括一个情绪词和一个主题词;
获取第一概率;第一概率用于表示所述初始对话文本中,一个候选词组的出现概率;不同的第一概率关联不同的候选词组;
获取第二概率;第二概率用于表示所述初始对话文本中,情绪词单独出现的概率;不同第二概率关联的情绪词不同;
获取第三概率;第三概率用于表示所述初始对话文本中,主题词单独出现的概率;不同第三概率关联的主题词不同;
基于各个第一概率、第二概率和第三概率,将符合相关度阈值的候选词组,作为所述初始对话文本的待替换词组。
3.根据技术方案2所述的初始对话内容生成方法,所述基于各个第一概率、第二概率和第三概率,将符合相关度阈值的候选词组,作为所述初始对话文本的待替换词组,包括:
若第一概率大于第一相关度阈值,则将所述第一概率对应的候选词组作为候选替换词组;
基于各个第一概率、第二概率和第三概率,获取各个候选替换词组的相关度值;
若相关度值大于第二相关度阈值,则将所述相关度值对应的候选替换词组,作为所述初始对话文本的待替换词组。
4.根据技术方案3所述的初始对话内容生成方法,所述候选替换词组的相关度值,基于该候选替换词组的点互信息确定;
所述候选替换词组的点互信息,根据该候选替换词组对应的第一概率、第二概率和第三概率计算得到。
5.根据技术方案3所述的初始对话内容生成方法,所述预设词库包括:第一词库和第二词库;
所述第一词库至少包括目标词组;所述目标词组,基于多个待替换词组,进行去重处理后得到;
所述第二词库中的词组,与所述第一词库中的词组不同。
6.根据技术方案5所述的初始对话内容生成方法,通过如下方式对多个待替换词组进行去重处理,得到目标词组:
获取各个待替换词组之间的相似度;
根据各个待替换词组之间的相似度,从多个待替换词组中得到目标词组集合;所述目标词组集合中,任意两个目标词组的相似度小于预设阈值。
7.根据技术方案1或2所述的初始对话内容生成方法,所述获取多个候选词,包括:
将所述初始对话文本划分为多个单句,并分别输入到预设识别模型中,得到所述多个单句中每个词语的分类结果;所述分类结果包括情绪类别和主题类别;
根据分类结果,获取所述初始对话文本中的情绪词和主题词,作为候选词。
8.根据技术方案7所述的初始对话内容生成方法,所述预设识别模型通过以下方式对多个单句中的词语进行分类:
将所述多个单句划分为多个单字;
依次对所述多个单字进行分类,得到各个单字对应的分类结果;
将各个单字的识别结果分别对应组合,得到所述多个单句中的各个词语的分类结果;
其中,每个单字对应的分类结果至少包括以下项的分类概率:
情绪词的首字、情绪词的单字、主题词的首字、主题词的单字以及非情绪非主题单字。
9.根据技术方案1所述的初始对话内容生成方法,采用目标词组替换所述初始对话文本中的待替换词组,得到目标初始对话文本之后,所述方法还包括:
从所述目标初始对话文本中获取具有语序问题的单句;
将所述具有语序问题的单句输入到文本改写模型中,得到更正语序问题后的目标初始对话文本。
10.一种初始对话内容生成装置,包括:
获取模块,被配置为获取初始对话文本,其中,所述初始对话文本包括至少一轮对话;
识别模块,被配置为基于所述初始对话文本中的各个词语的类别,获取多个候选词;多个候选词中包括两种目标类别的词语;
词组确定模块,被配置为根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组;生成模块,被配置为采用目标词组替换所述待替换词组,得到目标初始对话文本;
所述目标词组从预设词库中得到,所述预设词库基于人类对话获取。
11.一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如技术方案1-9中任一项所述的方法。
12.一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如技术方案1-9中任一项所述的方法。

Claims (9)

1.一种初始对话内容生成方法,其特征在于,包括:
获取初始对话文本,其中,所述初始对话文本包括至少一轮对话;
基于所述初始对话文本中的各个词语的类别,获取多个候选词;多个候选词中包括两种目标类别的词语;
根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组;所述待替换词组包括两个不同目标类别的候选词;
采用目标词组替换所述初始对话文本中的待替换词组,得到目标初始对话文本;
所述目标词组从预设词库中得到,所述预设词库基于人类对话获取;
其中,所述根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组,包括:
基于各个候选词的类别,得到多个候选词组;每一候选词组均包括一个情绪词和一个主题词;
获取第一概率;第一概率用于表示所述初始对话文本中,一个候选词组的出现概率;不同的第一概率关联不同的候选词组;
获取第二概率;第二概率用于表示所述初始对话文本中,情绪词单独出现的概率;不同第二概率关联的情绪词不同;
获取第三概率;第三概率用于表示所述初始对话文本中,主题词单独出现的概率;不同第三概率关联的主题词不同;
基于各个第一概率、第二概率和第三概率,将符合相关度阈值的候选词组,作为所述初始对话文本的待替换词组。
2.根据权利要求1所述的初始对话内容生成方法,其特征在于,所述基于各个第一概率、第二概率和第三概率,将符合相关度阈值的候选词组,作为所述初始对话文本的待替换词组,包括:
若第一概率大于第一相关度阈值,则将所述第一概率对应的候选词组作为候选替换词组;
基于各个第一概率、第二概率和第三概率,获取各个候选替换词组的相关度值;
若相关度值大于第二相关度阈值,则将所述相关度值对应的候选替换词组,作为所述初始对话文本的待替换词组。
3.根据权利要求2所述的初始对话内容生成方法,其特征在于,所述候选替换词组的相关度值,基于该候选替换词组的点互信息确定;
所述候选替换词组的点互信息,根据该候选替换词组对应的第一概率、第二概率和第三概率计算得到。
4.根据权利要求2所述的初始对话内容生成方法,其特征在于,所述预设词库包括:第一词库和第二词库;
所述第一词库至少包括目标词组;所述目标词组,基于多个待替换词组,进行去重处理后得到;
所述第二词库中的词组,与所述第一词库中的词组不同。
5.根据权利要求4所述的初始对话内容生成方法,其特征在于,通过如下方式对多个待替换词组进行去重处理,得到目标词组:
获取各个待替换词组之间的相似度;
根据各个待替换词组之间的相似度,从多个待替换词组中得到目标词组集合;所述目标词组集合中,任意两个目标词组的相似度小于预设阈值。
6.根据权利要求1所述的初始对话内容生成方法,其特征在于,所述获取多个候选词,包括:
将所述初始对话文本划分为多个单句,并分别输入到预设识别模型中,得到所述多个单句中每个词语的分类结果;所述分类结果包括情绪类别和主题类别;
根据分类结果,获取所述初始对话文本中的情绪词和主题词,作为候选词。
7.一种初始对话内容生成装置,其特征在于,包括:
获取模块,被配置为获取初始对话文本,其中,所述初始对话文本包括至少一轮对话;
识别模块,被配置为基于所述初始对话文本中的各个词语的类别,获取多个候选词;多个候选词中包括两种目标类别的词语;
词组确定模块,被配置为根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组;
生成模块,被配置为采用目标词组替换所述待替换词组,得到目标初始对话文本;
所述目标词组从预设词库中得到,所述预设词库基于人类对话获取;
所述词组确定模块根据多个候选词之间的相关度,确定所述初始对话文本的待替换词组的过程,包括:
基于各个候选词的类别,得到多个候选词组;每一候选词组均包括一个情绪词和一个主题词;
获取第一概率;第一概率用于表示所述初始对话文本中,一个候选词组的出现概率;不同的第一概率关联不同的候选词组;
获取第二概率;第二概率用于表示所述初始对话文本中,情绪词单独出现的概率;不同第二概率关联的情绪词不同;
获取第三概率;第三概率用于表示所述初始对话文本中,主题词单独出现的概率;不同第三概率关联的主题词不同;
基于各个第一概率、第二概率和第三概率,将符合相关度阈值的候选词组,作为所述初始对话文本的待替换词组。
8.一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6中任一项所述的方法。
9.一种计算设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-6中任一项所述的方法。
CN202310600635.4A 2023-05-25 2023-05-25 初始对话内容生成方法、装置、介质和计算设备 Active CN116414965B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310600635.4A CN116414965B (zh) 2023-05-25 2023-05-25 初始对话内容生成方法、装置、介质和计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310600635.4A CN116414965B (zh) 2023-05-25 2023-05-25 初始对话内容生成方法、装置、介质和计算设备

Publications (2)

Publication Number Publication Date
CN116414965A CN116414965A (zh) 2023-07-11
CN116414965B true CN116414965B (zh) 2023-08-22

Family

ID=87059582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310600635.4A Active CN116414965B (zh) 2023-05-25 2023-05-25 初始对话内容生成方法、装置、介质和计算设备

Country Status (1)

Country Link
CN (1) CN116414965B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157897A (zh) * 2021-05-26 2021-07-23 中国平安人寿保险股份有限公司 语料生成方法、装置、计算机设备及存储介质
CN113553806A (zh) * 2021-09-22 2021-10-26 中国人民解放军国防科技大学 文本数据增强方法、装置、设备和介质
CN114595327A (zh) * 2022-02-22 2022-06-07 平安科技(深圳)有限公司 数据增强方法和装置、电子设备、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10943070B2 (en) * 2019-02-01 2021-03-09 International Business Machines Corporation Interactively building a topic model employing semantic similarity in a spoken dialog system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157897A (zh) * 2021-05-26 2021-07-23 中国平安人寿保险股份有限公司 语料生成方法、装置、计算机设备及存储介质
CN113553806A (zh) * 2021-09-22 2021-10-26 中国人民解放军国防科技大学 文本数据增强方法、装置、设备和介质
CN114595327A (zh) * 2022-02-22 2022-06-07 平安科技(深圳)有限公司 数据增强方法和装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN116414965A (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN110096570B (zh) 一种应用于智能客服机器人的意图识别方法及装置
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN111738016B (zh) 多意图识别方法及相关设备
CN112905795A (zh) 文本意图分类的方法、装置和可读介质
CN106610990B (zh) 情感倾向性分析的方法及装置
CN112307168A (zh) 基于人工智能的问诊会话处理方法、装置和计算机设备
KR20200119393A (ko) 챗봇을 위한 학습 데이터 추천 장치 및 방법
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN111553159B (zh) 一种问句生成方法及系统
CN113988071A (zh) 一种基于金融知识图谱的智能对话方法及装置、电子设备
CN113806489A (zh) 用于数据集创建的方法、电子设备和计算机程序产品
CN115617974B (zh) 一种对话处理方法、装置、设备及存储介质
Hu et al. Dynamically retrieving knowledge via query generation for informative dialogue generation
CN116414965B (zh) 初始对话内容生成方法、装置、介质和计算设备
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
CN114896973A (zh) 一种文本处理方法、装置及电子设备
CN113012685B (zh) 音频识别方法、装置、电子设备及存储介质
Zhang et al. Sentence simplification based on multi-stage encoder model
CN115617959A (zh) 问题解答方法及装置
CN113688636A (zh) 扩展问的推荐方法、装置、计算机设备和存储介质
Elnozahy et al. Multi-Lang Question Answering Framework for Decision Support in Educational Institutes.
Chen et al. SR3: Sentence Ranking, Reasoning, and Replication for Scenario-Based Essay Question Answering
Alissa et al. Text simplification using transformer and BERT
JP2015210342A (ja) 発話生成手法学習装置、発話生成手法選択装置、発話生成手法学習方法、発話生成手法選択方法、プログラム
CN116991982B (zh) 基于人工智能的交互式对话方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant