CN112883729B - 文本创作的词汇推荐方法、装置及服务器 - Google Patents

文本创作的词汇推荐方法、装置及服务器 Download PDF

Info

Publication number
CN112883729B
CN112883729B CN202110266139.0A CN202110266139A CN112883729B CN 112883729 B CN112883729 B CN 112883729B CN 202110266139 A CN202110266139 A CN 202110266139A CN 112883729 B CN112883729 B CN 112883729B
Authority
CN
China
Prior art keywords
vocabulary
model
recommendation
modified
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110266139.0A
Other languages
English (en)
Other versions
CN112883729A (zh
Inventor
张林箭
张荣升
张聪
江琳
范长杰
胡志鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Hangzhou Network Co Ltd
Original Assignee
Netease Hangzhou Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Hangzhou Network Co Ltd filed Critical Netease Hangzhou Network Co Ltd
Priority to CN202110266139.0A priority Critical patent/CN112883729B/zh
Publication of CN112883729A publication Critical patent/CN112883729A/zh
Application granted granted Critical
Publication of CN112883729B publication Critical patent/CN112883729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种文本创作的词汇推荐方法、装置及服务器,涉及智能创作技术领域,包括:获取待修改的目标文本和目标文本中的待修改词汇;通过预先训练得到的词汇推荐模型对目标文本和/或待修改词汇进行词汇推荐处理,得到待修改词汇对应的多个候选推荐词汇;其中,词汇推荐模型包括基于目标文本的综合推荐子模型、基于待修改词汇的常用搭配推荐子模型、基于目标文本和待修改词汇的意象推荐子模型中的一种或多种;从多个候选推荐词汇中确定待修改词汇对应的目标推荐词汇。本发明可以推荐更适合当前文本所描述场景、更富有想象意味的词汇,从而显著提高了推荐的词汇的质量,较好地满足了用户需求。

Description

文本创作的词汇推荐方法、装置及服务器
技术领域
本发明涉及智能创作技术领域,尤其是涉及一种文本创作的词汇推荐方法、装置及服务器。
背景技术
随着人工智能(AI,Artificial Intelligence)技术的发展,AI写作/创作技术也应运而生,这类技术通常用于辅助用户创作文本,然而这类技术得到的文本中可能存在某些短语用词甚至是整句、整段均需要进行润色修改的情况。相关技术中涉及两种短语推荐方法:一种是基于同义词表进行短语推荐,但是该方法非常依赖人工准备的同义词表,不仅需要耗费较多人力对同义词表进行配置,而且由于同义词表基本固定,因此无法给用户提供惊喜感;另一种是基于词向量进行短语推荐,由于词向量是统计意义上的结果,因此该方法更倾向于推荐常见的短语,而且由于词向量词表过于庞大,因此可存在推荐无关短语的情况。综上所述,现有技术中公开的短语推荐方法不仅无法较好的推荐出适合当前文本所描述的场景的短语,而且无法为用户提供更富有想象意味的短语,从而无法较好地满足用户需求。
发明内容
有鉴于此,本发明的目的在于提供一种文本创作的词汇推荐方法、装置及服务器,可以推荐更适合当前文本所描述场景、更富有想象意味的词汇,从而显著提高了推荐的词汇的质量,较好地满足了用户需求。
第一方面,本发明实施例提供了一种文本创作的词汇推荐方法,包括:获取待修改的目标文本和所述目标文本中的待修改词汇;通过预先训练得到的词汇推荐模型对所述目标文本和/或所述待修改词汇进行词汇推荐处理,得到所述待修改词汇对应的多个候选推荐词汇;其中,所述词汇推荐模型包括基于所述目标文本的综合推荐子模型、基于所述待修改词汇的常用搭配推荐子模型、基于所述目标文本和所述待修改词汇的意象推荐子模型中的一种或多种;从所述多个所述候选推荐词汇中确定所述待修改词汇对应的目标推荐词汇。
在一种实施方式中,所述通过预先训练得到的词汇推荐模型对所述目标文本和/或所述待修改词汇进行词汇推荐处理,得到所述待修改词汇对应的多个候选推荐词汇的步骤,包括:如果所述词汇推荐模型包括所述综合推荐子模型,将所述目标文本中的所述待修改词汇替换为第一占位符,通过所述综合推荐子模型对替换后的目标文本,得到多个综合推荐词汇;如果所述词汇推荐模型包括所述意象推荐子模型,将所述目标文本中的所述待修改词汇替换为第二占位符,通过所述意象推荐子模型对替换后的目标文本进行词汇推荐处理,得到多个意象推荐词汇;如果所述词汇推荐模型包括所述常用搭配推荐子模型,通过所述常用搭配推荐子模型对所述待修改词汇进行词汇推荐处理,得到多个常用搭配推荐词汇;其中,所述候选推荐词汇包括所述综合推荐词汇、所述意象推荐词汇、所述常用搭配推荐词汇中的一种或多种。
在一种实施方式中,所述综合推荐子模型的训练步骤,包括:获取第一训练数据;其中,所述第一训练数据包括第一训练文本和训练词汇,所述第一训练文本中采用第三占位符替代所述训练词汇;将所述第一训练文本作为所述综合推荐子模型的输入,以及将所述训练词汇作为所述综合推荐子模型的输出,对所述综合推荐子模型进行训练;其中,所述综合推荐子模型包括seq2seq模型。
在一种实施方式中,所述意象推荐子模型的训练步骤,包括:获取多个已有文本,并根据各个所述已有文本中的词汇词频确定意象词汇;基于所述意象词汇构建第二训练数据;其中,所述第二训练数据包括所述第二训练文本和所述意象词汇,所述第二训练文本中采用第四占位符代替所述意象词汇;将所述第二训练文本作为所述意象推荐子模型的输入,以及将所述意象词汇作为所述意象推荐子模型的输出,对所述意象推荐子模型进行训练。
在一种实施方式中,所述根据各个所述已有文本中的词汇词频确定意象词汇的步骤,包括:对各个所述已有文本进行第一预处理,得到多个待确定词汇;其中,所述第一预处理包括分词处理、词性标注处理、过滤处理;分别统计各个所述待确定词汇的词汇词频,并基于各个所述待确定词汇的词汇词频计算各个所述待确定词汇对应的热度;根据各个所述待确定词汇对应的热度,从各个所述待确定词汇中确定意象词汇。
在一种实施方式中,所述通过所述常用搭配推荐子模型对所述待修改词汇进行词汇推荐处理,得到多个常用搭配推荐词汇的步骤,包括:对包含有所述待修改词汇的已有文本进行第二预处理,得到多个分词短语;其中,所述第二预处理包括分词处理和词性标注处理;对于每个分词短语,根据所述待修改词汇与该分词短语之间的相对关系,确定所述待修改词汇对应的候选搭配词汇;对各个所述候选搭配词汇进行统计,并基于统计结果从各个所述候选搭配词汇中确定所述待修改词汇对应的多个常用搭配推荐词汇。
在一种实施方式中,所述根据所述待修改词汇与该分词短语之间的相对关系,确定所述待修改词汇对应的候选搭配词汇的步骤,包括:判断所述待修改词汇是否为该分词短语的一部分;如果是,将该分词短语确定为所述待修改词汇对应的候选搭配词汇;如果否,当该分词短语位于所述待修改词汇的左侧或右侧时,根据该分词短语的词性和/或长度判断是否组合该分词短语与所述待修改词汇,如果确定组合该分词短语与所述待修改词汇,将组合结果确定为所述待修改词汇对应的候选搭配词汇。
在一种实施方式中,所述词汇推荐模型还包括近义词推荐子模型、反义词推荐子模型和相关词推荐子模型中的一种或多种;所述候选推荐词汇包括近义推荐词、反义推荐词和相关推荐词中的一种或多种;所述通过预先训练得到的词汇推荐模型对所述目标文本和/或所述待修改词汇进行词汇推荐处理,得到所述待修改词汇对应的多个候选推荐词汇的步骤,包括:如果所述词汇推荐模型包括所述近义词推荐子模型,通过所述近义词推荐子模型从第一指定数据库中检索得到所述待修改词汇对应的多个近义推荐词;如果所述词汇推荐模型包括所述反义词推荐子模型,通过所述反义词推荐子模型从第二指定数据库中检索得到所述待修改词汇对应的多个反义推荐词;如果所述词汇推荐模型包括所述相关词推荐子模型,通过所述相关词推荐子模型计算所述待修改词汇与多个可选相关词之间的向量距离,并根据所述向量距离得到所述待修改词汇对应的多个推荐相关词。
在一种实施方式中,所述获取待修改的目标文本和所述目标文本内的待修改词汇的步骤,包括:获取待修改的目标文本,并通过用户图形界面展示所述目标文本;响应用户针对所述目标文本的词汇选择操作,将所述词汇选择操作对应的词汇确定为待修改词汇。
在一种实施方式中,所述从所述多个所述候选推荐词汇中确定所述待修改词汇对应的目标推荐词汇的步骤,包括:对于每个子模型,根据词汇置信度从该子模型输出的多个候选推荐词汇中确定目标推荐词汇。
在一种实施方式中,在所述根据词汇置信度从该子模型输出的多个候选推荐词汇中确定目标推荐词汇的步骤之后,所述方法还包括:如果该子模型确定的目标推荐词汇的词汇数量小于或等于预设数量,展示每个所述目标推荐词汇;如果该子模型确定的目标推荐词汇的词汇数量大于所述预设数量,从所述目标推荐词汇中随机选择并展示所述预设数量的目标推荐词汇。
在一种实施方式中,所述目标文本包括歌词文本、诗歌文本、文言文文本、作文文本中的一种或多种。
第二方面,本发明实施例还提供一种文本创作的词汇推荐装置,包括:获取模块,用于获取待修改的目标文本和所述目标文本中的待修改词汇;输出模块,用于通过预先训练得到的词汇推荐模型对所述目标文本和/或所述待修改词汇进行词汇推荐处理,得到所述待修改词汇对应的多个候选推荐词汇;其中,所述词汇推荐模型包括基于所述目标文本的综合推荐子模型、基于所述待修改词汇的常用搭配推荐子模型、基于所述目标文本和所述待修改词汇的意象推荐子模型中的一种或多种;词汇确定模块,用于从所述多个所述候选推荐词汇中确定所述待修改词汇对应的目标推荐词汇。
第三方面,本发明实施例还提供一种服务器,包括处理器和存储器;所述存储器上存储有计算机程序,所述计算机程序在被所述处理器运行时执行如第一方面提供的任一项所述的方法。
第四方面,本发明实施例还提供一种计算机存储介质,用于储存为第二方面提供的任一项所述方法所用的计算机软件指令。
本发明实施例提供的一种文本创作的词汇推荐方法、装置及服务器,首先获取待修改的目标文本和目标文本中的待修改词汇,然后通过预先训练得到的词汇推荐模型对目标文本和/或待修改词汇进行词汇推荐处理,得到待修改词汇对应的多个候选推荐词汇,并从多个候选推荐词汇中确定待修改词汇对应的目标推荐词汇,上述词汇推荐模型包括基于目标文本的综合推荐子模型、基于待修改词汇的常用搭配推荐子模型、基于目标文本和待修改词汇的意象推荐子模型中的一种或多种。本发明实施例采用多个维度的子模型基于目标文本和/或待修改词汇进行词汇推荐,不仅充分利用了待修改词汇在目标文本上下文的位置信息,而且综合考虑了上下文含义和/或词汇含义,从而推荐出更为恰当、高质量的目标推荐词汇,有效提高了词汇采纳率,较好地满足了用户需求。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本创作的词汇推荐方法的流程示意图;
图2为本发明实施例提供的一种综合推荐子模型确定综合推荐词汇的示意图;
图3为本发明实施例提供的一种意象推荐子模型确定意象推荐词汇的示意图;
图4为本发明实施例提供的一种常用搭配推荐子模型确定常用搭配推荐词汇的示意图;
图5为本发明实施例提供的一种近义词/反义词/相关词推荐子模型确定候选推荐词汇的示意图;
图6为本发明实施例提供的一种用户图形界面的示意图;
图7为本发明实施例提供的一种文本创作的词汇推荐装置的结构示意图;
图8为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,相关技术公开了两种短语推荐方法:一种是基于同义词表进行短语推荐,该方法需要预先配置同义词库,当用户选择了需要进行推荐的词语时将在同义词库中检索出其同义词并反馈给用户,例如,用户选择“珍惜”时,将“体惜”、“珍爱”等词汇反馈给用户,这种方式非常依赖人工配置的同义词库,在准备数据器件非常耗费人力,而且对于同一个需要进行推荐的词语来说,其同义词基本固定,因此无法给用户提供惊喜感;一种是基于词向量进行短语推荐,该方法可以利用现有的训练好的词向量,当用户选择了需要进行推荐的词语时,将计算出与该词汇的词向量距离最近的top-n的词语反馈给用户,例如,用户选择“珍惜”时,将“可贵”、“真情”、“爱人”反馈给用户,虽然基于词向量进行短语推荐可以缓解人工配置同义词库时存在的问题,但是由于词向量是统计意义上的结果,因此更倾向于将常见词汇反馈给用户,导致推荐的词汇过于口水化,而且由于词向量的词表非常庞大,因此极有可能将无关词汇反馈给用户。综上所述,相关技术中提供的两种短语推荐方法均存在以下问题:(1)推荐的词语不适合当前文本所描述的场景,浪费用户的筛选时间;(2)无法为用户提供更具想象意味、更高内涵和水准的词汇。基于此,本发明实施提供了一种文本创作的词汇推荐方法、装置及服务器,可以推荐更适合当前文本所描述场景、更富有想象意味的词汇,从而显著提高了推荐的词汇的质量,较好地满足了用户需求。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种文本创作的词汇推荐方法进行详细介绍,参见图1所示的一种文本创作的词汇推荐方法的流程示意图,该方法主要包括以下步骤S102至步骤S106:
步骤S102,获取待修改的目标文本和目标文本中的待修改词汇。其中,目标文本包括歌词文本、诗歌文本、文言文文本、作文文本中的一种或多种,目标文本可以为用户创作并上传的文本,也可以为利用AI创作技术生成的文本,待修改词汇可以理解为目标文本那种需要进行词汇推荐的词汇。在一种实施方式中,可以为用户提供文本上传通道,以便于用户选择并上传目标文本,另外,还可以展示目标文本,以使用户从目标文本中选择需要进行词汇推荐的待修改词汇。
步骤S104,通过预先训练得到的词汇推荐模型对目标文本和/或待修改词汇进行词汇推荐处理,得到待修改词汇对应的多个候选推荐词汇。
词汇推荐模型包括基于目标文本的综合推荐子模型、基于待修改词汇的常用搭配推荐子模型、基于目标文本和待修改词汇的意象推荐子模型中的一种或多种。其中,综合推荐子模型可以结合目标文本的上下文综合确定候选推荐词汇,常用搭配推荐子模型可以推荐与待修改词汇进行搭配的候选推荐词汇,意象推荐子模型可以输出更符合目标文本语境的意象词,从而给用户一定的惊喜感。
步骤S106,从多个候选推荐词汇中确定待修改词汇对应的目标推荐词汇。在一种实施方式中,可从各个子模型输出的候选推荐词汇中分别确定多个目标推荐词汇,例如,从综合推荐子模型输出的多个候选推荐词汇中确定第一指定数量的目标推荐词汇,从常用搭配子模型输出的多个候选推荐词汇中确定第二指定数量的目标推荐词汇,从意象推荐子模型输出的多个候选推荐词汇中确定第三指定数量的目标推荐词汇,并将各个目标推荐词汇反馈给用户,供用户选择。其中,上述第一指定数量、第二指定数量和第三指定数量可以相同或不同。
本发明实施例提供的上述文本创作的词汇推荐方法,采用多个维度的子模型基于目标文本和/或待修改词汇进行词汇推荐,不仅充分利用了待修改词汇在目标文本上下文的位置信息,而且综合考虑了上下文含义和/或词汇含义,从而推荐出更为恰当、高质量的目标推荐词汇,有效提高了词汇采纳率,较好地满足了用户需求。
对于前述步骤S102,本发明实施例提供了一种获取待修改的目标文本和目标文本内的待修改词汇的实施方式,可以获取待修改的目标文本,并通过用户图形界面展示目标文本,响应用户针对目标文本的词汇选择操作,将词汇选择操作对应的词汇确定为待修改词汇。其中,用户图形界面可以展示目标文本,词汇选择操作可以为点选操作、勾选操作、触控操作等。例如,利用AI创作技术生成一首完整的歌词,并通过用户图形界面展示该歌词,用户勾选某一句歌词中的某个词汇,该词汇即为上述待修改词汇。
为增大用户的选择空间,本发明实施例提供的词汇推荐模型可以包括综合推荐子模型、常用搭配推荐子模型、意象推荐子模型、近义词推荐子模型、反义词推荐子模型和相关词推荐子模型中的一种或多种,候选推荐词汇可以包括综合推荐词汇、意象推荐词汇、常用搭配推荐词汇、近义推荐词、反义推荐词和相关推荐词中的一种或多种,通过不同词汇推荐模型可以得到不同的候选推荐词汇,从而极大地增加了用户的选择空间。
在此基础上,在执行通过预先训练得到的词汇推荐模型对目标文本和/或待修改词汇进行词汇推荐处理,得到待修改词汇对应的多个候选推荐词汇的步骤时,可以参照如下所示的几种方式:
方式一:如果词汇推荐模型包括综合推荐子模型,将目标文本中的待修改词汇替换为第一占位符,通过综合推荐子模型对替换后的目标文本进行词汇推荐处理,得到多个综合推荐词汇。其中,上述综合推荐子模型可以包括seq2seq模型,可选的,seq2seq模型采用的是transformers。为便于理解,本发明实施例提供了一种通过综合推荐子模型确定综合推荐词汇的应用示例,参见图2所示的一种综合推荐子模型确定综合推荐词汇的示意图,假设目标文本为“茫茫人海里经过了多少风雨可又有谁能够把彼此_有时候常常告诉自己人生总要留下回忆”,其中,“_”用于表征上述目标文本中的待修改词汇,综合推荐子模型可以输出“牢记”、“忘记”、“珍惜”、“屏住”、“铭记”、“存在”等综合推荐词汇。可选的,综合推荐子模型输出时可以采用公开的解码方法(例如beam search)进行解码,得到多个综合推荐词汇。
其中,上述综合推荐子模型可以理解为一种句子级别的词汇推荐模型,也即综合推荐子模型是一种考虑了上下文的词汇推荐模型。为使综合推荐子模型可以输出质量较高的综合推荐词汇,本发明实施例还提供了一种综合推荐子模型的训练方法,综合推荐子模型的输入为目标文本的上下文和待修改词汇的位置,该位置的待修改词汇用“<mask>”符号进行标记,不同句子间用“<s>”进行分隔,例如,“久未放晴的天空<s>依旧留着你的<mask><s>哭过却无法掩埋歉疚”,综合推荐子模型的输出为<mask>位置的真实答案“笑容”,上述<mask>和<s>都是占位符,分别都看做一个字符。具体的,可参见如下步骤(一)至步骤(二):
步骤(一),获取第一训练数据。其中,第一训练数据包括第一训练文本和训练词汇,第一训练文本中采用第三占位符替代训练词汇。为便于理解,以歌词创作为例,可以爬取网络上公开中文歌词数据,然后利用“jieba分词工具”对歌词数据进行分词处理和词性标注处理,诸如,分词处理后的歌词数据为[“久未放晴的天空”,“依旧留着你的笑容”,“哭过却无法掩埋歉疚”],其中“放晴”、“掩埋”是动词、“天空”、“笑容”、“无法”是名词,然后基于其中的名词、动词、形容词产生第一训练数据。可选的,对同一首歌的同一个词汇,可以只产生一个第一训练数据。例如,对名词“笑容”,对应的样本为:{“输入”:“久未放晴的天空<s>依旧留着你的<mask><s>哭过却无法掩埋歉疚”,“输出”:“笑容”},上述“输入”即为第一训练文本,“输出”即为训练词汇。应当注意的是,在实际应用中也可以自定义其他词性来产生第一训练数据,具体可基于实际需求进行设置,本发明实施例对此不进行限制。
由于目前中文bert模型都是在字符级别上进行处理的,因此第一训练文本和训练词汇均是字符级别,而非词语级别。其中,字符级别意味着所有的字符都可以对应到词表里的元素,比如“掩”、“埋”等;词语级别意味着词可以对应到词表里的元素,比如“掩埋”、“放晴”。在本发明实施例中的综合推荐子模型采用中文bert模型,由于中文bert模型是基于“字符级别”来处理的,因此上述输入和输出中的每个字都需要用空格进行分隔。
步骤(二),将第一训练文本作为综合推荐子模型的输入,以及将训练词汇作为综合推荐子模型的输出,对综合推荐子模型进行训练。在一种实施方式中,transformers的encoder(编码器)和decoder(译码器)均采用预训练好的中文bert模型的参数作为初始参数。可选的,中文bert模型为开源的、在大量中文语料上训练好的模型,其网络结构和transformers的encoder和decoder几乎完全一致,虽然decoder部分的注意力机制和中文bert模型相比存在微小改动,但是不影响网络参数的赋值。
方式二:如果词汇推荐模型包括意象推荐子模型,将目标文本中的待修改词汇替换为第二占位符,通过意象推荐子模型对替换后的目标文本进行词汇推荐处理,得到多个意象推荐词汇。为便于理解,本发明实施例提供了一种通过意象推荐子模型确定意象推荐词汇的应用示例,参见图3所示的一种意象推荐子模型确定意象推荐词汇的示意图,假设目标文本为“茫茫人海里经过了多少风雨可又有谁能够把彼此_有时候常常告诉自己人生总要留下回忆”,其中,“_”用于表征上述目标文本中的待修改词汇,意象推荐子模型可以输出“怀抱”、“避风港”、“教会”、“俘虏”等意象推荐词汇。
其中,上述意象推荐子模型可以理解为一种融合了句子级别和词语级别的推荐方法。意象推荐子模型的目标为向用户推荐“意象词”,“意象词”可以为人工筛选出的高质量的词语。应当注意的是,意象推荐子模型的训练数据与综合推荐子模型的训练数据不同。参见如下步骤1至步骤3所示的一种意象推荐子模型的训练方法的实施方式:
步骤1,获取多个已有文本,并根据各个已有文本中的词汇词频确定意象词汇。其中,已有文本可以为网络上爬取得到的公开文本,以歌词创作为例,已有文本即为上述公开中文歌词数据。在一种实施方式中,在根据各个已有文本中的词汇词频确定意象词汇时,可以参照如下步骤1.1至步骤1.3:
步骤1.1,对各个已有文本进行第一预处理,得到多个待确定词汇。其中,第一预处理包括分词处理、词性标注处理、过滤处理。以歌词数据为例,对已有的歌词数据进行分词处理以及词性标注处理,只保留歌词数据中的名词、动词和形容词,然后对保留的名词、动词和形容词进行过滤操作,过滤条件可以包括语言条件和/或长度条件,语言条件可以为只保留中文歌词,长度条件可以包括只保留长度在2~4个字之间的词汇,最终保留的词汇即为上述待确定词汇。
步骤1.2,分别统计各个待确定词汇的词汇词频,并基于各个待确定词汇的词汇词频计算各个待确定词汇对应的热度。在一种实施方式中,可以在所有已有文本中分别统计各个待确定词汇的词汇词频。继续以歌词数据为例,假设爬取到30W首歌的歌词数据,待确定词汇包括“爱情”、“演员等”,在所有歌词数据分别确定“爱情”的词汇词频和“演员”的词汇词频。另外,还可以对每个待确定词汇的词汇词频进行归一化处理,得到0~1之间的词频分数,词频分数越高说明该待确定词汇的热度越大。在实际应用中,可以按照如下公式计算每个待确定词汇的热度:其中,f表示待确定词汇的词汇词频,fmax表示最大词频,fmin表示最小词频。
步骤1.3,根据各个待确定词汇对应的热度,从各个待确定词汇中确定意象词汇。在一种实施方式中,可以按照热度由高到低的顺序选择多个待确定词汇,再对选择的待确定词汇进行人工筛选,从而得到多个意象词汇。假设按照热度由高到低的顺序选择10万个待确定词汇,从中挑出热度最大的4万个待确定词汇用于人工筛选,人工筛选时按照待确定词汇的质量分为三个级别:意象词汇(高质量词)、保留词汇(中质量词)、其他词汇(剩下的词),例如,确定4千个意象词汇,2万个保留词汇,其余均为其他词。
步骤2,基于意象词汇构建第二训练数据。其中,第二训练数据包括第二训练文本和意象词汇,第二训练文本中采用第四占位符代替意象词汇。本发明实施例在生成第二训练数据时,只考虑歌词数据中的意象词汇,另外,对同一首歌的同一个词汇,可以只产生一个第一训练数据。例如,歌词数据为:[“久未放晴的天空”,“依旧留着你的笑容”,“哭过却无法掩埋歉疚”],其中“依旧”是一个意象词汇,则得到的第二训练数据为:{“输入”:“久未放晴的天空<s><mask>留着你的笑容<s>哭过却无法掩埋歉疚”,“输出”:“依旧”}。
步骤3,将第二训练文本作为意象推荐子模型的输入,以及将意象词汇作为意象推荐子模型的输出,对意象推荐子模型进行训练。
方式三:如果词汇推荐模型包括常用搭配推荐子模型,通过常用搭配推荐子模型对待修改词汇进行词汇推荐处理,得到多个常用搭配推荐词汇。常用搭配推荐子模型可以从已有文本中检索出包含待修改词汇的已有文本,然后从包含待修改词汇的已有文本中抽取出短语搭配反馈给用户。为便于理解,参见图4所示的一种常用搭配推荐子模型确定常用搭配推荐词汇的示意图,当待修改词汇为“珍惜”时,常用搭配推荐子模型将输出“珍惜”、“美好”、“珍惜友情”、“珍惜我心”、“珍惜自由”、“珍惜汗水”、“最珍惜”、“珍惜消失”、“学会珍惜”、“人珍惜”、“我会珍惜”、“珍惜爱情”、“珍惜此际”等多个常用搭配推荐词汇,其中,常用搭配推荐词汇的数目可调。
在一种实施方式中,本发明实施例提供了一种通过常用搭配推荐子模型对待修改词汇进行词汇推荐处理,得到多个常用搭配推荐词汇的实施方式,参见如下步骤a至步骤c:
步骤a,对包含有待修改词汇的已有文本进行第二预处理,得到多个分词短语。其中,第二预处理包括分词处理和词性标注处理。在一种实施方式中,爬取网络中公开的已有文本,该已有文本可以包括歌词、古诗、现代诗歌、散文等,然后对爬取到的已有文本进行清洗、分句、去重处理,得到约400万个句子。考虑到已有文本可能是大段文字,或标点符号不符合规范,因此本发明实施例可以依据文本长度对句子进行划分:对于古诗,可以直接按照单个诗句来划分;对于其他文本,可以控制每句话在10~25个字,此处的字数只是一个参数,在实际应用中可以人为指定。之后可以从上述400万个句子中检索到包含有待修改词汇的已有文本,并对包含有待修改词汇的已有文本进行分词处理和词性标注处理,例如,待修改词汇为“流水”,获取到的某个句子为“小桥流水夕阳西下”。
步骤b,对于每个分词短语,根据待修改词汇与该分词短语之间的相对关系,确定待修改词汇对应的候选搭配词汇。其中,待修改词汇与分词短语之间的相对关系可以包括待修改词汇位于分词短语内部或待修改词汇单独成词。为便于理解,在执行根据待修改词汇与该分词短语之间的相对关系,确定待修改词汇对应的候选搭配词汇的步骤时,可以参照如下步骤b1至步骤b3:
步骤b1,判断待修改词汇是否为该分词短语的一部分。如果待修改词汇为该分词短语的一部分,则确定待修改词汇位于分词短语内部,例如,分词结果为“小桥流水夕阳西下”,那“小桥”是在“小桥流水”的内部,“流水”也是在“小桥流水”内部。如果待修改词汇不为该分词短语的一部分,则确定待修改词汇单独成词,例如,分词结果为“小桥流水夕阳西下”,其中“小桥流水”、“夕阳”、“西下”三个词均单独成词。
步骤b2,如果是,将该分词短语确定为待修改词汇对应的候选搭配词汇。例如,待修改词汇为“流水”,分词结果为“小桥流水夕阳西下”,此时返回“小桥流水”。
步骤b3,如果否,当该分词短语位于待修改词汇的左侧或右侧时,根据该分词短语的词性和/或长度判断是否组合该分词短语与待修改词汇,如果确定组合该分词短语与待修改词汇,将组合结果确定为待修改词汇对应的候选搭配词汇。例如,分词结果为“小桥流水夕阳西下”,如果左侧的分词短语是形容词、名词、动词中的一种,且词长大于1,则将左侧的分词短语和待修改词汇组合为一个短语,该短语即为候选搭配词汇,比如“小桥流水”;如果无法和左侧的分词短语组合,则对右侧的分词短语做同样的判断进行组合,如果能组合则返回待修改词汇和右侧的分词短语组合的结果,比如“流水夕阳”。
步骤c,对各个候选搭配词汇进行统计,并基于统计结果从各个候选搭配词汇中确定待修改词汇对应的多个常用搭配推荐词汇。在一种实施方式中,可以按照各个候选搭配词汇的出现次数进行统计,并优先返回出现次数最高的多个候选搭配词汇,该出现次数最高的多个候选搭配词汇即为常用搭配推荐词汇。
方式四:如果词汇推荐模型包括近义词推荐子模型,通过近义词推荐子模型从第一指定数据库中检索得到待修改词汇对应的多个近义推荐词。其中,第一指定数据库可以为近义词数据库。在一种实施方式中,可以基于网络搜集到的近义词表推荐多个近义推荐词,例如,当给定一个待修改词汇时,从近义词数据库中检索出该待修改词汇的近义词并反馈给用户。
方式五:如果词汇推荐模型包括反义词推荐子模型,通过反义词推荐子模型从第二指定数据库中检索得到待修改词汇对应的多个反义推荐词。其中,第二指定数据库可以为反义词数据库。在一种实施方式中,可以基于网络搜集到的反义词表推荐多个反义推荐词,例如,当给定一个待修改词汇时,从反义词数据库中检索出该待修改词汇的反义词并反馈给用户。
方式六:如果词汇推荐模型包括相关词推荐子模型,通过相关词推荐子模型计算待修改词汇与多个可选相关词之间的向量距离,并根据向量距离得到待修改词汇对应的多个推荐相关词。其中,距离度量可以采用欧氏距离。例如,当用户给定一个待修改词汇时,找出和该修改词汇的词向量最近的top-n的推荐相关词返回给用户。考虑搭配该方法通常会推荐出的推荐相关词可能与上述近义推荐词和反义推荐词部分重复,因此还可以对相关推荐词进行过滤,移除相关推荐词中与近义推荐词和反义推荐词重复的词汇。
为便于对上述方法四至方法六进行理解,参见图5所示的一种近义词/反义词/相关词推荐子模型确定候选推荐词汇的示意图,假设待修改词汇为“珍惜”,则近义词推荐子模型可以输出“瞧得起”、“怀抱”、“讲求”等近义推荐词,反义词推荐子模型可以输出“糟蹋”、“浪费”等反义推荐词、相关词推荐子模型可以输出“难得”、“辜负”等相关词。
在实际应用中,可以采用上述方式一至方式六中任一种方式或多种方式的结合确定候选推荐词汇,具体可基于实际需求选择所需的子模型输出候选推荐词汇,本发明实施例对此不进行限制。
另外,本发明实施例还提供了一种从各个候选推荐词汇中确定待修改词汇对应的目标推荐词汇的实施方式,对于每个子模型,根据词汇置信度从该子模型输出的多个候选推荐词汇中确定目标推荐词汇。例如,从每个子模型输出的多个候选推荐词汇中均确定5个目标推荐词汇,共30个目标推荐词汇。
可选的,为便于用户获知目标推荐词汇,还可以对目标推荐词汇进行展示,如果该子模型确定的目标推荐词汇的词汇数量小于或等于预设数量,展示每个目标推荐词汇;如果该子模型确定的目标推荐词汇的词汇数量大于预设数量,从目标推荐词汇中随机选择并展示预设数量的目标推荐词汇。例如,预设数量为5,假设综合推荐子模型确定的目标推荐词汇的数量不足5个,则直接展示每个目标推荐词汇,假设意象推荐子模型确定的目标词汇数量为20个,可以从中随机选择5个目标推荐词汇数量进行展示,当用户针对该待修改词汇再次点击“推荐”时,可以得到除上述目标推荐词汇之外的其余目标推荐词汇,从而增加目标推荐词汇的多样性。
为便于对前述实施例提供的文本创作的词汇推荐方法进行理解,本发明实施例提供了一种文本创作的词汇推荐方法的应用示例,参见图6所示的一种用户图形界面的示意图,用户图形界面左侧展示了目标文本,图中下划线标注的“花香”为待修改词汇,用户图形界面右侧分别展示了每个子模型确定的目标推荐词汇,从而极大地增加了用户的选择空间。
综上所述,本发明实施例提供的文本创作的词汇推荐方法至少具有以下特点:
(1)综合推荐子模型考虑了待推荐词的上下文,通过已有文本训练模型,可以给用户推荐更符合上下文语境的词语,减少用户筛选词语的成本。
(2)意象推荐子模型可以推荐出符合上下文语境的“意象词”,这些高质量的词可以给用户一定的惊喜感,提高用户的使用体验。
(3)常用搭配推荐子模型可以让用户随时知晓现有的歌词、诗歌等数据中是如何用当前词进行短语搭配的,给用户提供灵感,丰富用户的使用体验。
(4)近义词/反义词/相关词推荐子模型提高了词语推荐的丰富度。
对于前述实施例提供的文本创作的词汇推荐方法,本发明实施例提供了一种文本创作的词汇推荐装置,参见图7所示的一种文本创作的词汇推荐装置的结构示意图,该装置主要包括以下部分:
获取模块702,用于获取待修改的目标文本和目标文本中的待修改词汇。
输出模块704,用于通过预先训练得到的词汇推荐模型对目标文本和/或待修改词汇进行词汇推荐处理,得到待修改词汇对应的多个候选推荐词汇;其中,词汇推荐模型包括基于目标文本的综合推荐子模型、基于待修改词汇的常用搭配推荐子模型、基于目标文本和待修改词汇的意象推荐子模型中的一种或多种。
词汇确定模块706,用于从多个候选推荐词汇中确定待修改词汇对应的目标推荐词汇。
上述实施例提供的文本创作的词汇推荐装置,采用多个维度的子模型基于目标文本和/或待修改词汇进行词汇推荐,不仅充分利用了待修改词汇在目标文本上下文的位置信息,而且综合考虑了上下文含义和/或词汇含义,从而推荐出更为恰当、高质量的目标推荐词汇,有效提高了词汇采纳率,较好地满足了用户需求。
在一种实施方式中,输出模块704还用于:如果词汇推荐模型包括综合推荐子模型,将目标文本中的待修改词汇替换为第一占位符,通过综合推荐子模型对替换后的目标文本进行词汇推荐处理,得到多个综合推荐词汇;如果词汇推荐模型包括意象推荐子模型,将目标文本中的待修改词汇替换为第二占位符,通过意象推荐子模型对替换后的目标文本进行词汇推荐处理,得到多个意象推荐词汇;如果词汇推荐模型包括常用搭配推荐子模型,通过常用搭配推荐子模型对待修改词汇进行词汇推荐处理,得到多个常用搭配推荐词汇;其中,候选推荐词汇包括综合推荐词汇、意象推荐词汇、常用搭配推荐词汇中的一种或多种。
在一种实施方式中,上述装置还包括第一训练模块,用于:获取第一训练数据;其中,第一训练数据包括第一训练文本和训练词汇,第一训练文本中采用第三占位符替代训练词汇;将第一训练文本作为综合推荐子模型的输入,以及将训练词汇作为综合推荐子模型的输出,对综合推荐子模型进行训练;其中,综合推荐子模型包括seq2seq模型。
在一种实施方式中,上述装置还包括第二训练模块,用于:获取多个已有文本,并根据各个已有文本中的词汇词频确定意象词汇;基于意象词汇构建第二训练数据;其中,第二训练数据包括第二训练文本和意象词汇,第二训练文本中采用第四占位符代替意象词汇;将第二训练文本作为意象推荐子模型的输入,以及将意象词汇作为意象推荐子模型的输出,对意象推荐子模型进行训练。
在一种实施方式中,上述第二训练模块还用于:对各个已有文本进行第一预处理,得到多个待确定词汇;其中,第一预处理包括分词处理、词性标注处理、过滤处理;分别统计各个待确定词汇的词汇词频,并基于各个待确定词汇的词汇词频计算各个待确定词汇对应的热度;根据各个待确定词汇对应的热度,从各个待确定词汇中确定意象词汇。
在一种实施方式中,上述输出模块704还用于:对包含有待修改词汇的已有文本进行第二预处理,得到多个分词短语;其中,第二预处理包括分词处理和词性标注处理;对于每个分词短语,根据待修改词汇与该分词短语之间的相对关系,确定待修改词汇对应的候选搭配词汇;对各个候选搭配词汇进行统计,并基于统计结果从各个候选搭配词汇中确定待修改词汇对应的多个常用搭配推荐词汇。
在一种实施方式中,输出模块704还用于:判断待修改词汇是否为该分词短语的一部分;如果是,将该分词短语确定为待修改词汇对应的候选搭配词汇;如果否,当该分词短语位于待修改词汇的左侧或右侧时,根据该分词短语的词性和/或长度判断是否组合该分词短语与待修改词汇,如果确定组合该分词短语与待修改词汇,将组合结果确定为待修改词汇对应的候选搭配词汇。
在一种实施方式中,词汇推荐模型还包括近义词推荐子模型、反义词推荐子模型和相关词推荐子模型中的一种或多种;候选推荐词汇包括近义推荐词、反义推荐词和相关推荐词中的一种或多种;输出模块704还用于:如果词汇推荐模型包括近义词推荐子模型,通过近义词推荐子模型从第一指定数据库中检索得到待修改词汇对应的多个近义推荐词;如果词汇推荐模型包括反义词推荐子模型,通过反义词推荐子模型从第二指定数据库中检索得到待修改词汇对应的多个反义推荐词;如果词汇推荐模型包括相关词推荐子模型,通过相关词推荐子模型计算待修改词汇与多个可选相关词之间的向量距离,并根据向量距离得到待修改词汇对应的多个推荐相关词。
在一种实施方式中,获取模块702还用于:获取待修改的目标文本,并通过用户图形界面展示目标文本;响应用户针对目标文本的词汇选择操作,将词汇选择操作对应的词汇确定为待修改词汇。
在一种实施方式中,词汇确定模块706还用于:对于每个子模型,根据词汇置信度从该子模型输出的多个候选推荐词汇中确定目标推荐词汇。
在一种实施方式中,上述装置还包括展示模块,用于:如果该子模型确定的目标推荐词汇的词汇数量小于或等于预设数量,展示每个目标推荐词汇;如果该子模型确定的目标推荐词汇的词汇数量大于预设数量,从目标推荐词汇中随机选择并展示预设数量的目标推荐词汇。
在一种实施方式中,目标文本包括歌词文本、诗歌文本、文言文文本、作文文本中的一种或多种。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例提供了一种服务器,具体的,该服务器包括处理器和存储装置;存储装置上存储有计算机程序,计算机程序在被所述处理器运行时执行如上所述实施方式的任一项所述的方法。
图8为本发明实施例提供的一种服务器的结构示意图,该服务器100包括:处理器80,存储器81,总线82和通信接口83,所述处理器80、通信接口83和存储器81通过总线82连接;处理器80用于执行存储器81中存储的可执行模块,例如计算机程序。
其中,存储器81可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口83(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线82可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器81用于存储程序,所述处理器80在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器80中,或者由处理器80实现。
处理器80可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器80中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器80可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器81,处理器80读取存储器81中的信息,结合其硬件完成上述方法的步骤。
本发明实施例所提供的可读存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见前述方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (15)

1.一种文本创作的词汇推荐方法,其特征在于,包括:
获取待修改的目标文本和所述目标文本中的待修改词汇;
通过预先训练得到的词汇推荐模型对所述目标文本和/或所述待修改词汇进行词汇推荐处理,得到所述待修改词汇对应的多个候选推荐词汇;其中,所述词汇推荐模型包括基于所述目标文本的综合推荐子模型、基于所述待修改词汇的常用搭配推荐子模型、基于所述目标文本和所述待修改词汇的意象推荐子模型中的至少两种;所述综合推荐子模型为句子级别的词汇推荐模型,所述综合推荐子模型的输入为目标文本的上下文和待修改词汇的位置;所述意象推荐子模型为融合句子级别和词语级别的推荐模型,意象推荐子模型的目标为向用户推荐意象词;所述常用搭配推荐子模型用于从已有文本中检索出包含待修改词汇的已有文本,并从包含待修改词汇的已有文本中抽取出短语搭配反馈给用户;
从所述多个所述候选推荐词汇中确定所述待修改词汇对应的目标推荐词汇;
其中,所述通过预先训练得到的词汇推荐模型对所述目标文本和/或所述待修改词汇进行词汇推荐处理,得到所述待修改词汇对应的多个候选推荐词汇的步骤,包括:
如果所述词汇推荐模型包括所述意象推荐子模型,将所述目标文本中的所述待修改词汇替换为第二占位符,并通过所述意象推荐子模型对替换后的目标文本进行词汇推荐处理,得到多个意象推荐词汇。
2.根据权利要求1所述的方法,其特征在于,所述通过预先训练得到的词汇推荐模型对所述目标文本和/或所述待修改词汇进行词汇推荐处理,得到所述待修改词汇对应的多个候选推荐词汇的步骤,还包括:
如果所述词汇推荐模型包括所述综合推荐子模型,将所述目标文本中的所述待修改词汇替换为第一占位符,并通过所述综合推荐子模型对替换后的目标文本进行词汇推荐处理,得到多个综合推荐词汇;
如果所述词汇推荐模型包括所述常用搭配推荐子模型,通过所述常用搭配推荐子模型对所述待修改词汇进行词汇推荐处理,得到多个常用搭配推荐词汇;
其中,所述候选推荐词汇包括所述综合推荐词汇、所述意象推荐词汇、所述常用搭配推荐词汇中的一种或多种。
3.根据权利要求1所述的方法,其特征在于,所述综合推荐子模型的训练步骤,包括:
获取第一训练数据;其中,所述第一训练数据包括第一训练文本和训练词汇,所述第一训练文本中采用第三占位符替代所述训练词汇;
将所述第一训练文本作为所述综合推荐子模型的输入,以及将所述训练词汇作为所述综合推荐子模型的输出,对所述综合推荐子模型进行训练;其中,所述综合推荐子模型包括seq2seq 模型。
4.根据权利要求1所述的方法,其特征在于,所述意象推荐子模型的训练步骤,包括:
获取多个已有文本,并根据各个所述已有文本中的词汇词频确定意象词汇;
基于所述意象词汇构建第二训练数据;其中,所述第二训练数据包括第二训练文本和所述意象词汇,所述第二训练文本中采用第四占位符代替所述意象词汇;
将所述第二训练文本作为所述意象推荐子模型的输入,以及将所述意象词汇作为所述意象推荐子模型的输出,对所述意象推荐子模型进行训练。
5.根据权利要求4所述的方法,其特征在于,所述根据各个所述已有文本中的词汇词频确定意象词汇的步骤,包括:
对各个所述已有文本进行第一预处理,得到多个待确定词汇;其中,所述第一预处理包括分词处理、词性标注处理、过滤处理;
分别统计各个所述待确定词汇的词汇词频,并基于各个所述待确定词汇的词汇词频计算各个所述待确定词汇对应的热度;
根据各个所述待确定词汇对应的热度,从各个所述待确定词汇中确定意象词汇。
6.根据权利要求2所述的方法,其特征在于,所述通过所述常用搭配推荐子模型对所述待修改词汇进行词汇推荐处理,得到多个常用搭配推荐词汇的步骤,包括:
对包含有所述待修改词汇的已有文本进行第二预处理,得到多个分词短语;其中,所述第二预处理包括分词处理和词性标注处理;
对于每个分词短语,根据所述待修改词汇与该分词短语之间的相对关系,确定所述待修改词汇对应的候选搭配词汇;
对各个所述候选搭配词汇进行统计,并基于统计结果从各个所述候选搭配词汇中确定所述待修改词汇对应的多个常用搭配推荐词汇。
7.根据权利要求6所述的方法,其特征在于,所述根据所述待修改词汇与该分词短语之间的相对关系,确定所述待修改词汇对应的候选搭配词汇的步骤,包括:
判断所述待修改词汇是否为该分词短语的一部分;
如果是,将该分词短语确定为所述待修改词汇对应的候选搭配词汇;
如果否,当该分词短语位于所述待修改词汇的左侧或右侧时,根据该分词短语的词性和/或长度判断是否组合该分词短语与所述待修改词汇,如果确定组合该分词短语与所述待修改词汇,将组合结果确定为所述待修改词汇对应的候选搭配词汇。
8.根据权利要求1所述的方法,其特征在于,所述词汇推荐模型还包括近义词推荐子模型、反义词推荐子模型和相关词推荐子模型中的一种或多种;所述候选推荐词汇包括近义推荐词、反义推荐词和相关推荐词中的一种或多种;
所述通过预先训练得到的词汇推荐模型对所述目标文本和/或所述待修改词汇进行词汇推荐处理,得到所述待修改词汇对应的多个候选推荐词汇的步骤,包括:
如果所述词汇推荐模型包括所述近义词推荐子模型,通过所述近义词推荐子模型从第一指定数据库中检索得到所述待修改词汇对应的多个近义推荐词;
如果所述词汇推荐模型包括所述反义词推荐子模型,通过所述反义词推荐子模型从第二指定数据库中检索得到所述待修改词汇对应的多个反义推荐词;
如果所述词汇推荐模型包括所述相关词推荐子模型,通过所述相关词推荐子模型计算所述待修改词汇与多个可选相关词之间的向量距离,并根据所述向量距离得到所述待修改词汇对应的多个推荐相关词。
9.根据权利要求1所述的方法,其特征在于,所述获取待修改的目标文本和所述目标文本内的待修改词汇的步骤,包括:
获取待修改的目标文本,并通过用户图形界面展示所述目标文本;
响应用户针对所述目标文本的词汇选择操作,将所述词汇选择操作对应的词汇确定为待修改词汇。
10.根据权利要求1所述的方法,其特征在于,所述从所述多个所述候选推荐词汇中确定所述待修改词汇对应的目标推荐词汇的步骤,包括:
对于每个子模型,根据词汇置信度从该子模型输出的多个候选推荐词汇中确定目标推荐词汇。
11.根据权利要求10所述的方法,其特征在于,在所述根据词汇置信度从该子模型输出的多个候选推荐词汇中确定目标推荐词汇的步骤之后,所述方法还包括:
如果该子模型确定的目标推荐词汇的词汇数量小于或等于预设数量,展示每个所述目标推荐词汇;
如果该子模型确定的目标推荐词汇的词汇数量大于所述预设数量,从所述目标推荐词汇中随机选择并展示所述预设数量的目标推荐词汇。
12.根据权利要求1所述的方法,其特征在于,所述目标文本包括歌词文本、诗歌文本、文言文文本、作文文本中的一种或多种。
13.一种文本创作的词汇推荐装置,其特征在于,包括:
获取模块,用于获取待修改的目标文本和所述目标文本中的待修改词汇;
输出模块,用于通过预先训练得到的词汇推荐模型对所述目标文本和/或所述待修改词汇进行词汇推荐处理,得到所述待修改词汇对应的多个候选推荐词汇;其中,所述词汇推荐模型包括基于所述目标文本的综合推荐子模型、基于所述待修改词汇的常用搭配推荐子模型、基于所述目标文本和所述待修改词汇的意象推荐子模型中的至少两种;所述综合推荐子模型为句子级别的词汇推荐模型,所述综合推荐子模型的输入为目标文本的上下文和待修改词汇的位置;所述意象推荐子模型为融合句子级别和词语级别的推荐模型,意象推荐子模型的目标为向用户推荐意象词;所述常用搭配推荐子模型用于从已有文本中检索出包含待修改词汇的已有文本,并从包含待修改词汇的已有文本中抽取出短语搭配反馈给用户;
词汇确定模块,用于从所述多个所述候选推荐词汇中确定所述待修改词汇对应的目标推荐词汇;
其中,所述输出模块还用于:
如果所述词汇推荐模型包括所述意象推荐子模型,将所述目标文本中的所述待修改词汇替换为第二占位符,并通过所述意象推荐子模型对替换后的目标文本进行词汇推荐处理,得到多个意象推荐词汇。
14.一种服务器,其特征在于,包括处理器和存储器;
所述存储器上存储有计算机程序,所述计算机程序在被所述处理器运行时执行如权利要求1至10任一项所述的方法。
15.一种计算机存储介质,其特征在于,用于储存为权利要求1至10任一项所述方法所用的计算机软件指令。
CN202110266139.0A 2021-03-11 2021-03-11 文本创作的词汇推荐方法、装置及服务器 Active CN112883729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110266139.0A CN112883729B (zh) 2021-03-11 2021-03-11 文本创作的词汇推荐方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110266139.0A CN112883729B (zh) 2021-03-11 2021-03-11 文本创作的词汇推荐方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN112883729A CN112883729A (zh) 2021-06-01
CN112883729B true CN112883729B (zh) 2023-08-11

Family

ID=76041776

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110266139.0A Active CN112883729B (zh) 2021-03-11 2021-03-11 文本创作的词汇推荐方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN112883729B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946269A (zh) * 2021-10-18 2022-01-18 网易(杭州)网络有限公司 一种歌词的替换方法、装置、电子设备及可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927299A (zh) * 2014-04-25 2014-07-16 百度在线网络技术(北京)有限公司 输入法中候选语句的提供方法、输入内容推荐方法和装置
CN111241829A (zh) * 2020-01-14 2020-06-05 成都嗨翻屋科技有限公司 一种基于神经网络的智能歌词修改方法及辅助系统
CN111444340A (zh) * 2020-03-10 2020-07-24 腾讯科技(深圳)有限公司 文本分类和推荐方法、装置、设备及存储介质
CN111552798A (zh) * 2020-04-30 2020-08-18 腾讯科技(深圳)有限公司 基于名称预测模型的名称信息处理方法、装置、电子设备
CN111695036A (zh) * 2020-06-11 2020-09-22 北京百度网讯科技有限公司 内容推荐方法及装置
CN111831848A (zh) * 2019-04-23 2020-10-27 广东小天才科技有限公司 作文好词句的推荐方法及装置、终端设备
CN112434512A (zh) * 2020-09-17 2021-03-02 上海二三四五网络科技有限公司 一种结合上下文语境的新词确定方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840321B (zh) * 2017-11-29 2022-02-01 腾讯科技(深圳)有限公司 文本推荐方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103927299A (zh) * 2014-04-25 2014-07-16 百度在线网络技术(北京)有限公司 输入法中候选语句的提供方法、输入内容推荐方法和装置
CN111831848A (zh) * 2019-04-23 2020-10-27 广东小天才科技有限公司 作文好词句的推荐方法及装置、终端设备
CN111241829A (zh) * 2020-01-14 2020-06-05 成都嗨翻屋科技有限公司 一种基于神经网络的智能歌词修改方法及辅助系统
CN111444340A (zh) * 2020-03-10 2020-07-24 腾讯科技(深圳)有限公司 文本分类和推荐方法、装置、设备及存储介质
CN111552798A (zh) * 2020-04-30 2020-08-18 腾讯科技(深圳)有限公司 基于名称预测模型的名称信息处理方法、装置、电子设备
CN111695036A (zh) * 2020-06-11 2020-09-22 北京百度网讯科技有限公司 内容推荐方法及装置
CN112434512A (zh) * 2020-09-17 2021-03-02 上海二三四五网络科技有限公司 一种结合上下文语境的新词确定方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于词向量聚类及随机森林的英语作文自动评分研究;赵瑞雪;;微型电脑应用(第06期);全文 *

Also Published As

Publication number Publication date
CN112883729A (zh) 2021-06-01

Similar Documents

Publication Publication Date Title
CN110852087B (zh) 中文纠错方法和装置、存储介质及电子装置
Mathews et al. Semstyle: Learning to generate stylised image captions using unaligned text
CN109146610B (zh) 一种智能保险推荐方法、装置及智能保险机器人设备
CN106650943B (zh) 基于人工智能的辅助写作方法和装置
CN107436922B (zh) 文本标签生成方法和装置
CN107944027B (zh) 创建语义键索引的方法及系统
CN106534548B (zh) 语音纠错方法和装置
CN104050160B (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN108984529A (zh) 实时庭审语音识别自动纠错方法、存储介质及计算装置
CN110825901A (zh) 基于人工智能的图文匹配方法、装置、设备及存储介质
CN111310440B (zh) 文本的纠错方法、装置和系统
CN107862087A (zh) 基于大数据和深度学习的情感分析方法、装置和存储介质
CN107247751B (zh) 基于lda主题模型的内容推荐方法
CN106610990B (zh) 情感倾向性分析的方法及装置
Dethlefs et al. Conditional random fields for responsive surface realisation using global features
Cheesman et al. Multi-retranslation corpora: Visibility, variation, value, and virtue
CN115048944B (zh) 一种基于主题增强的开放域对话回复方法及系统
CN109213860A (zh) 融合用户信息的文本情感分类方法及装置
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
CN111241397A (zh) 一种内容推荐方法、装置和计算设备
CN113033182B (zh) 文本创作的辅助方法、装置及服务器
CN112216267A (zh) 一种韵律预测的方法、装置、设备及存储介质
CN116320607A (zh) 智能视频生成方法、装置、设备及介质
CN117216234A (zh) 基于人工智能的话术改写方法、装置、设备及存储介质
CN112883729B (zh) 文本创作的词汇推荐方法、装置及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant