CN112560476A - 文本补全方法以及电子设备、存储装置 - Google Patents

文本补全方法以及电子设备、存储装置 Download PDF

Info

Publication number
CN112560476A
CN112560476A CN202011452078.9A CN202011452078A CN112560476A CN 112560476 A CN112560476 A CN 112560476A CN 202011452078 A CN202011452078 A CN 202011452078A CN 112560476 A CN112560476 A CN 112560476A
Authority
CN
China
Prior art keywords
text
candidate
prediction
word
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011452078.9A
Other languages
English (en)
Inventor
崔一鸣
马文涛
陈致鹏
王士进
胡国平
刘挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Xunfei Institute Of Artificial Intelligence
Zhongke Xunfei Internet Beijing Information Technology Co ltd
iFlytek Co Ltd
Original Assignee
Hebei Xunfei Institute Of Artificial Intelligence
Zhongke Xunfei Internet Beijing Information Technology Co ltd
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Xunfei Institute Of Artificial Intelligence, Zhongke Xunfei Internet Beijing Information Technology Co ltd, iFlytek Co Ltd filed Critical Hebei Xunfei Institute Of Artificial Intelligence
Priority to CN202011452078.9A priority Critical patent/CN112560476A/zh
Publication of CN112560476A publication Critical patent/CN112560476A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本补全方法以及电子设备、存储装置,其中文本补全方法包括:获取待补全文本;其中,待补全文本包括至少一个缺失位置;确定待补全文本所缺失内容的来源情况;其中,来源情况包括以下任意一者:来源未知、源自第一文本库、源自涉及预设知识领域的第二文本库;采用与来源情况匹配的文本预测方式对待补全文本进行补全预测,得到缺失位置的至少一个候选词语;利用各个缺失位置的候选词语,得到待补全文本的完整文本。上述方案,能够提高文本补全的效率并降低文本补全的成本。

Description

文本补全方法以及电子设备、存储装置
技术领域
本申请涉及自然语言处理技术领域,特别是涉及一种文本补全方法以及电子设备、存储装置。
背景技术
随着信息技术的发展,通过有线/无线等各种网络传输文本已经成为人们日常生活、工作中沟通、交流的主要手段之一。例如,通过手机、平板电脑与朋友、同事发送短信、即时通讯消息等文本消息。
然而,文本在发送、保存、显示等环节,可能会由于各种原因导致其部分内容缺失。此外,缺失内容有可能是整个文本的核心。如此种种均会对文本的可读性和可用性产生不利影响。目前,对于缺失内容,通常采用人工补全的方式来恢复缺失内容,效率低下且成本较高。有鉴于此,如何提高文本补全的效率并降低文本补全的成本成为极具研究价值的课题。
发明内容
本申请主要解决的技术问题文本是提供一种文本补全方法以及电子设备、存储装置,能够提高文本补全的效率并降低文本补全的成本。
为了解决上述问题文本,本申请第一方面提供了一种文本补全方法,包括:获取待补全文本;其中,待补全文本包括至少一个缺失位置;确定待补全文本所缺失内容的来源情况;其中,来源情况包括以下任意一者:来源未知、源自第一文本库、源自涉及预设知识领域的第二文本库;采用与来源情况匹配的文本预测方式对待补全文本进行补全预测,得到缺失位置的至少一个候选词语;利用各个缺失位置的候选词语,得到待补全文本的完整文本。
为了解决上述问题文本,本申请第二方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的文本补全方法。
为了解决上述问题文本,本申请第三方面提供了一种存储装置,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的文本补全方法。
上述方案,获取待补全文本,且待补全文本包括至少一个缺失位置,并确定待补全文本所缺失内容的来源情况,且来源情况包括以下任意一者:来源未知、源自第一文本库、源自涉及预设知识领域的第二文本库,从而采用与来源情况匹配的文本预测方式对待补全文本进行补全预测,得到缺失位置的至少一个候选词语,进而利用各个缺失位置的候选词语,得到待补全文本的完整文本。故此,无需依赖人工即可补全待补全文本所缺失内容,能够提高文本补全的效率并降低文本补全的成本。此外,由于采用与来源情况匹配的文本预测方式对待补全文本进行补全预测,故能够有利于扩大文本补全的适用范围。
附图说明
图1是本申请文本补全方法一实施例的流程示意图;
图2是本申请文本补全方法一实施例的框架示意图;
图3是样本文本获取过程一实施例的流程示意图;
图4是图1中步骤S13一实施例的流程示意图;
图5是逐字预测过程一实施例的状态示意图;
图6是第一预测网络训练过程一实施例的流程示意;
图7是图1中步骤S13另一实施例的流程示意图;
图8是利用参考词语预测过程一实施例的状态示意图;
图9是第二预测网络训练过程一实施例的流程示意图;
图10是图1中步骤S13又一实施例的流程示意图;
图11是知识树一实施例的框架示意图;
图12是融合文本获取过程一实施例的状态示意图;
图13是第三预测网络训练过程一实施例的流程示意图;
图14是本申请文本补全方法另一实施例的流程示意图;
图15是本申请文本补全方法又一实施例的流程示意图;
图16是本申请文本补全方法又一实施例的流程示意图;
图17是本申请电子设备一实施例的框架示意图;
图18是本申请存储装置一实施例的框架示意图。
具体实施方式
下面结合说明书附图,对本申请实施例的方案进行详细说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。
本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
请参阅图1,图1是本申请文本补全方法一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S11:获取待补全文本。
本公开实施例中,待补全文本包括至少一个缺失位置,即待补全文本可以包括1个缺失位置,也可以包括多个(如,2个、3个等等)缺失位置,在此不做限定。例如,对于一个完整文本“英国医学杂志《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”而言,其对应的待补全文本可以是“英国()《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”,本公开实施例以及下述其他公开实施例中,如无特殊说明,()表示缺失位置,上述待补全文本包括1个缺失位置,或者,其对应的待补全文本也可以是“()国()《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”,即待补全文本包括2个缺失位置,或者,其对应的待补全文本还可以是“()国()《柳叶刀》在线发表()军事医学研究院新冠疫苗Ⅱ期临床试验结果”,即待补全文本包括3个缺失位置。其他情况可以以此类推,在此不再一一举例。
需要说明的是,每一个缺失位置可以对应有一个缺失文字,也可以对应有多个(如,2个、3个等等)缺失文字。仍以前述完整文本“英国医学杂志《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”为例,其对应的待补全文本可以是“英国()《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”,即该待补全文本在缺失位置处对应有4个缺失文字,或者,其对应的待补全文本也可以是“英国医学杂志《柳叶刀》在线发表()军事医学研究院新冠疫苗Ⅱ期临床试验结果”,即该待补全文本在缺失位置处对应有2个缺失文字,或者,其对应的待补全文本还可以是“()国医学杂志《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”,即该待补全文本在缺失位置处对应有1个缺失文字。其他情况可以以此类推,在此不再一一举例。
此外,本公开实施例以及下述其他公开实施例中,对待补全文本发生文字缺失的原因不做限定。例如,待补全文本可以是在发送、保存、显示等各个环节中由于网络拥塞、编码出错等各种问题而导致其缺失文字;或者,例如,在机密文本传输过程中,诸如地名、人名、机构名等往往会采用特殊编码或转换方式,从而可能导致出现文字缺失的情况。
步骤S12:确定待补全文本所缺失内容的来源情况。
本公开实施例中,来源情况包括以下任意一者:来源未知、源自第一文本库、源自涉及预设知识领域的第二文本库。具体地,在来源情况包括源自第一文本库的情况下,可以知晓待补全文本所缺失内容来自第一文本库,但缺失内容确切所涉及的知识领域无法确定,以待补全文本“世界知识产权组织总部设在()”为例,可以知晓其所缺失内容来自百科全书(如,维基百科、百度百科等网络百科);而在来源情况包括源自涉及预设知识领域的第二文本库的情况下,可以知晓待补全文本所缺失内容来自第二文本库,且该第二文本库涉及预设知识领域,以待补全文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为萨尔茨堡宫廷乐师”为例,可以知晓其所缺失内容来自涉及古典音乐知识领域的第二文本库(如,前述维基百科、百度百科等网络百科,或古典音乐相关的专业书籍);而在来源情况包括来源未知的情况下,无法知晓缺失内容确切源自的知识领域,且也无法知晓缺失内容所源自的文本库。以上例子仅仅是实际应用过程中可能存在的情况,并不因此而限定待补全文本以及第一文本库、第二文本库或预设知识领域,具体可以根据实际应用情况进行设置,在此不再一一举例。
在一个实施场景中,待补全文本的完整文本是由发送方发送给接收方的,接收方在接收过程中由于前述各种原因而出现文字缺失情况,则可以基于发送方与接收方之间的事先约定,确定待补全文本所缺失内容的来源情况。例如,发送方与接收方并未事先约定,则可以确定待补全文本所缺失内容的来源情况为“来源未知”;或者,例如,发送方与接收方事先约定文本不超百科全书的范围,则可以确定待补全文本所缺失内容的来源情况为“源自百科全书”;或者,例如,发送方与接收方事先约定文本不超出涉及古典音乐的百科全书,则可以确定待补全文本所缺失内容的来源情况为“源自涉及古典音乐知识领域的百科全书”。其他情况可以以此类推,在此不再一一举例。
在另一个实施场景中,如前所述,待补全文本的完整文本是由发送方发送给接收方的,接收方在接收过程中由于前述各种原因而出现文字缺失情况,则也可以基于发送方与接收方之间历史对话的上下文语境,确定待补全文本所缺失内容的来源情况。例如,发送方与接收方之间历史对话并不涉及特定主题,则可以确定待补全文本所缺失内容的来源情况为“来源未知”;或者,例如,发送方与接收方之间历史对话主要涉及古今中外人物,但不局限于某一特定领域,则可以确定待补全文本所缺失内容的来源情况为“源自百科全书”;或者,例如,发送方与接收方之间历史对话主要涉及古典音乐各个学派代表人物,则可以确定待补全文本所缺失内容的来源情况为“源自涉及古典音乐知识领域的百科全书”。其他情况可以以此类推,在此不再一一举例。
在又一个实施场景中,在获取待补全文本之后,还可以提示用户辅助确定待补全文本所缺失内容的来源情况。具体地,可以提示用户选择待补全文本所缺失内容源自的文本库,如可以包括:不确定、百科全书、等多个选项,并在用户选择“不确定”选项的情况下,确定待补全文本所缺失内容的来源情况为“来源未知”,而在用户选择待补全文本所缺失内容源自的文本库之后,进一步提示用户选择待补全文本所缺失内容涉及的知识领域,如在用户选择“百科全书”选项的情况下,可以进一步提示用户选择待补全文本所缺失内容涉及的知识领域,如可以包括:不确定、古典音乐、流行音乐等选项,并在用户选择“不确定”的情况下,确定待补全文本所缺失内容的来源情况为“源自百科全书”,或在用户选择“古典音乐”的情况下,确地待补全文本所缺失内容的来源情况为“源自涉及古典音乐知识领域的百科全书”。其他情况可以以此类推,在此不再一一举例。
步骤S13:采用与来源情况匹配的文本预测方式对待补全文本进行补全预测,得到缺失位置的至少一个候选词语。
在一个实施场景中,在来源情况包括来源未知的情况下,可以在待补全文本的各个缺失位置处,分别补入预设数值个缺省符,得到待处理文本,并针对每一缺失位置,对待处理文本进行若干次预测,得到在预测次数对应序位处的缺省符的预测文字,并基于若干次预测的预测文字,得到缺失位置的候选词语。上述方式,在来源情况包括来源未知的情况下,通过待补全文本的各个缺失位置处,分别补入预设数值个缺省符,从而得到待处理文本,并针对每一缺失位置,对待处理文本进行若干次预测,得到在预测次数对应序位处的缺省符的预测文字,进而基于若干次预测的预测文字,得到缺省位置的候选词语,故此无需依赖人工即可进行文本补全,能够提高文本补全的效率并降低文本补全的成本,此外在来源未知的情况下,在各个缺失位置处逐字进行文字预测,能够有利于提高预测精度,从而有利于提高文本补全的准确性。
在一个具体的实施场景中,缺省符可以根据实际应用需要进行设置,例如,缺省符可以设置为[mask],在此不做限定。
在另一个具体的实施场景中,预设数值可以根据实际应用需要进行设置,如可以设置为2个、3个、4个、5个等等,在此不做限定。
在又一个具体的实施场景中,为了提高预测效率,针对每一缺失位置对待处理文本进行预测具体可以由第一预测网络执行,即可以将待处理文本送入第一预测网络,最终得到在预测次数对应序位处的缺省符的预测文字,具体可以参阅下述公开实施例中的相关描述,在此暂不赘述。
在又一个具体的实施场景中,以待补全文本“()医学杂志《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”为例,补入4个缺省符之后可以得到待处理文本“[mask][mask][mask][mask]医学杂志《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”,针对上述缺省位置,第1次预测可以得到与预测次数(即1次)对应序位(即第1位)处的缺省位置(即第1个[mask])的预测文字(如,英、美、法),第2次预测可以得到与预测次数(即2次)对应序位(即第2位)处的缺省位置(即第2个[mask])的预测文字(如,国),以此类推,可以得到该缺省位置的候选词语“英国”、“美国”、“法国”。其他情况可以以此类推,在此不再一一举例。具体预测过程可以参阅下述公开实施例中的相关描述,在此暂不赘述。
在一个实施场景中,在来源情况包括源自第一文本库的情况下,可以利用第一文本库对待补全文本进行补全预测,得到缺失位置的至少一个候选词语。上述方式,在来源包括源自第一文本库的情况下,通过第一文本库对待补全文本进行补全预测,从而得到缺失位置的至少一个候选词语,故此无需依赖人工即可进行文本补全,能够提高文本补全的效率并降低文本补全的成本。此外,在缺失内容源自第一文本库的情况下,利用第一文本库直接预测得到缺失位置的至少一个候选词语,能够有利于进一步提高文本补全的效率。此外,由于针对缺失位置直接预测得到候选词语,故缺失位置不局限于缺失文字、词语或是实体,能够有利于实现对文字、词语、实体等混合粒度的预测。
在一个具体的实施场景中,为了扩大适用范围,第一文本库具体可以尽可能包括实际应用过程中可能涉及的文本语料,如日常聊天,或者金融、音乐等各种专业场景可能出现的字、词语、实体等等。例如,第一文本库具体可以包含百度百科、维基百科等网络百科的语料,从而第一文本库可以适用于各种业务场景,大大提高适用范围。
在另一个具体的实施场景中,为了提高预测效率,对待补全文本进行补全预测具体可以由第二预测网络执行,即可以将待补全文本送入第二预测网络,最终得到缺失位置的至少一个候选词语,具体可以参阅下述公开实施例中的相关描述,在此暂不赘述。
在又一个具体的实施场景中,仍以待补全文本“()医学杂志《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”为例,利用第一文本库对该待补全文本进行补全预测,可以得到缺失位置的至少一个候选词语“英国”、“美国”、“法国”。其他情况可以以此类推,在此不再一一举例。具体预测过程可以参阅下述公开实施例中的相关描述,在此暂不赘述。
在一个实施场景中,在来源情况包括源自涉及预设知识领域的第二文本库的情况下,可以利用预设知识领域对应的知识图谱和第二文本库,对待补全文本进行补全预测,得到缺失位置的至少一个候选词语。上述方式,在来源情况包括源自涉及预设知识领域的第二文本库的情况下,通过预设知识领域对应的知识图谱和第二文本库,对待补全文本进行补全预测,从而得到缺失位置的至少一个候选词语,故此无需依赖人工即可进行文本补全,能够提高文本补全的效率并降低文本补全的成本。此外,在缺失内容源自涉及预设知识领域的第二文本库的情况下,一方面利用第二文本库直接预测得到缺失位置的至少一个候选词语,能够有利于进一步提高文本补全的效率,另一方面利用预设知识领域对应的知识图谱预测得到缺失位置的至少一个候选词语,能够有利于提高候选词语的准确性。
在一个具体的实施场景中,为了扩大适用范围,第二文本库具体可以尽可能包括实际应用过程中可能涉及的文本语料,如日常聊天,或者金融、音乐等各种专业场景可能出现的字、词语、实体等等。例如,第二文本库具体可以包含百度百科、维基百科等网络百科的语料,从而第二文本库可以适用于各种业务场景,大大提高适用范围。
在另一个具体的实施场景中,为了提高预测效率,对待补全文本进行补全预测具体可以由第三预测网络执行,即可以将待补全文本送入第三预测网络,最终得到缺失位置的至少一个候选词语,具体可以参阅下述公开实施例中的相关描述,在此暂不赘述。
在又一个具体的实施场景中,以待补全文本“英国()《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”为例,可以利用医学知识领域对应的知识图谱和第二文本库对该待补全文本进行补全预测,可以得到缺失位置的至少一个候选词语“医学杂志”、“期刊”、“报纸”。其他情况可以以此类推,在此不再一一举例。具体预测过程可以参阅下述公开实施例中的相关描述,在此暂不赘述。
此外,请结合参阅图2,图2是本申请文本补全方法一实施例的框架示意图。如图2所示,为了提高补全预测的效率,在来源情况包括来源未知的情况下,补全预测可以是利用第一预测网络执行的,而在来源情况包括源自第一文本库的情况下,补全预测可以是利用第二预测网络执行的,或者在来源情况包括源自涉及预设知识领域的第二文本库的情况下,补全预测还可以是利用第三预测网络执行的。故此,在不同来源情况下,可以利用不同的预测网络来执行补全预测,从而能够有利于扩大文本补全的适用范围。
在一个实施场景中,为了便于在如图2所示的方法框架内进行文本补全,第一文本库和第二文本库可以为同一文本库,如前所述,为了扩大适用范围,该文本库具体可以尽可能包括实际应用过程中可能涉及的文本语料,如日常聊天,或者金融、音乐等各种专业场景可能出现的字、词语、实体等等。例如,该文本库具体可以包含百度百科、维基百科等网络百科的语料,从而该文本库可以适用于各种业务场景,大大提高适用范围。
在一个实施场景中,上述第一预测网络、第二预测网络、第三预测可以是分别采用不同的训练方式利用不同的样本文本对不同的预设神经网络训练得到的。例如,第一预测网络可以是采用第一训练方式利用第一样本文本对第一预设神经网络进行训练得到的,而第二预测网络可以是采用第二训练方式利用第二样本文本对第二预设神经网络进行训练得到的,第三预测网络可以是采用第三训练方式利用第三样本文本对第三预设神经网络进行训练得到的。
在另一个实施场景中,为了降低训练复杂度,第一预测网络、第二预测网络、第三预测网络可以是采用不同的训练方式利用相同的样本文本对同一预设神经网络训练得到的,即第一预测网络、第二预测网络和第三预测网络在训练过程中可以共享样本文本和预设神经网络,从而能够有利于降低训练复杂度。第一预测网络、第二预测网络、第三预测网络的具体训练方式可以参阅本申请其他公开实施例中的相关描述,在此暂不赘述。
需要说明的是,上述预设神经网络具体可以根据实际应用情况进行设置,例如,可以包括但不限于:BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码表示)、ELMo、GPT(Generative Pre-Training)等等,在此不做限定。
步骤S14:利用各个缺失位置的候选词语,得到待补全文本的完整文本。
如图2所示,在得到待补全文本各个缺失位置的候选词语之后,还进一步联合各个缺失位置的候选词语,以对待补全文本进行联合补全预测,从而得到待补全文本的完整文本。
在一个实施场景中,可以在各个缺失位置补入一个对应的候选词语,从而可以得到待补全文本的若干候选文本,从而可以获取每一候选文本的最终分值,并基于若干候选文本的最终分值,选择一个候选文本作为待补全文本的完整文本。
在一个具体的实施场景中,在缺失位置所补入的对应的候选词语具体为在缺失位置预测得到的候选词语,故在待补全文本包括n个缺失位置,且每个缺失位置对应预测得到k个候选词语的情况下,待补全文本的候选文本共有kn个。以待补全文本“()医学杂志《柳叶刀》在线发表()军事医学研究院新冠疫苗Ⅱ期临床试验结果”为例,第一个缺失位置的候选词语包括:“英国”、“美国”,第二个缺失位置的候选词语包括:“中国”、“日本”,则可以在各个缺失位置补入一个对应的候选词语,从而可以得到:“英国医学杂志《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”、“美国医学杂志《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”、“英国医学杂志《柳叶刀》在线发表日本军事医学研究院新冠疫苗Ⅱ期临床试验结果”、“美国医学杂志《柳叶刀》在线发表日本军事医学研究院新冠疫苗Ⅱ期临床试验结果”共计4个候选文本。其他情况可以以此类推,在此不再一一举例。
在另一个具体的实施场景中,为了提高对候选文本打分的效率和准确性,可以分别将若干候选文本送入预设打分网络,得到对应候选文本的最终分值。预设打分网络可以为基于N-gram的统计语言网络,具体可以包括但不限于:KenLM、SRILM、IRSTLM、BerkeleyLM等等,在此不做限定。以N取3为例,最终分值可以表示为:
P(w1,…,wn)=P(w1)*…*P(wn|wn-1,wn-2)……(1)
上述公式(1)中,w1,…,wn表示候选文本中的n个词语,具体地,wi表示候选文本中第i个词语,等式右侧P(w1),…,P(wn|wn-1,wn-2)等为利用预设打分网络预测得到的。以前述候选文本“英国医学杂志《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”为例,候选文本中的词语可以分别为:英国、医学杂志、柳叶刀、在线、发表、中国、军事、医学、研究院、新冠疫苗、Ⅱ期、临床、试验、结果,则在将候选文本送入预设打分网络之前,可以利用分隔符(如,空格)区分候选文本中各个词语,如可以将候选文本表示为“英国医学杂志柳叶刀在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”;或者,为了适应于字、词语、实体等各种粒度,还可以基于各个词语的词性类别,将词语进一步逐字切分,例如上述候选文本中的词语还可以分别为:英、国、医学杂志、柳叶刀、在线、发表、中、国、军事、医学、研究院、新冠疫苗、Ⅱ期、临床、试验、结果,则在将候选文本送入预设打分网络之前,可以利用分隔符(如,空格)区分候选文本中各个词语,,如可以将候选文本表示为“英国医学杂志柳叶刀在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”。其他情况可以以此类推,在此不再一一举例。关于基于词语类别对词语进行逐字切分的具体过程可以参阅本申请下述公开实施例中的相关描述,在此暂不赘述。
在又一个具体的实施场景中,在得到若干候选文本的最终分值之后,可以选择最大最终分值所对应的候选文本,作为待补全文本的完整文本。仍以前述4个候选文本为例,可以分别将上述4个候选文本送入预设打分网络,得到候选文本的最终分值,并将最大最终分值所对应的候选文本,作为待补全文本的完整文本,如候选文本“英国医学杂志《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”的最终分值最大时,可以将其作为待补全文本的完整文本。其他情况可以以此类推,在此不再一一举例。
在另一个实施场景中,为了提高最终分值的准确性,还可以在各个缺失位置补入一个对应的候选词语,得到待补全文本的若干候选文本,并针对每一候选文本,将候选文本中的词语反向排序,得到候选文本的反向文本,从而基于候选文本的第一分值和反向文本的第二分值,得到候选文本的最终分值,进而基于若干候选文本的最终分值,选择一个候选文本作为待补全文本的完整文本。上述方式,通过在各个缺失位置补入一个对应的候选词语,得到待补全文本的若干候选文本,并针对每一候选文本,将候选文本中的词语反向排序,得到候选文本的反向文本,从而基于候选文本的第一分值和反向文本的第二分值,得到候选文本的最终分值,故此能够在对候选文本打分过程中,综合考虑候选文本的正向序列和反向序列来进行打分,从而能够有利于提高最终分值的准确性,进而在后续基于最终分值得到完整文本的过程中,能够有利于提高完整文本的准确性。
在一个具体的实施场景中,在缺失位置所补入的对应的候选词语具体为在缺失位置预测得到的候选词语,具体可以参阅前述相关描述,在此不再赘述。
在另一个具体的实施场景中,如前所述,为了提高对候选文本打分的效率和准确性,可以预先训练一个第一打分网络和一个第二打分网络,从而第一分值可以利用第一打分网络对候选文本进行处理得到,第二分值可以利用第二打分网络对候选文本进行处理得到。即针对每一个候选文本,可以将候选文本送入第一打分网络,得到第一分值,并可以将候选文本的反向文本送入第二打分网络,得到第二分值。此外,如前所述,第一打分网络、第二打分网络均可以为基于N-gram的统计语言网络,具体可以包括但不限于:KenLM、SRILM、IRSTLM、BerkeleyLM等等,在此不做限定。以N取3为例,第一分值可以采用前述相关描述得到,第二分值可以表示为:
P(w1,…,wn)=P(wn)*…*P(w1|w2,w3)……(2)
上述公式(1)中,w1,…,wn表示候选文本中的n个词语,具体地,wi表示候选文本中第i个词语,等式右侧P(wn),…,P(w1|w2,w3)等为利用第二打分网络预测得到的。仍以前述候选文本“英国医学杂志《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”为例,候选文本中的词语可以分别为:英国、医学杂志、柳叶刀、在线、发表、中国、军事、医学、研究院、新冠疫苗、Ⅱ期、临床、试验、结果,则候选文本的反向文本可以表示为“结果试验临床Ⅱ期新冠疫苗研究院医学军事中国发表在线柳叶刀医学杂志英国”,在将反向文本送入第二打分网络之前,可以利用分隔符(如,空格)区分反向文本中各个词语,如可以表示为“结果试验临床Ⅱ期新冠疫苗研究院医学军事中国发表在线柳叶刀医学杂志英国”。或者,为了适应于字、词语、实体等各种粒度,还可以基于各个词语的词性类别,将词语进一步逐字切分,例如上述候选文本中的词语还可以分别为:英、国、医学杂志、柳叶刀、在线、发表、中、国、军事、医学、研究院、新冠疫苗、Ⅱ期、临床、试验、结果,则候选文本的反向文本可以表示为“结果试验临床Ⅱ期新冠疫苗研究院医学军事国中发表在线柳叶刀医学杂志国英”,在将反向文本送入第二打分网络之前,可以利用分隔符(如,空格)区分反向文本中各个词语,如可以表示为“结果试验临床Ⅱ期新冠疫苗研究院医学军事国中发表在线柳叶刀医学杂志国英”。其他情况可以以此类推,在此不再一一举例。关于基于词语类别对词语进行逐字切分的具体过程可以参阅本申请下述公开实施例中的相关描述,在此暂不赘述。
在又一个具体的实施场景中,最终分值具体可以是利用第一权值、第二权值分别对第一分值、第二分值加权得到的,且第一权值不小于第二权值,例如,第一权值为0.6,第二权值为0.4,或者,第一权值为0.7,第二权值为0.3,在此不做限定。为了标语描述,可以将第一权值记为λ,并将第二权值记为1-λ,则最终分值可以表示为:
score=λgf(x)+(1-λ)gb(x)……(3)
上述公式(3)中,score表示候选文本x的最终分值,gf(x)表示候选文本x的第一分值,gb(x)表示候选文本x的第二分值。
在又一个具体的实施场景中,在得到若干候选文本的最终分值之后,可以选择最大最终分值所对应的候选文本,作为待补全文本的完整文本。具体可以参阅前述相关描述,在此不再赘述。
上述方案,获取待补全文本,且待补全文本包括至少一个缺失位置,并确定待补全文本所缺失内容的来源情况,且来源情况包括以下任意一者:来源未知、源自第一文本库、源自涉及预设知识领域的第二文本库,从而采用与来源情况匹配的文本预测方式对待补全文本进行补全预测,得到缺失位置的至少一个候选词语,进而利用各个缺失位置的候选词语,得到待补全文本的完整文本。故此,无需依赖人工即可补全待补全文本所缺失内容,能够提高文本补全的效率并降低文本补全的成本。此外,由于采用与来源情况匹配的文本预测方式对待补全文本进行补全预测,故能够有利于扩大文本补全的适用范围。
如前述公开实施例所述,第一预测网络、第二预测网络和第三预测网络在训练过程中可以共享样本文本和预设神经网络,故可以预先构造用于后续训练第一预测网络、第二预测网络和第三预测网络的样本文本,在此基础上,再利用样本分别训练得到上述第一预测网络、第二预测网络、第三预测网络。请参阅图3,图3是样本文本获取过程一实施例的流程示意图。如图3所示,具体可以包括如下步骤:
步骤S31:对原始文本进行分词及词性标注,得到标注有词性类别的若干词语。
在一个实施场景中,原始文本可以是与业务场景相关的文本。例如,在财经相关业务场景中,原始文本可以包括但不限于:财经类新闻数据、财经类书籍数据等;或者,在体育相关业务场景中,原始文本可以包括但不限于:体育类新闻数据、体育类书籍数据等,其他场景可以以此类推,在此不再一一举例。
在另一个实施场景中,为了提高分词及词性标注的效率,可以采用分词及词性标注工具对原始文本进行处理,得到标注有词性类别的若干词语。具体地,分词及词性标注工具可以包括但不限于:ICTCLAS、NLTK、Stanford NLP等等,在此不做限定。
以原始文本“中国2008年第一次举办奥运会”为例,原始文本经过分词及词性标注处理之后,可以得到标注有词性类别的若干词语:
Figure BDA0002827417560000071
以上字母为对词语所标注的词性,例如,ns表示地名、nz表示除地名、人名等常见实体之外的其他名实体,v表示动词,m表示数词,q表示量词。此外,还可以将存在相关关系的词语合并,例如,可以将数词“2008”和量词“年”进行合并为“2008年”。在原始文本为情况时,可以以此类推,在此不再一一举例。
步骤S32:将词性类别为预设类别的词语逐字切分,并在切分后的词语和未切分的词语中,选择预设比例的词语进行缺省。
在一个实施场景中,预设类别具体可以为地名,在此情形下,对于上述原始文本“中国2008年第一次举办奥运会”,可以将标注为地名的词语“中国”进行逐字切分,得到“中”和“国”两个字。其他情况可以以此类推,在此不再一一举例。
需要说明的是,在上述公开实施例获取候选文本的反向文本的过程中,为了适应于字、词语、实体等各种粒度,也可以对候选文本进行分词及词性标注处理,得到标注有词性类别的若干词语,并将词性类别为预设类别的词语逐字切分,具体可以参阅本公开实施例中前述相关描述,在此不再赘述。在此基础上,可以将切分后的若干词语反向排序,得到候选文本的反向文本。以前述候选文本“英国医学杂志《柳叶刀》在线发表中国军事医学研究院新冠疫苗Ⅱ期临床试验结果”为例,候选文本经分词及词性标注处理之后,可以得到如下标注有词性类别的若干词语:
Figure BDA0002827417560000081
以上字母为对词语所标注的词性,例如,vd表示副动词,n表示名词,nt表示机构团体。在预设类别为地名的基础上,可以将标注为地名的词语“英国”逐字切分为“英”和“国”,并将标注为地名的词语“中国”逐字切分为“中”和“国”。其他情况可以以此类推,在此不再一一举例。
在另一个实施场景中,预设比例可以根据实际应用情况进行设置,例如,在缺失内容较多的业务场景中,预设比例可以设置地稍大,如可以设置为30%、35%、40%等等;或者,在缺失内容相对稍少些的业务场景中,预设比例可以设置地稍小,如可以设置为10%、15%、20%等等。此外,也可以将预设比例设置为一个固定数值,如25%,在此不做限定。仍以原始文本“中国2008年第一次举办奥运会”为例,其最终切分后的词语和未切分的词语可以表示为:
中国2008年第一次举办奥运会
即最终切分后的词语和未切分的词语共计有6个,在预设比例为1/3的情况下,可以在上述切分后的词语和未切分的词语中选择2个词语进行缺省,例如,可以选择“中”和“国”进行缺省,或者,也可以选择“2008年”和“举办”进行缺省,在此不做限定。在原始文本、预设比例为其他情况下,可以以此类推,在此不再一一举例。
步骤S33:将缺省后的原始文本作为样本文本,并将缺省的词语所在位置作为样本文本的样本缺失位置。
仍以上述原始文本“中国2008年第一次举办奥运会”为例,在选择“中”和“国”进行缺省的情况下,可以将“()()2008年第一次举办奥运会”作为样本文本,并将缺省的词语“中”所在位置作为样本文本的样本缺失位置,将缺省的词语“国”所在位置作为样本文本的样本缺失位置。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,为了便于后续利用样本文本进行训练,还可以将缺省后的原始文本以及缺省的词语一并作为样本文本。仍以上述原始文本“中国2008年第一次举办奥运会”为例,在选择“中”和“国”进行缺省的情况下,可以将缺省后的原始文本“()()2008年第一次举办奥运会”以及缺省的词语“中”和“国”一并作为样本文本。其他情况可以以此类推,在此不再一一举例。
区别于前述实施例,通过对原始文本进行分词及词性标注,得到标注有词性类别的若干词语,并将词性类别为预设类别的词语逐字切分,从而在切分后的词语和未切分的词语中,选择预设比例的词语进行缺省,进而将缺省后的原始文本作为样本文本,并将缺省的词语所在位置作为样本文本的样本缺失位置,故此,能够构建得到缺失内容包含字、词语、实体等混合粒度的样本文本,从而能够有利于提高后续训练得到的预测网络对于缺失字、词语、实体等混合粒度的待补全文本的适应性,进而能够有利于提高后续补全预测的准确性。
请参阅图4,图4是图1中步骤S13一实施例的流程示意图。具体地,本公开实施例是来源情况包括来源未知的情况下对待补全文本进行补全预测一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S41:在待补全文本的各个缺失位置处,分别补入预设数值个缺省符,得到待处理文本。
在一个实施场景中,如前述公开实施例所述,在来源情况包括来源未知的情况下,补全预测可以是利用第一预测网络执行的,第一预测网络具体可以是利用样本文本对预设神经网络(如,BERT)训练得到的。在此基础上,可以统计各个样本文本中样本缺失位置的缺失文字个数,并分别针对若干候选数值,统计缺失文字个数小于候选数值的占比,从而在占比大于预设百分比的至少一个候选数值中,选择最小的候选数值,作为预设数值。具体地,候选数值可以包括但不限于:1、2、3、4、5、6等等,在此不做限定。此外,预设百分比具体可以为90%、92%、95%、97%、99%等等,在此不做限定。上述方式,通过统计各个样本文本中样本缺失位置的缺失文字个数,并分别针对若干候选数值,统计缺失文字个数小于候选数值的占比,从而在占比大于预设百分比的至少一个候选数值中,选择最小的候选数值,作为预设数值,从而既能够使得预设数值覆盖大多数场景,又能够尽可能地减少缺省符的个数,进而能够有利于提高后续针对每个缺失位置进行文字预测的效率。
在一个具体的实施场景中,对于N个样本文本,经过统计共包含20个样本缺失位置,其中:1个样本缺失位置的缺失文字个数为1个,3个样本缺失位置的缺失文字个数为2个、3个样本缺失位置的缺失文字个数为3个,12个样本缺失位置的缺失文字个数为4个,1个样本缺失位置的缺失文字个数为5个,则分别对于候选数值1、2、3、4、5而言,缺失文字个数不大于候选数值1的占比为1/20=5%,缺失文字个数不大于候选数值2的占比为4/20=20%,缺失文字个数不大于候选数值3的占比为7/20=35%,缺失文字个数不大于候选数值4的占比为19/20=95%,缺失文字个数不大于候选数值5的占比为20/20=100%,在预设百分比为90%的情况下,可以从对应占比为95%的候选数值4、对应占比为100%的候选数值5中,选择最小的候选数值4,作为预设数值。其他情况可以以此类推,在此不再一一举例。
在另一个具体的实施场景中,如前述公开实施例所述,缺省符可以设置为[mask],此外,为了便于第一预测网络处理,还可以在待补全文本的首尾分别补入[CLS]和[SEP]作为开始标志和结束标志。以前述待补全文本“世界知识产权组织总部设在()”为例,可以将其处理为“[CLS]世界知识产权组织总部设在[mask][mask][mask][mask][SEP]”,其他情况可以以此类推,在此不再一一举例。
在又一个具体的实施场景中,为了便于第一预测网络处理,还可以对待补全文本进行分词和词性标注,得到标注有词性类别的若干词语,并将词性类别为预设类别的词语逐字切分,得到待处理文本。仍以前述待补全文本“世界知识产权组织总部设在()”为例,可以采用前述公开实施例中的相关步骤,进行分词、词性标注以及逐字切分,最终得到如下待处理文本:
[CLS]世界知识产权组织总部设在[mask][mask][mask][mask][SEP]
在待补全文本为其他文本的情况下,可以以此类推得到对应的待处理文本,在此不再一一举例。
在又一个实施场景中,为了便于第一预测网络处理,在将待处理文本送入第一预测网络之前,还可以将待处理文本中各个词语进行位置编码,仍以上述待补全文本“世界知识产权总部设在()”为例,位置编码后的待处理文本可以表示为:
Figure BDA0002827417560000091
在待补全文本为其他文本的情况下,可以以此类推得到位置编码后的待处理文本,在此不再一一举例。
步骤S42:针对每一缺失位置,对待处理文本进行若干次预测,得到在预测次数对应序位处的缺省符的预测文字,并基于若干次预测的预测文字,得到缺失位置的候选词语。
具体地,在对待处理文本进行第i次预测时,可以得到第i序位处缺省符的至少一个预测文字以及各个预测文字的预测概率值,在此基础上,可以将第i序位处缺省符的至少一个预测文字分别替换第i序位处的缺省符,得到至少一个新的待处理文本,并进一步判断当前是否满足预设结束条件,并在不满足预设结束条件的情况下,可以将i加1,并重新执行对待处理文本进行第i次预测的步骤以及后续步骤,而在满足预设结束条件的情况下,可以基于最新得到的每一预测文字的预测概率值,得到缺失位置的候选词语。上述方式,对待处理文本进行第i次预测,得到第i序位处缺省符的至少一个预测文字以及各个预测文字的预测概率值,并将第i序位处缺省符的至少一个预测文字分别替换第i序位处的缺省符,得到至少一个新的待处理文本,从而在不满足预设结束条件的情况下,将i加1,并重新执行对待处理文本进行第i次预测的步骤以及后续步骤,而在满足预设结束条件的情况下,基于最新得到的各个待处理文本中每一预测文字的预测概率值,得到缺失位置的候选词,能够在每次预测时依赖前一次预测,进而能够提高逐字预测得到的预测文字之间的关联性,有利于提高预测文字的准确性。
在一个实施场景中,预设结束条件具体可以设置为以下任一者:预测文字为预设结束字符,i不小于预设数值。具体地,预设结束字符可以根据实际应用情况进行设置,在此不做限定;此外,预设数值的具体含义可以参阅前述公开实施例中的相关描述,在此不再赘述。
在另一个实施场景中,第i次对待处理文本进行预测时,具体可以将待处理文本送入第一预测网络,从而预测得到第i序位处缺省符的至少一个预测文字以及各个预测文字的预测概率值。具体地,第i次对待处理文本进行预测时,在将待处理文本送入第一预测网络后,可以得到第i序位处缺省符的语义表示v,并基于预设词表的语义表示W,得到预设词表中各个文字的概率值,具体可以表示为:
p=softmax(v·W)……(4)
上述公式(4)中,p表示预设词表中各个文字的概率值,v表示第i序位处缺省符的语义表示,W表示预设词表的语义表示,·表示点积运算,softmax表示归一化处理。此外,预设词表包括多个(如,30000个)常用字的语义表示,具体可以是在第一预测网络训练过程中得到的。例如,BERT约有30000个不同词语的语义表示。在此基础上,可以按照概率值由大到小的顺序,选择至少一个文字(如,选择2个文字)作为第i序位处的预测文字,并将对应的概率值,作为预测文字的预测概率值。
在又一个实施场景中,请结合参阅图5,图5是逐字预测过程一实施例的状态示意图。如图5所示,待补全文本“世界知识产权总部设在()”处理为上述待处理文本之后,送入第一预测网络,对待处理文本第1次预测,可以得到第1序位缺省符[mask]的语义表示v,并将该语义表示v个预设词语W各个文字的语义表示(v1,v2,v3,…,vm)进行点积(dot)运算,得到预设词表中各个文字的概率值,并按照概率值由大到小的顺序,对预设词表中各个文字进行排序(sort):日(即W1)、纽(即W2)、东(即W3)、…、北(即Wm),并从中选择排在前预设序位(如前2位)的文字,即“日”、“纽”作为第1次预测时第1序位缺省符[mask]预测文字,并将预测文字“日”的概率值作为预测概率值,将预测文字“纽”的概率值作为预测概率值。在此基础上,将预测文字“日”替换第1序位缺省符[mask],得到新的待处理文本,为了便于描述,可以记为待处理文本1:
Figure BDA0002827417560000101
并将预测文字“纽”替换第1序位缺省符[mask],得到新的待处理文本,为了便于描述,可以记为待处理文本2:
Figure BDA0002827417560000102
在当前不满足预设结束条件的情况下,将i加1,即此时i为2,以此类推,在第2次预测时,可以将上述两个新的待处理文本分别送入第一预测网络,待处理文本1经过与第1次预测类似的处理过程,可以得到第2次预测时第2序位缺省符[mask]预测文字“内”和“本”,而待处理文本2经过与第1次预测类似的处理过程,可以得到第2次预测时第2序位缺省符[mask]预测文字“约”和“泽”。进一步地,将预测文字“内”和“本”分别替换待处理文本1第2序位缺省符[mask],又可以在待处理文本1的基础上,得到2个新的待处理文本,类似地,将预测文字“约”和“泽”分别替换待处理文本2第2序位缺省符[mask],又可以在待处理文本2的基础上,得到2个新的待处理文本。当前不满足预设结束条件的情况下,将i加1,即此时i为3,可以重新执行上述流程,最终各次预测得到预测文字和预测概率值表示如表1,表1是各次预测文字及预测概率值汇总表。如表1所示,在第1次预测得到预测文字“日”的基础上,第2次预测得到预测文字“内”和“本”,在第2次预测得到预测文字“内”的基础上,第3次预测得到预测文字“瓦”(在此基础上,第4次预测结束,表1中未示意),在第2次预测得到预测文字“本”的基础上,第3次预测结束(即预测文字为空),而在第1次预测文字“纽”的基础上,第2次预测得到预测文字“约”和“泽”,在第2次预测得到预测文字“约”的基础上,第3次预测结束(即预测文字为空),在第2次预测得到预测文字“泽”的基础上,第3次预测得到预测文字“兰”和“西”(在此基础上,第4次预测结束,表1中未示意)。
表1各次预测文字及预测概率值汇总表
Figure BDA0002827417560000111
需要说明的是,表1所示的预测文字和预测概率值仅仅是实际应用过程中可能存在的一种情况,并不因此而限定实际应用过程中可能存在的其他情况,具体可以根据实际应用情况进行设置,在此不做限定。
在又一个实施场景中,在满足预设结束条件的情况下,具体可以针对每一最新得到的待处理文本,统计缺失位置处各个预测文字的预测概率值的平均概率值,并按照平均概率值由大到小的顺序,选择位于前预设序位的待处理文本,并将选择的待处理文本中缺失位置处各个预测文字的组合,作为缺失位置的候选词语。上述方式,通过针对每一最新得到的待处理文本,统计缺失位置处各个预测文字的预测概率值的平均概率值,能够有利于通过平均概率值表示待处理文本中预测文字的整体准确性,在此基础上,按照平均概率值由大到小的顺序,选择位于前预设序位的待处理文本,并将选择的待处理文本中缺失位置处各个预测文字的组合,作为缺失位置的候选词语,能够选择到整体准确性较大的候选词语,故此能够有利于提高候选词语的准确性,进而能够有利于提高最终得到的完整文本的准确性。
在一个具体的实施场景中,预设序位可以根据实际应用需要进行设置。例如,为了提高后续利用各个缺失位置的候选词语进行联合补全预测的速度,预设序位可以设置地稍小一些,例如,可以设置为2、3等等;或者,例如,可以提高后续利用各个缺失位置的候选词语进行联合补全的鲁棒性,预设序位可以设置地稍大一些,例如,可以设置为4、5等等,在此不做限定。
在另一个具体的实施场景中,仍以前述待补全文本“世界知识产权总部设在()”为例,请结合参阅表1,其中一个待处理文本中缺失位置处各个预测文字分别是“日”“内”“瓦”,其预测概率值的平均概率值经统计为0.9,另一个待处理文本中缺失位置处各个预测文字分别是“日”“本”,其预测概率值的平均概率值经统计为0.8,另一待处理文本中缺失位置处各个预测文字分别是“纽”“约”,其预测概率值的平均概率值经统计为0.875,另一待处理文本中缺失位置处各个预测文字分别是“纽”“泽”“兰”,其预测概率值的平均概率值经统计为0.8,另一待处理文本中缺失位置处各个预测文字分别是“纽”“泽”“西”,其预测概率值的平均概率值经统计为0.78。故此,在预设序位设置为2的情况下,可以选择平均概率值位于前2位的待处理文本,并将选择的待处理文本中缺失位置处各个预测文字的组合,即“日内瓦”和“纽约”,作为缺失位置的候选词语。其他情况可以以此类推,在此不再一一举例。
需要说明的是,在待补全文本包括多个缺失位置的情况下,可以对每个缺失位置分别采用上述方式进行补全预测,最终得到每个缺失位置的候选词语,具体过程可以参阅前述描述,在此不再赘述。
区别于前述实施例,在来源情况包括来源未知的情况下,通过待补全文本的各个缺失位置处,分别补入预设数值个缺省符,从而得到待处理文本,并针对每一缺失位置,对待处理文本进行若干次预测,得到在预测次数对应序位处的缺省符的预测文字,进而基于若干次预测的预测文字,得到缺省位置的候选词语,故此无需依赖人工即可进行文本补全,能够提高文本补全的效率并降低文本补全的成本,此外在来源未知的情况下,在各个缺失位置处逐字进行文字预测,能够有利于提高预测精度,从而有利于提高文本补全的准确性。
请参阅图6,图6是第一预测网络训练过程一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S61:在样本文本的各个样本缺失位置处,分别补入预设数值个缺省符,得到样本待处理文本。
具体可以参阅前述公开实施例中步骤S41相关描述,在此不再赘述。此外,样本文本的获取过程具体可以参阅前述公开实施例以及说明书附图3中的相关描述,在此不再赘述。
步骤S62:针对每一样本缺失位置,利用第一预测网络对样本待处理文本进行若干次预测,得到在预测次数对应序位处的缺省符的样本预测文字和样本预测概率值。
具体地,针对每一样本缺失位置,可以利用第一预测网络对样本待处理文本进行第i次预测,得到第i序位处缺省符的样本预测文字以及样本预测文字的样本预测概率值,并将第i序位处缺省符的样本预测文字替换第i序位处的缺省符,得到一个新的样本待处理文本,在不满足预设结束条件的情况下,将i加1,并重新执行对样本待处理文本进行第i次预测的步骤以及后续步骤,而在满足预设结束条件的情况下,可以结束对当前样本缺失位置的预测。具体可以参阅前述公开实施例中步骤S42相关描述,在此不再赘述。
步骤S63:基于各个样本缺失位置处样本候选词语中每一样本预测文字的样本预测概率值,获取第一预测网络的第一损失值。
如前述公开实施例所述,为了便于利用样本文本进行训练,可以将缺省后的原始文本以及缺省的词语一并作为样本文本,此外,在训练过程中,由于在样本文本的各个样本缺失位置处,分别补入了预设数值个缺省符,从而得到样本待处理文本,则对于各个缺省的词语可以分别补入若干占位符(如,[PAD]),以使得每一缺省的词语与补入的占位符的总个数等于预设数值。例如,仍以前述原始文本“中国2008年第一次举办奥运会”为例,在选择“中”和“国”进行缺省的情况下,可以将缺省后的原始文本“()()2008年第一次举办奥运会”以及缺省的词语“中”和“国”一并作为样本文本,则在训练过程中,在预设数值设置为4的情况下,可以在样本文本中各个缺省位置处分别补入4个缺省符,得到样本待处理文本“[CLS][mask][mask][mask][mask][mask][mask][mask][mask]2008年第一次举办奥运会[SEP]”,并对于缺省的词语“中”补入3个占位符转换为“中[PAD][PAD][PAD]”,类似地,对于缺省的词语“国”补入3个占位符转换为“国[PAD][PAD][PAD]”。其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,第一损失值可以采用交叉熵损失函数进行计算,具体可以表示为:
Figure BDA0002827417560000121
上述公式(5)中,M表示样本文本中样本缺失位置的个数,N表示前述预设数值,yij表示第i个缺失位置所对应的缺省的词语中第j个字符,pij表示针对第i个缺失位置第j次预测得到的样本预测文字的样本预测概率值。
此外,需要说明的是,在利用上述占位符[PAD]对缺省的词语进行补足时,预设结束条件中的预设结束字符具体可以设置为占位符[PAD]。在利用其他字符对缺省的词语进行补足的情况下,预设结束字符的设置方式可以以此类推,在此不再一一举例。
步骤S64:利用第一损失值,调整第一预测网络的网络参数。
具体地,可以采用随机梯度下降(Stochastic Gradient Descent,SGD)、批量梯度下降(Batch Gradient Descent,BGD)、小批量梯度下降(Mini-Batch Gradient Descent,MBGD)等方式,利用第一损失值对第一预测网络的网络参数进行调整,其中,批量梯度下降是指在每一次迭代时,使用所有样本来进行参数更新;随机梯度下降是指在每一次迭代时,使用一个样本来进行参数更新;小批量梯度下降是指在每一次迭代时,使用一批样本来进行参数更新,在此不再赘述。
区别于前述实施例,通过样本文本的各个样本缺失位置处,分别补入预设数值个缺省符,从而得到样本待处理文本,并针对每一样本缺失位置,对样本待处理文本进行若干次预测,得到在预测次数对应序位处的缺省符的样本预测文字和样本预测概率值,并基于各个样本缺失位置处样本候选词语中每一样本预测文字的样本预测概率值,获取第一预测网络的第一损失值,从而基于第一损失值调整第一预测网络的网络参数。故此,在各个样本缺失位置处逐字进行文字预测,并基于统计得到的第一损失值调整第一预测网络的网络参数,能够有利于提高第一预测网络的预测精度。
请参阅图7,图7是图1中步骤S13另一实施例的流程示意图。具体地,本公开实施例是来源情况包括源自第一文本库的情况下,对待补全文本进行补全预测一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S71:对待补全文本进行语义抽取,得到各个缺失位置的个体语义表示。
在一个实施场景中,为了便于语义抽取,可以在待补全文本的各个缺失位置处,分别补入一个缺省符,得到待处理文本,从而对待处理文本进行语义抽取,得到各个缺省符的个体语义表示,作为缺省符所在的缺失位置的个体语义表示。上述方式,通过在待补全文本的各个缺失位置处分别补入一个缺省符,得到待处理文本,在此基础上再对待处理文本进行语义抽取,得到各个缺省符的个体语义表示,并将缺省符的个体语义表示,作为缺省符所在缺失位置的个体语义表示,故此能够有利于后续基于单个缺省符的个体语义表示预测缺失位置的候选词语,故缺失位置不局限于缺失文字、词语或是实体,从而能够有利于实现对文字、词语、实体等混合粒度的预测。
在一个具体的实施场景中,缺省符的具体设置方式,可以参阅前述公开实施例中的相关描述,例如可以设置为[mask],在此不做限定。
在另一个具体的实施场景中,还可以在待补全文本的首尾分别补入[CLS]和[SEP]作为开始标志和结束标志。仍以前述待补全文本“世界知识产权组织总部设在()”为例,可以将其处理为“[CLS]世界知识产权组织总部设在[mask][SEP]”,其他情况可以以此类推,在此不再一一举例。
在又一个具体的实施场景中,为了便于实现对文字、词语、实体等混合粒度的预测,还可以进一步对待补全文本进行分词和词性标注,得到标注有词性类别的若干词语,并将词性类别为预设类别的词语逐字切分,得到待处理文本。分词及词性标注的具体方式可以参阅前述公开实施例中的相关描述,在此不再赘述。此外,预设类别可以设置为地名,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
仍以前述待补全文本“世界知识产权组织总部设在()”为例,可以采用前述公开实施例中的相关步骤,进行缺省符、开始标志和结束标志的补入,以及分词、词性标注以及逐字切分,最终得到如下待处理文本:
[CLS]世界知识产权组织总部设在[mask][SEP]
在待补全文本为其他文本的情况下,可以以此类推得到对应的待处理文本,在此不再一一举例。
在一个实施场景中,如前述公开实施例所述,在来源情况包括源自第一文本库的情况下,补全预测可以是利用第二预测网络执行的,第二预测网络具体可以是利用样本文本对预设神经网络(如,BERT)训练得到的。在此基础上,可以将待补全文本送入第二预测网络,从而可以得到各个缺失位置的个体语义表示。此外,第二预测网络的训练过程具体可以参阅下述公开实施例,在此暂不赘述。
在一个具体的实施场景中,为了便于第二预测网络处理,在将前述待处理文本送入第二预测网络之前,还可以对待处理文本中各个词语进行位置编码,仍以上述待补全文本“世界知识产权总部设在()”为例,位置编码后的待处理文本可以表示为:
Figure BDA0002827417560000131
在待补全文本为其他文本的情况下,可以以此类推得到位置编码后的待处理文本,在此不再一一举例。
步骤S72:针对每一缺失位置,利用缺失位置的个体语义表示和各个参考词语的词语语义表示,得到缺失位置的至少一个候选词语。
本公开实施例中,第一文本库包含至少一个参考文本,且参考文本包含至少一个参考词语。第一文本库的设置方式具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
在一个实施场景中,可以分别对至少一个参考文本进行分词及词性标注,得到标注有词性类别的若干词语,并将词性类别为预设类别的词语逐字切分,从而利用切分后的词语和未切分的词语,得到若干参考词语,进而分别对若干参考词语进行语义抽取,得到参考词语的词语语义表示。上述方式,通过分别对至少一个参考文本进行分词及词性标注,得到标注有词性类别的若干词语,并将词性类别为预设类别的词语逐字切分,从而利用切分后的词语和未切分的词语,得到若干参考词语,进而能够有利于获取得到包括文字、词语及实体等混合粒度的参考词语,能够进一步有利于后续实现对文字、词语、实体等混合粒度的预测。
在一个具体的实施场景中,分词及词性标注、逐字切分的具体过程可以参阅前述公开实施例中的相关描述,在此不再赘述。此外,预设类别可以根据实际应用需要进行设置,例如可以设置为地名,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
在另一个具体的实施场景中,为了进一步构建包含文字、词语以及实体等混合粒度的参考词语,具体可以将词性类别为预设类别的词语逐字切分,对于逐字切分的词语,可以将切分前的词语以及逐字切分后所得到的文字一并作为参考词语。以词语“北京”为例,其词性类别为地名,在预设类别为地名的情况下,可以将词语“北京”进行逐字切分,得到文字“北”和文字“京”,故可以将切分前的词语“北京”以及切分后所得到的文字“北”和“京”一并作为参考词语。其他情况可以以此类推,在此不再一一举例。
在又一个具体的实施场景中,具体可以采用预设词向量训练工具(如,word2vec、glove等)对参考词语进行词向量训练,以抽取得到参考词语的词语语义表示。
在又一个具体的实施场景中,还可以在切分后的词语和未切分的词语中,筛选出现频率高于预设频率的词语,得到若干参考词语。具体地,出现频率是指在第一文本库中出现的频率。例如,经统计第一文本库中共计10万个词语,其中词语“北京”共出现了100次,故词语“北京”的出现频率为0.1%,而词语“罅隙”仅出现了1次,故词语“罅隙”的出现频率为0.001%,其他情况可以以此类推,在此不再一一举例。此外,预设频率可以根据实际应用需要进行设置,例如,可以设置为0.01%、0.05%等等,在此不做限定。上述方式,在切分后的词语和未切分的词语中,筛选出现频率高于预设频率的词语,得到若干参考词语,能够进一步精简参考词语的规模。
在又一个具体的实施场景中,还可以在切分后的词语和未切分的词语中,剔除词性类别满足预设剔除条件的词语,得到若干参考词语。具体地,预设剔除条件可以设置为包括:词性类别为停用词、特殊符号中的任一者,停用词可以为人类语言中的功能词,其并无实际含义,例如,英语中的‘the’、‘is’等,或者,例如,中文中的“嗯”、“呀”等;此外,特殊符号可以包括但不限于:标点符号(如,顿号‘、’等)、单位符号(如,千克‘kg’等)、编号符号(如,①等)、制表符、货币符号等等,在此不做限定。上述方式,在切分后的词语和未切分的词语中,剔除词性类别满足预设剔除条件的词语,得到若干参考词语,能够进一步精简参考词语的规模。
在一个实施场景中,可以针对每一缺失位置,利用缺失位置的个体语义表示和各个参考词语的词语语义表示的相似度,从而可以按照相似度由大到小的顺序,选择位于前预设序位的参考词语,作为缺失位置的候选词语。具体地,可以个体语义表示和词语语义表示之间的相似度可以是余弦相似度;此外,预设序位可以根据实际应用需要进行设置,例如,为了提高后续利用各个缺失位置的候选词语进行联合补全预测的速度,预设序位可以设置地稍小一些,例如,可以设置为2、3等等;或者,例如,可以提高后续利用各个缺失位置的候选词语进行联合补全的鲁棒性,预设序位可以设置地稍大一些,例如,可以设置为4、5等等,在此不做限定。
在另一个实施场景中,利用个体语义表示和各个参考词语的词语语义表示,可以得到各个参考词语的预测概率值。具体地,参考词语的预测概率值可以表示缺失位置所缺失的词语为该参考词语的可能性,预测概率值越大,缺失位置所缺失的词语为该参考词语的可能性越高。在此基础上,可以按照预测概率值由大到小的顺序,选择位于前预设序位的参考词语,作为缺失位置的候选词语。预设序位的设置方式可以参阅前述相关描述,在此不再赘述。上述方式,通过利用个体语义表示和各个参考词语的词语语义表示,得到各个参考词语的预测概率值,从而按照预测概率值由大到小的顺序,选择位于前预设序位的参考词语,作为缺失位置的候选词语,进而能够基于个体语义表示和词语语义表示来选择参考词语作为缺失位置的候选词语,能够有利于提高候选词语的准确性。
在一个具体的实施场景中,如前所述,将待处理文本送入第二预测网络,可以得到缺失位置的个体语义表示,为了便于描述,可以将个体语义表示记为h,各个参考词语的词语语义表示可以记为W,需要说明的是,W是各个参考词语的词语语义表示的集合,则概率预测值p可以通过如下式子计算得到:
p=softmax(h·W)……(6)
上述公式(6)中,p表示各个参考词语的预测概率值,h表示缺失位置的个体语义表示,W表示各个参考词语的词语语义表示,·表示点积运算,softmax表示归一化处理。
在另一个具体的实施场景中,请结合参阅图8,图8是利用参考词语预测过程一实施例的状态示意图。如图8所示,待补全文本“世界知识产权总部设在()”处理为上述待处理文本之后,送入第二预测网络,可以得到缺失位置的个体语义表示h,而m个参考词语(W1,W2,W3,…,Wm)经向量化之后可以对应得到m个词语语义表示(v1,v2,v3,…,vm),从而将个体语义表示h与m个词语语义表示(v1,v2,v3,…,vm)进行点积(dot)运算,得到各个参考词语的预测概率值(p1,p2,p3,…,pm),并按照预测概率值由大到小的顺序对各个参考词语进行排序(sort),最终选择前预设序位(如前2位)参考词语,如选择“日内瓦”、“纽约”作为缺失位置的候选词语。需要说明的是,图8所示仅仅是实际应用过程中可能存在的一种情况,并不因此而限定实际应用过程中可能存在的其他情况,具体可以根据实际应用情况进行设置,在此不做限定。
需要说明的是,在待补全文本包括多个缺失位置的情况下,可以对每个缺失位置分别采用上述方式进行补全预测,最终得到每个缺失位置的候选词语,具体过程可以参阅前述描述,在此不再赘述。
区别于前述实施例,通过对待补全文本进行语义抽取,得到各个缺失位置的个体语义表示,从而针对每一缺失位置,利用缺失位置的个体语义表示和各个参考词语的词语语义表示,直接得到缺失位置的至少一个候选词语,能够有利于提高补全预测的准确性和效率。此外,由于针对缺失位置直接预测得到候选词语,故缺失位置不局限于缺失文字、词语或是实体,能够有利于实现对文字、词语、实体等混合粒度的预测。
请参阅图9,图9是第二预测网络训练过程一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S91:利用第二预测网络对样本文本进行语义抽取,得到各个样本缺失位置的样本个体语义表示。
本公开实施例中,样本文本包括至少一个样本缺失位置。样本文本的获取过程具体可以参阅前述公开实施例以及说明书附图3中的相关描述,在此不再赘述。
对样本文本进行语义抽取的方式具体可以参阅前述公开实施例中步骤S71相关描述,在此不再赘述。
步骤S92:针对每一样本缺失位置,利用样本缺失位置的样本个体语义表示和各个参考词语的词语语义表示,得到各个参考词语的样本预测概率值。
具体可以参阅前述公开实施例中步骤S72相关描述,在此不再赘述。
步骤S93:基于每一样本缺失位置处各个参考词语的样本预测概率值,获取第二预测网络的第二损失值。
具体地,第二损失值可以采用交叉熵损失函数进行计算,具体可以表示为:
Figure BDA0002827417560000151
上述公式(7)中,M表示样本文本中样本缺失位置的个数,yi为样本文本中第i个缺失位置所对应的缺省的词语,pi表示样本文本中第i个缺失位置预测得到的各个参考词语的样本预测概率值。
步骤S94:利用第二损失值,调整第二预测网络的网络参数。
具体地,可以采用随机梯度下降(Stochastic Gradient Descent,SGD)、批量梯度下降(Batch Gradient Descent,BGD)、小批量梯度下降(Mini-Batch Gradient Descent,MBGD)等方式,利用第二损失值对第二预测网络的网络参数进行调整,其中,批量梯度下降是指在每一次迭代时,使用所有样本来进行参数更新;随机梯度下降是指在每一次迭代时,使用一个样本来进行参数更新;小批量梯度下降是指在每一次迭代时,使用一批样本来进行参数更新,在此不再赘述。
区别于前述实施例,通过利用第二预测网络对样本文本进行语义抽取,得到各个样本缺失位置的样本个体语义表示,从而针对每一样本缺失位置,利用样本缺失位置的样本个体语义表示和各个参考词语的词语语义表示,得到各个参考词语的样本预测概率值,进而基于每一样本缺失位置处各个参考词语的样本预测概率值,获取第二预测网络的第二损失值,在此基础上,利用第二损失值,调整第二预测网络的网络参数,故此,利用参考词语的词语语义表示辅助在样本缺失位置处进行词语预测,并基于统计得到的第二损失值调整第二预测网络的网络参数,能够有利于提高第二预测网络的准确性。此外,由于针对样本缺失位置整体直接预测,故样本缺失位置不局限于缺失文字、词语或是实体,能够有利于实现对文字、词语、实体等混合粒度的预测。
请参阅图10,图10是图1中步骤S13又一实施例的流程示意图。具体地,本公开实施例是来源情况包括源自涉及预设知识领域的第二文本库的情况下,对待补全文本进行补全预测一实施例的流程示意图。如前述公开实施例所述,具体可以利用与预设知识领域对应的知识图谱和文本库,对待补全文本进行补全预测。本公开实施例中,知识图谱可以包括若干三元组,三元组可以包括两个实体和两个实体之间的实体关系,三元组具体可以表示为<实体1,实体关系,实体2>。以预设知识领域为古典音乐为例,若干三元组可以包括但不限于:<莫扎特,出生地,萨尔茨堡>、<莫扎特,乐派,古典乐派>、<奥地利,历史最悠久,萨尔茨堡>、<萨尔茨堡,纪念日久,莫扎特周>,在预设知识领域为其他情况时,可以以此类推,在此不再一一举例。本公开实施例具体可以包括如下步骤:
步骤S1010:在若干三元组中进行实体搜索,得到包含目标实体的目标三元组。
本公开实施例中,目标实体是从待补全文本中抽取得到的实体。具体地,可以采用自然语言处理(Nature Language Process,NLP)工具(如,LTP等)来对待补全文本进行命名实体识别,从而可以从待补全文本中抽取出目标实体。以前述待补全文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为萨尔茨堡宫廷乐师”为例,可以从中抽取得到目标实体“萨尔茨堡”,其他情况可以以此类推,在此不再一一举例。
在一个实施场景中,可以在预设知识领域对应的知识图谱中进行实体搜索,并直接将包含目标实体的三元组,作为目标三元组。仍以待补全文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为萨尔茨堡宫廷乐师”为例,可以直接将上述包含目标实体“萨尔茨堡”的三元组:<莫扎特,出生地,萨尔茨堡>、<奥地利,历史最悠久,萨尔茨堡>、<萨尔茨堡,纪念日,莫扎特周>,作为目标三元组。在待补全文本为其他情况时,可以以此类推,在此不再一一举例。上述方式,直接将包含目标实体的三元组,作为目标三元组,能够提高搜索目标三元组的速度。
在另一个实施场景中,可以将包含目标实体的三元组,作为候选三元组,并将候选三元组中除目标实体之外的另一实体,作为参考实体,在此基础上,利用第二文本库中各个参考词语的词语语义表示,获取参考实体的实体语义表示,并获取待补全文本的整体语义表示,从而基于各个参考实体的实体语义表示分别与整体语义表示之间的相似度,选择至少一个候选三元组作为目标三元组。上述方式,通过将包含目标实体的三元组,作为候选三元组,并将候选三元组中除目标实体之外的另一实体,作为参考实体,从而利用文本库中各个参考词语的词语语义表示,获取待补全文本的整体语义表示以及参考实体的实体语义表示,进而基于各个参考实体的实体语义表示分别与整体语义表示之间的相似度,选择至少一个候选三元组作为目标三元组,故此能够基于相似度对候选三元组进行进一步筛选,能够有利于降低相似度较低的三元组对后续补全预测的干扰,且有利于降低后续将目标三元组融入待补全文本的复杂度。
在一个具体的实施场景中,整体语义表示可以是利用待补全文本中各个词语的词语语义表示融合得到的。具体可以将待补全文本中各个词语的词语语义表示,具体可以表示为:
Figure BDA0002827417560000161
上述公式(8)中,Vseq表示待补全文本的整体语义表示,n表示待补全文本中词语的总数,
Figure BDA0002827417560000162
表示待补全文本中第ti个词语的词语语义表示。以待补全文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为萨尔茨堡宫廷乐师”为例,待补全文本中各个词语包括:作为、维也纳、古典、乐派、代表、人物、之一、1772、年、被、任命、为、萨尔茨堡、宫廷、乐师,则可以将上述词语的词语语义表示代入上述公式(8),得到该待补全文本的整体语义表示。其他情况可以以此类推,在此不再一一举例。
在另一个具体的实施场景中,实体语义表示分别与整体语义表示之间的相似度具体可以为余弦相似度,具体可以通过下式得到相似度S:
Figure BDA0002827417560000171
上述公式(9)中,Vseq表示待补全文本的整体语义表示,
Figure BDA0002827417560000172
表示目标三元组中除目标实体之外的另一实体(即参考实体)的实体语义表示。仍以待补全文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为萨尔茨堡宫廷乐师”为例,在利用上述公式(8)得到该待补全文本的整体语义表示的同时,可以分别获取候选三元组:<莫扎特,出生地,萨尔茨堡>、<奥地利,历史最悠久,萨尔茨堡>、<萨尔茨堡,纪念日,莫扎特周>中除目标实体“萨尔茨堡”之外的参考实体“莫扎特”的实体语义表示、参考实体“奥地利”的实体语义表示、参考实体“莫扎特周”的实体语义表示,并基于上述公式(9)获取整体语义表示分别与上述三个实体语义表示之间的相似度。其他情况可以以此类推,在此不再一一举例。
在另一个具体的实施场景中,可以按照相似度由大到小的顺序对候选三元组进行排序,从而选择在前预设序位的候选三元组,作为目标三元组。具体地,预设序位可以根据实际应用需要进行设置,例如,可以设置为2、3、4等等。此外,为了降低相似度较低的候选三元组对后续补全预测的干扰,并降低将目标三元组融入待补全文本的复杂度,以及避免发生由于目标三元组过少而导致补全预测准确率较低,预设序位具体可以设置为2,即可以将相似度按照由大到小排序之后排在前两位的候选三元组,作为目标三元组。仍以待补全文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为萨尔茨堡宫廷乐师”为例,可以选择<莫扎特,出生地,萨尔茨堡>、<萨尔茨堡,纪念日,莫扎特周>作为目标三元组。其他情况可以以此类推,在此不再一一举例。
在又一个具体的实施场景中,第二文本库可以包含至少一个参考文本,且参考文本包含至少一个参考词语,从而可以分别对至少一个参考文本进行分词及词性标注,得到标注有词性类别的若干词语,并将词性类别为预设类别的词语逐字切分,并利用切分后的词语和未切分的词语,得到若干参考词语,进而分别对若干参考词语进行语义抽取,得到参考词语的词语语义表示,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
步骤S1020:将目标三元组融入待补全文本的目标实体处,得到融合文本。
在一个实施场景中,在得到目标三元组之后,可以提取目标三元组中的参考实体、目标实体以及两者之间的实体关系,并将其中的参考实体和实体关系插入至待补全文本的目标实体的左侧和/或右侧,从而得到融合文本。仍以待补全文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为萨尔茨堡宫廷乐师”为例,可以提取目标三元组<莫扎特,出生地,萨尔茨堡>中的参考实体(即莫扎特)、目标实体(即萨尔茨堡)以及实体关系(即出生地),并提取另一目标三元组<萨尔茨堡,纪念日,莫扎特周>中的参考实体(即莫扎特周)、目标实体(即萨尔茨堡)以及实体关系(纪念日),并将参考实体“莫扎特”、实体关系“出生地”以及参考实体“莫扎特周”、实体关系“纪念日”插入至待补全文本目标实体“萨尔茨堡”的左侧,得到融合文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为莫扎特出生地莫扎特周纪念日萨尔茨堡宫廷乐师”,或者,插入至待补全文本目标实体“萨尔茨堡”的右侧,得到融合文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为萨尔茨堡莫扎特出生地莫扎特周纪念日宫廷乐师”,或者,分别插入至待补全文本目标实体“萨尔茨堡”的左侧和右侧,得到融合文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为莫扎特出生地萨尔茨堡莫扎特周纪念日宫廷乐师”,在此不做限定。其他情况可以以此类推,在此不再一一举例。
在另一个实施场景中,在得到目标三元组之后,也可以利用目标三元组,构建知识树,并将知识树转换为文本序列,且知识树的根节点为目标实体,知识树的叶子节点为参考实体,参考实体为目标三元组中除目标实体之外的另一实体,且根节点与叶子节点之间的中间节点为目标实体和参考实体之间的实体关系,在此基础上可以将文本序列融入待补全文本的目标实体处,得到融合文本。上述方式,利用目标三元组构建知识树,并将知识树转换为文本序列,从而将文本序列融入至待补全文本的目标实体处,得到融合文本,故能够有利于通过构建知识树将目标三元组转换为具有结构化特征的文本序列,进一步能够提高融合文本的可读性,有利于提高后续补全预测的准确性。
在一个具体的实施场景中,请结合参阅图11,图11是知识树一实施例的框架示意图。如图11所示,仍以待补全文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为萨尔茨堡宫廷乐师”为例,如前所述,其对应的目标三元组包括:<莫扎特,出生地,萨尔茨堡>、<萨尔茨堡,纪念日,莫扎特周>,故可以将目标实体“萨尔茨堡”作为知识树的根节点,并将参考实体“莫扎特”和“莫扎特周”作为叶子节点,实体关系“出生地”和“纪念日”分别作为根节点与叶子节点的中间节点。需要说明的是,本公开实施例以及下述公开实施例中,如无特别说明,根节点表示知识树中不存在父节点的节点,而叶子节点表示知识树中不存在子节点的节点。
在另一个具体的实施场景中,上述知识树为二叉树,在此基础上,可以采用中序遍历方式,依序遍历知识树,并将依序遍历的词语的组合,作为文本序列。本公开实施例以及下述公开实施例中,中序遍历方式是二叉树遍历的一种,也可以称之为中根遍历、中序周游,采用中序遍历方式时,先遍历左子树,然后访问根节点,最后遍历右子树。请结合参阅图11,以图11所示的知识树为例,采用中序遍历方式对知识树进行遍历时,先遍历左子树即:“莫扎特”、“出生地”,然后访问根节点即:“萨尔茨堡”,最后遍历右子树即:“纪念日”、“莫扎特周”,在此基础上,将依序遍历的词语的组合即“莫扎特出生地萨尔茨堡纪念日莫扎特周”作为文本序列。其他情况可以以此类推,在此不再一一举例。
在又一个具体的实施场景中,在得到文本序列之后,可以将待补全文本中目标实体替换为文本序列,得到融合文本。请结合参阅图12,图12是融合文本获取过程一实施例的状态示意图。如图12所示,仍以待补全文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为萨尔茨堡宫廷乐师”为例,经上述实体搜索、知识树构建及转换之后,可以得到文本序列“莫扎特出生地萨尔茨堡纪念日莫扎特周”,在此基础上,可以直接将待补全文本中目标实体替换为文本序列,即可得到融合文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为莫扎特出生地萨尔茨堡纪念日莫扎特周宫廷乐师”。其他情况可以以此类推,在此不再一一举例。
步骤S1030:利用第二文本库对融合文本进行补全预测,得到缺失位置的至少一个候选词语。
具体地,第二文本库包括至少一个参考文本,且参考文本包含至少一个参考词语,对参考词语进行语义抽取,可以得到参考词语的词语语义表示,具体过程可以参阅前述公开实施例中相关描述,在此不再赘述。在此基础上,可以按照位置先后顺序,依序对融合文本中属于待补全文本的词语编码第一数字序位,并依序对融合文本中属于目标三元组的词语编码第二数字序位,且最大的第一数字序位小于最小的第二数字序位,从而对编码后的融合文本进行语义抽取,得到各个缺失位置的个体语义表示,进而针对每一缺失位置,可以利用缺失位置的个体语义表示和各个参考词语的词语语义表示,得到缺失位置的至少一个候选词语。上述方式,通过按照位置先后顺序,依序对融合文本中属于待补全文本的词语编码第一数字序位,并依序对融合文本中属于目标三元组的词语编码第二数字序位,且最大的第一数字序位小于最小的第二数字序位,故能够在补全预测过程中,保持待补全文本原有词语顺序不变的情况下融入领域知识,在此基础上再在对编码后的融合文本进行第二语义抽取,得到各个缺失位置的个体语义表示,并利用缺失位置的个体语义表示和各个参考词语的词语语义表示,得到缺失位置的至少一个候选词语,能够有利于提高个体语义表示的准确性,进而能够有利于提高补全预测的准确性。
在一个实施场景中,如前述公开实施例所述,在按照位置先后顺序进行编码之前,可以在融合文本的各个缺失位置处,分别补入一个缺省符。缺省符的具体设置方式,可以参阅前述公开实施例中的相关描述,例如可以设置为[mask],在此不做限定。
在另一个实施场景中,还可以在融合文本的首尾分别补入[CLS]和[SEP]作为开始标志和结束标志。以上述融合文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为莫扎特出生地萨尔茨堡纪念日莫扎特周宫廷乐师”为例,可以将其处理为“[CLS]作为维也纳古典乐派代表人物之一,[mask]于1772年被任命为莫扎特出生地萨尔茨堡纪念日莫扎特周宫廷乐师[SEP]”,其他情况可以以此类推,在此不再一一举例。
在又一个实施场景中,为了便于实现对文字、词语、实体等混合粒度的预测,还可以进一步对融合文本进行分词和词性标注,得到标注有词性类别的若干词语,并将词性类别为预设类别的词语逐字切分。分词及词性标注的具体方式可以参阅前述公开实施例中的相关描述,在此不再赘述。此外,预设类别可以设置为地名,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。仍以融合文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为莫扎特出生地萨尔茨堡纪念日莫扎特周宫廷乐师”为例,可以采用前述公开实施例中的相关步骤,进行缺省符、开始标志和结束标志的补入,以及分词、词性标注以及逐字切分,最终可以将融合文本处理为:
Figure BDA0002827417560000191
在融合文本为其他文本的情况下,可以以此类推,在此不再一一举例。
在又一个实施场景中,为了区分属于待补全文本的词语以及属于目标三元组的词语,还可以在融合文本中文本序列前补入序列开始标志,并在文本额序列后补入序列结束标志。序列开始标志和序列结束标志可以根据实际应用需要进行设置,例如,可以将<S>作为序列开始标志,将<T>作为序列结束标志。在此基础上,融合文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为莫扎特出生地萨尔茨堡纪念日莫扎特周宫廷乐师”可以被处理为:
Figure BDA0002827417560000192
在又一个实施场景中,由于目标实体在目标三元组以及待补全文本均存在,为了进一步维持待补全文本原有词语顺序,可以将目标实体视为属于待补全文本的词语,也就是说将目标实体编码为第一数字序位。此外,第二数字序位可以紧接在第一数字数位后编码,例如,最大的第一数字序位为i,则最小的第二数字序位可以为i+1。仍以上述待补全文本“作为维也纳古典乐派代表人物之一,()于1772年被任命为萨尔茨堡宫廷乐师”为例,位置编码后的融合文本可以表示为:
Figure BDA0002827417560000193
此外,如前述公开实施例所述,在来源情况包括源自涉及预设知识领域的第二文本库的情况下,补全预测可以是利用第三预测网络执行的,第三预测网络具体可以是利用样本文本对预设神经网络(如,BERT)训练得到的。在此基础上,可以将编码后的融合文本送入第三预测网络,从而可以得到各个缺失位置的个体语义表示。样本文本的获取过程具体可以参阅前述公开实施例中的相关描述,在此不再赘述。此外,第三预测网络的训练过程具体可以参阅下述公开实施例,在此暂不赘述。
在一个实施场景中,个体语义表示和各个参考词语的词语语义表示,可以得到各个参考词语的预测概率值。具体地,参考词语的预测概率值可以表示缺失位置所缺失的词语为该参考词语的可能性,预测概率值越大,缺失位置所缺失的词语为该参考词语的可能性越高。在此基础上,可以按照预测概率值由大到小的顺序,选择位于前预设序位的参考词语,作为缺失位置的候选词语。预设序位的设置方式可以参阅前述相关描述,在此不再赘述。
在一个具体的实施场景中,如前所述,将编码后的融合文本送入第三预测网络,可以得到缺失位置的个体语义表示,为了便于描述,可以将个体语义表示记为h,各个参考词语的词语语义表示可以记为W,需要说明的是,W是各个参考词语的词语语义表示的集合,则概率预测值p可以通过如下式子计算得到:
p=softmax(h·W)……(10)
上述公式(10)中,p表示各个参考词语的预测概率值,h表示缺失位置的个体语义表示,W表示各个参考词语的词语语义表示,·表示点积运算,softmax表示归一化处理。具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
需要说明的是,在搜索不到包含目标实体的目标三元组的情况下,融合文本即为待补全文本本身,在此情况下,补全预测无法参考到领域知识,即可以直接对待补全文本进行语义抽取,得到各个缺失位置的个体语义表示,并针对每一缺失位置,利用缺失位置的个体语义表示和各个参考词语的词语语义表示,得到缺失位置的至少一个候选词语,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。故此,无论是否能够搜索到目标三元组,均能够对待补全文本进行补全预测,从而可以实现可插拔式地使用领域知识,能够大大提升补全预测的灵活性。
此外,在知识图谱发生更新的情况下,搜索到的目标三元组也可能发生改变,在此情况下,仍然可以采用本公开实施例中的步骤预测得到缺失位置的至少一个候选词语。故此,无论知识图谱是否发生更新,均不会影像后续补全预测,从而可以大大提升补全预测的拓展性。
此外,在待补全文本包括多个缺失位置的情况下,可以对每个缺失位置分别采用上述方式进行补全预测,最终得到每个缺失位置的候选词语,具体过程可以参阅前述描述,在此不再赘述。
区别于前述实施例,通过在若干三元组中进行实体搜索,得到包含目标实体的目标三元组,并将目标三元组融入待补全文本的目标实体处,得到融合文本,从而利用第二文本库对融合文本进行补全预测,得到缺失位置的至少一个候选词语。故此,通过搜索得到包含目标实体的目标三元组,并将目标三元组融入待补全文本的目标实体处,能够在待补全文本中融入与待补全文本密切相关的领域知识,从而能够有利于进一步提高后续补全预测的准确性。
请参阅图13,图13是第三预测网络训练过程一实施例的流程示意图。本公开实施例中,样本知识图谱中包含若干样本三元组,且样本三元组包含两个样本实体和两个样本实体之间的样本实体关系,具体可以参阅前述公开实施例中的相关描述,在此不再赘述。本公开实施例具体可以包括如下步骤:
步骤S1310:在若干样本三元组中进行实体搜索,得到包含样本目标实体的样本目标三元组。
本公开实施例中,样本目标实体是从样本文本中抽取得到的实体。具体可以参阅前述公开实施例中步骤S1010的相关描述,在此不再赘述。
步骤S1320:将样本目标三元组融入样本文本的样本目标实体处,得到样本融合文本。
具体可以参阅前述公开实施例中步骤S1020的相关描述,在此不再赘述。
步骤S1330:按照位置先后顺序,依序对样本融合文本中属于样本文本的词语编码第一样本数字序位,并依序对样本融合文本中属于样本目标三元组的词语编码第二样本数字序位。
本公开实施例中,最大的第一样本数字序位小于最小的第二样本数字序位,具体可以参阅前述公开实施例中步骤S1030的相关描述,在此不再赘述。
步骤S1340:利用第三预测网络对编码后的样本融合文本进行语义抽取,得到各个样本缺失位置的样本个体语义表示。
具体可以参阅前述公开实施例中步骤S1030的相关描述,在此不再赘述。
步骤S1350:针对每一样本缺失位置,利用样本缺失位置的样本个体语义表示和各个参考词语的词语语义表示,得到各个参考词语的样本预测概率值。
具体可以参阅前述公开实施例中步骤S1030的相关描述,在此不再赘述。
步骤S1360:基于每一样本缺失位置处各个参考词语的样本预测概率值,获取第三预测网络的第三损失值。
具体地,第三损失值可以采用交叉熵损失函数进行计算,具体可以表示为:
Figure BDA0002827417560000201
上述公式(7)中,M表示样本文本中样本缺失位置的个数,yi为样本文本中第i个缺失位置所对应的缺省的词语,pi表示样本文本中第i个缺失位置预测得到的各个参考词语的样本预测概率值。
步骤S1370:利用第三损失值,调整第三预测网络的网络参数。
具体地,可以采用随机梯度下降(Stochastic Gradient Descent,SGD)、批量梯度下降(Batch Gradient Descent,BGD)、小批量梯度下降(Mini-Batch Gradient Descent,MBGD)等方式,利用第三损失值对第三预测网络的网络参数进行调整,其中,批量梯度下降是指在每一次迭代时,使用所有样本来进行参数更新;随机梯度下降是指在每一次迭代时,使用一个样本来进行参数更新;小批量梯度下降是指在每一次迭代时,使用一批样本来进行参数更新,在此不再赘述。
区别于前述实施例,通过在若干样本三元组中进行实体搜索,得到包含样本目标实体的样本目标三元组,并将样本目标三元组融入样本文本的样本目标实体处,得到样本融合文本,进一步按照位置先后顺序,依序对样本融合文本中属于样本文本的词语编码第一样本数字序位,并依序对样本融合文本中属于样本目标三元组的词语编码第二样本数字序位,从而利用第三预测网络对编码后的样本融合文本进行语义抽取,得到各个样本缺失位置的样本个体语义表示,并针对每一样本缺失位置,利用样本缺失位置的样本个体语义表示和各个参考词语的词语语义表示,得到各个参考词语的样本预测概率值,进而基于每一样本缺失位置处各个参考词语的样本预测概率值,获取第三预测网络的第三损失值,利用第三损失值,调整第三预测网络的网络参数,故此,通过搜索得到包含样本目标实体的样本目标三元组,并将样本目标三元组融入样本文本的样本目标实体处,能够在样本文本中融入与样本文本密切相关的领域知识,从而能够有利于进一步提高第三预测网络的准确性。
需要说明的是,本申请中与不同来源情况匹配的补全预测方式可以如图2所示以及前述各个公开实施例,集成于同一系统框架中,也可以各自分开独立实施。
请参阅图14,图14是本申请文本补全方法另一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S1410:获取待补全文本,并确定待补全文本的缺失内容来源未知。
本公开实施例中,待补全文本包括至少一个缺失位置。具体可以参阅前述公开实施例中的相关步骤,在此不再赘述。
步骤S1420:对待补全文本进行逐字预测,得到缺失位置的至少一个候选词语。
在一个实施场景中,可以在待补全文本的各个缺失位置处,分别补入预设数值个缺省符,得到待处理文本,并针对每一缺失位置,对待处理文本进行若干次预测,得到在预测次数对应序位的缺省符的预测文字,并基于若干次预测的预测文字,得到缺失位置的候选词语。具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
在另一个实施场景中,与前述描述不同的是,对于第i个缺失位置,可以将第1至第i-1个缺失位置处分别补入在该缺失位置预测得到的候选词语,并在第i至第N个缺失位置处,分别补入预设数值个缺省符,从而可以得到若干待处理文本,对于每个待处理文本可以进行若干次预测,可以得到在预测次数对应序位的缺省符的预测文字,并将若干次预测的预测文字的组合,作为与该待处理文本对应的候选词语,进而可以将各个待处理文本对应的候选词语,作为第i个缺失位置的候选词语,以此类推,直至获取全部N个缺失位置的候选词语为止。上述方式,后一缺失位置处候选词语的预测依赖于其之前缺失位置处候选词语,从而能够有利于提高补全预测过程中,各个缺失位置处候选词语之间的关联性,进而能够有利于在对各个缺失位置进行补全预测过程中,逐渐提高各个缺失位置处候选词语的准确性。
在一个具体的实施场景中,以待补全文本“()医学杂志《柳叶刀》在线发表()军事医学研究院新冠疫苗Ⅱ期临床试验结果”为例,该待补全文本包括2个(即N为2)缺失位置,则对于第1个缺失位置,可以在这2个缺失位置分别补入预设数值个缺省符,作为待处理文本,并利用待处理文本进行若干次预测,最终将若干次预测的预测文字的组合,作为与该待处理文本对应的候选词语(如,“英国”、“美国”),预测文字的具体过程可以参阅前述公开实施例中的相关描述,在此不再赘述。在此基础上,对于第2个缺失位置,可以在第1个缺失位置处分别补入在该缺失位置预测得到的候选词语,即分别将上述候选词语“英国”、“美国”补入第1个缺失位置,并在第2个缺失位置处补入预设数值个缺省符,得到2个待处理文本,对于这2个待处理文本可以分别进行若干次预测,最终对于在第1个缺失位置补入“英国”的待处理文本,可以在第2个缺失位置处预测到候选词语“中国”,而对于在第1个缺失位置补入“美国”的待处理文本,可以在第2个缺失位置处预测到候选词语“日本”,至此全部2个缺失位置已补全预测完毕,最终第1个缺失位置的候选词语包括“英国”和“美国”,第2个缺失位置的候选词语包括“中国”和“日本”。上述举例仅仅是实际应用过程中可能存在的一种情况,并不因此而限定可能存在的其他情况。此外,在缺失位置为其他数量的情况下,可以以此类推,在此不再一一举例。
步骤S1430:利用各个缺失位置的候选词语,得到待补全文本的完整文本。
在一个实施场景中,可以在各个缺失位置补入一个对应的候选词语,从而可以得到待补全文本的若干候选文本,从而可以获取每一候选文本的最终分值,并基于若干候选文本的最终分值,选择一个候选文本作为待补全文本的完整文本。具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
在另一个实施场景中,为了提高最终分值的准确性,还可以在各个缺失位置补入一个对应的候选词语,得到待补全文本的若干候选文本,并针对每一候选文本,将候选文本中的词语反向排序,得到候选文本的反向文本,从而基于候选文本的第一分值和反向文本的第二分值,得到候选文本的最终分值,进而基于若干候选文本的最终分值,选择一个候选文本作为待补全文本的完整文本。具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
区别于前述实施例,通过获取待补全文本,并确定待补全文本的缺失内容来源未知,从而对待补全文本进行逐字预测,得到缺失位置的至少一个候选词语,进而利用各个缺失位置的候选词语,得到待补全文本的完整文本,故此能够无需依赖人工即可补全待补全文本所缺失内容,能够提高文本补全的效率并降低文本补全的成本。此外,在缺失内容来源未知的情况下,通过逐字预测能够有利于提高文本补全的精度。
请参阅图15,图15是本申请文本补全方法又一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S1510:获取待补全文本,并确定待补全文本的缺失内容所源自的文本库。
本公开实施例中,待补全文本包括至少一个缺失位置。具体可以参阅前述公开实施例中的相关步骤,在此不再赘述。
步骤S1520:利用文本库对待补全文本进行补全预测,得到缺失位置的至少一个候选词语。
在一个实施场景中,文本库包含至少一个参考文本,且参考文本包含至少一个参考词语,在此基础上,可以对待补全文本进行语义抽取,得到各个缺失位置的个体语义表示,并针对每一缺失位置,利用缺失位置的个体语义表示和各个参考词语的词语语义表示,得到缺失位置的至少一个候选词语。具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
在另一个实施场景中,如前所述,文本库包括至少一个参考文本,且参考文本包含至少一个参考词语,从而可以对参考词语进行语义抽取,得到参考词语的词语语义表示,具体过程可以参阅前述公开实施例中的相关描述,在此不再赘述。在此基础上,可以对待补全文本进行分词,得到若干词语,并从将与待补全文本中词语一致的参考词语的词语语义表示,作为该词语的词语语义表示,进而对待补全文本若干词语的词语语义表示进行融合,可以得到待补全文本的整体语义表示,例如,词语语义表示为包含预设维数(如,128维)元素的向量,则可以将若干词语的词语语义表示相同位置元素求平均值,得到待补全文本的整体语义表示。进一步地,可以分别获取文本库中各个参考词语的词语语义表示和整体语义表示之间的相似度(如,余弦相似度),从而可以按照相似度由大到小的顺序,将各个参考词语进行排序,进而可以选择位于前预设序位(如,前5位)的参考词语,作为待补全文本中各个缺失词语位置的候选词语。
步骤S1530:利用各个缺失位置的候选词语,得到待补全文本的完整文本。
在一个实施场景中,可以在各个缺失位置补入一个对应的候选词语,从而可以得到待补全文本的若干候选文本,从而可以获取每一候选文本的最终分值,并基于若干候选文本的最终分值,选择一个候选文本作为待补全文本的完整文本。具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
在另一个实施场景中,为了提高最终分值的准确性,还可以在各个缺失位置补入一个对应的候选词语,得到待补全文本的若干候选文本,并针对每一候选文本,将候选文本中的词语反向排序,得到候选文本的反向文本,从而基于候选文本的第一分值和反向文本的第二分值,得到候选文本的最终分值,进而基于若干候选文本的最终分值,选择一个候选文本作为待补全文本的完整文本。具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
区别于前述实施例,通过获取待补全文本,并确定待补全文本的缺失内容所源自的文本库,从而利用文本库对待补全文本进行补全预测,得到缺失位置的至少一个候选词语,进而利用各个缺失位置的候选词语,得到待补全文本的完整文本。故此,能够无需依赖人工即可补全待补全文本所缺失内容,能够提高文本补全的效率并降低文本补全的成本。此外,由于缺失内容确定源自文本库,故利用文本库对待补全文本进行补全预测,直接得到缺失位置的至少一个候选词语,即缺失未知不局限于缺失文字、词语或是实体,能够有利于实现对文字、词语、实体等混合粒度的预测。
请参阅图16,图16是本申请文本补全方法又一实施例的流程示意图。具体而言,可以包括如下步骤:
步骤S1610:获取待补全文本,并确定待补全文本的缺失内容所源自的文本库。
本公开实施例中,待补全文本包括至少一个缺失位置,且文本库涉及预设知识领域。具体可以参阅前述公开实施例中的相关步骤,在此不再赘述。
步骤S1620:利用与预设知识领域对应的知识图谱和文本库,对待补全文本进行补全预测,得到缺失位置的至少一个候选词语。
在一个实施场景中,知识图谱包含若干三元组,三元组包括两个实体和两个实体之间的实体关系,在此基础上,可以在若干三元组中进行实体搜索,得到包含目标实体的目标三元组,且目标实体是从待补全文本中抽取得到的实体,并将目标三元组融入待补全文本的目标实体处,得到融合文本,从而利用文本库对融合文本进行补全预测,得到缺失位置的至少一个候选词语。具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
在另一个实施场景中,与前述描述类似地,知识图谱包含若干三元组,三元组包括两个实体和两个实体之间的实体关系,在此基础上,可以在若干三元组中进行实体搜索,得到包含目标实体的目标三元组,且目标实体是从待补全文本中抽取得到的实体。与前述描述不同的是,在搜索目标三元组的同时,可以直接利用文本库对待补全文本进行补全预测,得到缺失位置的至少一个候选词语,具体过程可以参阅前述公开实施例中的相关描述,在此不再赘述。在此基础上,可以提取目标三元组中除目标实体之外的另一实体,如前述公开实施例所述,可以称之为参考实体,可以利用参考实体对补全预测得到的至少一个候选词语进行进一步筛选,例如,可以利用参考实体的实体语义表示分别和各个候选词语的词语语义表示之间的相关度,并按照相关度由大到小的顺序,选择位于前预设序位(如,前5位)的候选词语,作为缺失位置最终的候选词语。上述方式,可以将实体搜索与补全预测并行执行,从而可以进一步提高文本补全的效率。
步骤S1630:利用各个缺失位置的候选片段,得到待补全文本的完整文本。
在一个实施场景中,可以在各个缺失位置补入一个对应的候选词语,从而可以得到待补全文本的若干候选文本,从而可以获取每一候选文本的最终分值,并基于若干候选文本的最终分值,选择一个候选文本作为待补全文本的完整文本。具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
在另一个实施场景中,为了提高最终分值的准确性,还可以在各个缺失位置补入一个对应的候选词语,得到待补全文本的若干候选文本,并针对每一候选文本,将候选文本中的词语反向排序,得到候选文本的反向文本,从而基于候选文本的第一分值和反向文本的第二分值,得到候选文本的最终分值,进而基于若干候选文本的最终分值,选择一个候选文本作为待补全文本的完整文本。具体可以参阅前述公开实施例中的相关描述,在此不再赘述。
区别于前述实施例,通过获取待补全文本,并确定待补全文本的缺失内容所源自的文本库,从而利用与预设知识领域对应的知识图谱和文本库,对待补全文本进行补全预测,得到缺失位置的至少一个候选词语,进而利用各个缺失位置的候选片段,得到待补全文本的完整文本。故此,能够无需依赖人工即可补全待补全文本所缺失内容,能够提高文本补全的效率并降低文本补全的成本。此外,由于缺失内容确定源自涉及预设知识领域的文本库,故利用与预设知识领域对应的知识图谱和文本库进行补全预测,有利于进一步提高文本补全的准确性。
请参阅图17,图17是本申请电子设备1700一实施例的框架示意图。电子设备1700包括相互耦接的存储器1701和处理器1702,存储器1701中存储有程序指令,处理器1702用于执行程序指令以实现上述任一文本补全方法实施例中的步骤。具体地,电子设备1700可以包括但不限于:台式计算机、笔记本电脑、平板电脑、服务器等,在此不做限定。
具体而言,处理器1702用于控制其自身以及存储器1701以实现上述任一文本补全方法实施例的步骤。处理器1702还可以称为CPU(Central Processing Unit,中央处理单元)。处理器1702可能是一种集成电路芯片,具有信号的处理能力。处理器1702还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器1702可以由集成电路芯片共同实现。
在一些公开实施例中,处理器1702用于获取待补全文本;其中,待补全文本包括至少一个缺失位置;处理器1702用于确定待补全文本所缺失内容的来源情况;其中,来源情况包括以下任意一者:来源未知、源自第一文本库、源自涉及预设知识领域的第二文本库;处理器1702用于采用与来源情况匹配的文本预测方式对待补全文本进行补全预测,得到缺失位置的至少一个候选词语;处理器1702用于利用各个缺失位置的候选词语,得到待补全文本的完整文本。
区别于前述实施例,获取待补全文本,且待补全文本包括至少一个缺失位置,并确定待补全文本所缺失内容的来源情况,且来源情况包括以下任意一者:来源未知、源自第一文本库、源自涉及预设知识领域的第二文本库,从而采用与来源情况匹配的文本预测方式对待补全文本进行补全预测,得到缺失位置的至少一个候选词语,进而利用各个缺失位置的候选词语,得到待补全文本的完整文本。故此,无需依赖人工即可补全待补全文本所缺失内容,能够提高文本补全的效率并降低文本补全的成本。此外,由于采用与来源情况匹配的文本预测方式对待补全文本进行补全预测,故能够有利于扩大文本补全的适用范围
在一些公开实施例中,处理器1702用于在各个缺失位置补入一个对应的候选词语,得到待补全文本的若干候选文本;处理器1702用于针对每一候选文本,将候选文本中的词语反向排序,得到候选文本的反向文本,并基于候选文本的第一分值和反向文本的第二分值,得到候选文本的最终分值;处理器1702用于基于若干候选文本的最终分值,选择一个候选文本作为待补全文本的完整文本。
区别于前述实施例,通过在各个缺失位置补入一个对应的候选词语,得到待补全文本的若干候选文本,并针对每一候选文本,将候选文本中的词语反向排序,得到候选文本的反向文本,从而基于候选文本的第一分值和反向文本的第二分值,得到候选文本的最终分值,故此能够在对候选文本打分过程中,综合考虑候选文本的正向序列和反向序列来进行打分,从而能够有利于提高最终分值的准确性,进而在后续基于最终分值得到完整文本的过程中,能够有利于提高完整文本的准确性。
在一些公开实施例中,处理器1702用于对候选文本进行分词及词性标注处理,得到标注有词性类别的若干词语,并将词性类别为预设类别的词语逐字切分;处理器1702用于将切分后的若干词语反向排序,得到候选文本的反向文本。
区别于前述实施例,通过对候选文本进行分词及词性标注处理,得到标注有词性类别的若干词语,并将词性类别为预设类别的词语逐字切分,从而将切分后的若干词语反向排序,得到候选文本的反向文本,进而能够有利于细化对候选文本的切分粒度,有利于后续对反向文本进行打分的准确性。
在一些公开实施例中,最终分值是利用第一权值、第二权值分别对第一分值、第二分值加权得到的,且第一权值不小于第二权值;和/或,第一分值是利用第一打分网络对候选文本处理得到的,第二分值是利用第二打分网络对反向文本处理得到的。
区别于前述实施例,利用第一权值、第二权值分别对第一分值、第二分值加权得到最终分值,且第一权值不小于第二权值,从而对候选文本的最终分值在关注反向文本的第二分值的同时,更关注于第一分值,进而能够有利于提高最终分值的准确性;而利用第一打分网络对候选文本处理得到第一分值,并利用第二打分网络对候选文本处理得到第二分值,能够有利于提高对候选文本以及对反向文本进行打分的效率。
在一些公开实施例中,在来源情况包括来源未知的情况下,补全预测是利用第一预测网络执行的,在来源情况包括源自第一文本库的情况下,补全预测是利用第二预测网络执行的,在来源情况包括源自涉及预设知识领域的第二文本库的情况下,补全预测是利用第三预测网络执行的;其中,第一预测网络、第二预测网络、第三预测网络分别是采用不同的训练方式利用样本文本对预设神经网络训练得到的。
区别于前述实施例,在来源情况包括来源未知的情况下,利用第一预测网络执行补全预测,而在来源情况包括源自第一文本库的情况下,利用第二预测网络执行补全预测,并在来源情况包括源自涉及预设知识领域的第二文本库的情况下,利用第三预测网络执行补全预测,能够有利于在不同来源情况下提高补全预测的效率,此外,由于第一预测网络、第二预测网络、第三预测网络分别是采用不同的训练方式利用样本文本对预设神经网络训练得到的,即第一预测网络、第二预测网络和第三预测网络在训练过程中可以共享样本文本和预设神经网络,从而能够有利于降低训练复杂度。
在一些公开实施例中,处理器1702用于对原始文本进行分词及词性标注,得到标注有词性类别的若干词语;处理器1702用于将词性类别为预设类别的词语逐字切分,并在切分后的词语和未切分的词语中,选择预设比例的词语进行缺省;处理器1702用于将缺省后的原始文本作为样本文本,并将缺省的词语所在位置作为样本文本的样本缺失位置。
区别于前述实施例,通过对原始文本进行分词及词性标注,得到标注有词性类别的若干词语,并将词性类别为预设类别的词语逐字切分,从而在切分后的词语和未切分的词语中,选择预设比例的词语进行缺省,进而将缺省后的原始文本作为样本文本,并将缺省的词语所在位置作为样本文本的样本缺失位置,故此,能够构建得到缺失内容包含字、词语、实体等混合粒度的样本文本,从而能够有利于提高后续训练得到的预测网络对于缺失字、词语、实体等混合粒度的待补全文本的适应性,进而能够有利于提高后续补全预测的准确性。
在一些公开实施例中,在来源情况包括来源未知的情况下,处理器1702用于在待补全文本的各个缺失位置处,分别补入预设数值个缺省符,得到待处理文本;处理器1702用于针对每一缺失位置,对待处理文本进行若干次预测,得到在预测次数对应序位处的缺省符的预测文字,并基于若干次预测的预测文字,得到缺失位置的候选词语。
区别于前述实施例,在来源情况包括来源未知的情况下,通过待补全文本的各个缺失位置处,分别补入预设数值个缺省符,从而得到待处理文本,并针对每一缺失位置,对待处理文本进行若干次预测,得到在预测次数对应序位处的缺省符的预测文字,进而基于若干次预测的预测文字,得到缺省位置的候选词语,故此无需依赖人工即可进行文本补全,能够提高文本补全的效率并降低文本补全的成本,此外在来源未知的情况下,在各个缺失位置处逐字进行文字预测,能够有利于提高预测精度,从而有利于提高文本补全的准确性。
在一些公开实施例中,处理器1702用于对待处理文本进行第i次预测,得到第i序位处缺省符的至少一个预测文字以及各个预测文字的预测概率值,处理器1702用于将第i序位处缺省符的至少一个预测文字分别替换第i序位处的缺省符,得到至少一个新的待处理文本;处理器1702用于在不满足预设结束条件的情况下,将i加1,并重新执行对待处理文本进行第i次预测的步骤以及后续步骤;处理器1702用于在满足预设结束条件的情况下,基于最新得到的各个待处理文本中每一预测文字的预测概率值,得到缺失位置的候选词语。
区别于前述实施例,对待处理文本进行第i次预测,得到第i序位处缺省符的至少一个预测文字以及各个预测文字的预测概率值,并将第i序位处缺省符的至少一个预测文字分别替换第i序位处的缺省符,得到至少一个新的待处理文本,从而在不满足预设结束条件的情况下,将i加1,并重新执行对待处理文本进行第i次预测的步骤以及后续步骤,而在满足预设结束条件的情况下,基于最新得到的各个待处理文本中每一预测文字的预测概率值,得到缺失位置的候选词,能够在每次预测时依赖前一次预测,进而能够提高逐字预测得到的预测文字之间的关联性,有利于提高预测文字的准确性。
在一些公开实施例中,预设结束条件包括以下任一者:预测文字为预设结束字符,i不小于预设数值。
在一些公开实施例中,处理器1702用于针对每一最新得到的待处理文本,统计缺失位置处各个预测文字的预测概率值的平均概率值;处理器1702用于按照平均概率值由大到小的顺序,选择位于前预设序位的待处理文本,并将选择的待处理文本中缺失位置处各个预测文字的组合,作为缺失位置的候选词语。
区别于前述实施例,通过针对每一最新得到的待处理文本,统计缺失位置处各个预测文字的预测概率值的平均概率值,能够有利于通过平均概率值表示待处理文本中预测文字的整体准确性,在此基础上,按照平均概率值由大到小的顺序,选择位于前预设序位的待处理文本,并将选择的待处理文本中缺失位置处各个预测文字的组合,作为缺失位置的候选词语,能够选择到整体准确性较大的候选词语,故此能够有利于提高候选词语的准确性,进而能够有利于提高最终得到的完整文本的准确性。
在一些公开实施例中,至少一个预测文字以及各个预测文字的预测概率值是利用第一预测网络预测得到的,处理器1702用于统计各个样本文本中样本缺失位置的缺失文字个数;处理器1702用于分别针对若干候选数值,统计缺失文字个数不大于于候选数值的占比;处理器1702用于在占比大于预设百分比的至少一个候选数值中,选择最小的候选数值,作为预设数值。
区别于前述实施例,通过统计各个样本文本中样本缺失位置的缺失文字个数,并分别针对若干候选数值,统计缺失文字个数小于候选数值的占比,从而在占比大于预设百分比的至少一个候选数值中,选择最小的候选数值,作为预设数值,从而既能够使得预设数值覆盖大多数场景,又能够尽可能地减少缺省符的个数,进而能够有利于提高后续针对每个缺失位置进行文字预测的效率。
在一些公开实施例中,在来源情况包括源自第一文本库的情况下,处理器1702用于利用第一文本库对待补全文本进行补全预测,得到缺失位置的至少一个候选词语。
区别于前述实施例,能够无需依赖人工即可补全待补全文本所缺失内容,能够提高文本补全的效率并降低文本补全的成本。此外,由于缺失内容确定源自第一文本库,故利用第一文本库对待补全文本进行补全预测,直接得到缺失位置的至少一个候选词语,即缺失未知不局限于缺失文字、词语或是实体,能够有利于实现对文字、词语、实体等混合粒度的预测
在一些公开实施例中,在来源情况包括源自涉及预设知识领域的第二文本库的情况下,处理器1702用于利用与预设知识领域对应的知识图谱和第二文本库,对待补全文本进行补全预测,得到缺失位置的至少一个候选词语。
区别于前述实施例,能够无需依赖人工即可补全待补全文本所缺失内容,能够提高文本补全的效率并降低文本补全的成本。此外,由于缺失内容确定源自涉及预设知识领域的第二文本库,故利用与预设知识领域对应的知识图谱和文本库进行补全预测,有利于进一步提高文本补全的准确性。
请参阅图18,图18是本申请存储装置1800一实施例的框架示意图。存储装置1800存储有能够被处理器运行的程序指令1801,程序指令1801用于实现上述任一文本补全方法实施例中的步骤。
上述方案,能够提高文本补全的效率并降低文本补全的成本。
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (14)

1.一种文本补全方法,其特征在于,包括:
获取待补全文本;其中,所述待补全文本包括至少一个缺失位置;
确定所述待补全文本所缺失内容的来源情况;其中,所述来源情况包括以下任意一者:来源未知、源自第一文本库、源自涉及预设知识领域的第二文本库;
采用与所述来源情况匹配的文本预测方式对所述待补全文本进行补全预测,得到所述缺失位置的至少一个候选词语;
利用各个所述缺失位置的所述候选词语,得到所述待补全文本的完整文本。
2.根据权利要求1所述的方法,其特征在于,所述利用各个所述缺失位置的所述候选词语,得到所述待补全文本的完整文本,包括:
在各个所述缺失位置补入一个对应的候选词语,得到所述待补全文本的若干候选文本;
针对每一所述候选文本,将所述候选文本中的词语反向排序,得到所述候选文本的反向文本,并基于所述候选文本的第一分值和所述反向文本的第二分值,得到所述候选文本的最终分值;
基于所述若干候选文本的最终分值,选择一个所述候选文本作为所述待补全文本的完整文本。
3.根据权利要求2所述的方法,其特征在于,所述将所述候选文本中的词语反向排序,得到所述候选文本的反向文本,包括:
对所述候选文本进行分词及词性标注处理,得到标注有词性类别的若干词语,并将所述词性类别为预设类别的词语逐字切分;
将切分后的所述若干词语反向排序,得到所述候选文本的反向文本。
4.根据权利要求2所述的方法,其特征在于,所述最终分值是利用第一权值、第二权值分别对所述第一分值、第二分值加权得到的,且所述第一权值不小于所述第二权值;
和/或,所述第一分值是利用第一打分网络对所述候选文本处理得到的,所述第二分值是利用第二打分网络对所述反向文本处理得到的。
5.根据权利要求1所述的方法,其特征在于,在所述来源情况包括来源未知的情况下,所述补全预测是利用第一预测网络执行的,在所述来源情况包括源自第一文本库的情况下,所述补全预测是利用第二预测网络执行的,在所述来源情况包括源自涉及预设知识领域的第二文本库的情况下,所述补全预测是利用第三预测网络执行的;
其中,所述第一预测网络、所述第二预测网络、所述第三预测网络分别是采用不同的训练方式利用样本文本对预设神经网络训练得到的。
6.根据权利要求5所述的方法,其特征在于,所述样本文本的获取步骤包括:
对原始文本进行分词及词性标注,得到标注有词性类别的若干词语;
将所述词性类别为预设类别的词语逐字切分,并在切分后的词语和未切分的词语中,选择预设比例的词语进行缺省;
将缺省后的原始文本作为所述样本文本,并将缺省的词语所在位置作为所述样本文本的样本缺失位置。
7.根据权利要求1所述的方法,其特征在于,在所述来源情况包括来源未知的情况下,所述采用与所述来源情况匹配的文本预测方式对所述待补全文本进行补全预测,得到所述缺失位置的至少一个候选词语,包括:
在所述待补全文本的各个所述缺失位置处,分别补入预设数值个缺省符,得到待处理文本;
针对每一所述缺失位置,对所述待处理文本进行若干次预测,得到在预测次数对应序位处的缺省符的预测文字,并基于所述若干次预测的预测文字,得到所述缺失位置的候选词语。
8.根据权利要求7所述的方法,其特征在于,所述对所述待处理文本进行若干次预测,得到在预测次数对应序位处的缺省符的预测文字,包括:
对所述待处理文本进行第i次预测,得到第i序位处缺省符的至少一个预测文字以及各个所述预测文字的预测概率值;
所述基于所述若干次预测的预测文字,得到所述缺失位置的候选词语,包括:
将第i序位处缺省符的至少一个预测文字分别替换第i序位处的缺省符,得到至少一个新的待处理文本;
在不满足预设结束条件的情况下,将所述i加1,并重新执行所述对所述待处理文本进行第i次预测的步骤以及后续步骤;
在满足所述预设结束条件的情况下,基于最新得到的各个所述待处理文本中每一所述预测文字的预测概率值,得到所述缺失位置的候选词语。
9.根据权利要求8所述的方法,其特征在于,所述预设结束条件包括以下任一者:所述预测文字为预设结束字符,所述i不小于所述预设数值;
和/或,所述基于最新得到的各个所述待处理文本中每一所述预测文字的预测概率值,得到所述缺失位置的候选词语,包括:
针对每一最新得到的所述待处理文本,统计所述缺失位置处各个所述预测文字的预测概率值的平均概率值;
按照所述平均概率值由大到小的顺序,选择位于前预设序位的待处理文本,并将选择的待处理文本中所述缺失位置处各个所述预测文字的组合,作为所述缺失位置的候选词语。
10.根据权利要求7所述的方法,其特征在于,所述至少一个预测文字以及各个所述预测文字的预测概率值是利用第一预测网络预测得到的,所述第一预测网络是利用样本文本训练得到的,且所述样本文本包括至少一个样本缺失位置,所述预设数值的获取步骤包括:
统计各个所述样本文本中所述样本缺失位置的缺失文字个数;
分别针对若干候选数值,统计所述缺失文字个数不大于所述候选数值的占比;
在所述占比大于预设百分比的至少一个所述候选数值中,选择最小的所述候选数值,作为所述预设数值。
11.根据权利要求1所述的方法,其特征在于,在所述来源情况包括源自第一文本库的情况下,所述采用与所述来源情况匹配的文本预测方式对所述待补全文本进行补全预测,得到所述缺失位置的至少一个候选词语,包括:
利用所述第一文本库对所述待补全文本进行补全预测,得到所述缺失位置的至少一个候选词语。
12.根据权利要求1所述的方法,其特征在于,在所述来源情况包括源自涉及预设知识领域的第二文本库的情况下,所述采用与所述来源情况匹配的文本预测方式对所述待补全文本进行补全预测,得到所述缺失位置的至少一个候选词语,包括:
利用与所述预设知识领域对应的知识图谱和所述第二文本库,对所述待补全文本进行补全预测,得到所述缺失位置的至少一个候选词语。
13.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至12任一项所述的文本补全方法。
14.一种存储装置,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至12任一项所述的文本补全方法。
CN202011452078.9A 2020-12-09 2020-12-09 文本补全方法以及电子设备、存储装置 Pending CN112560476A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011452078.9A CN112560476A (zh) 2020-12-09 2020-12-09 文本补全方法以及电子设备、存储装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011452078.9A CN112560476A (zh) 2020-12-09 2020-12-09 文本补全方法以及电子设备、存储装置

Publications (1)

Publication Number Publication Date
CN112560476A true CN112560476A (zh) 2021-03-26

Family

ID=75061362

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011452078.9A Pending CN112560476A (zh) 2020-12-09 2020-12-09 文本补全方法以及电子设备、存储装置

Country Status (1)

Country Link
CN (1) CN112560476A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434632A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 基于语言模型的文本补全方法、装置、设备及存储介质
CN117556187A (zh) * 2023-11-10 2024-02-13 纬创软件(武汉)有限公司 基于深度学习的云数据修复方法、系统及可读存储介质

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
US20130339283A1 (en) * 2012-06-14 2013-12-19 Microsoft Corporation String prediction
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与系统
CN106959946A (zh) * 2017-04-07 2017-07-18 闽江学院 一种基于深度学习的文本语义特征生成优化方法
US20180101599A1 (en) * 2016-10-08 2018-04-12 Microsoft Technology Licensing, Llc Interactive context-based text completions
CN108319588A (zh) * 2018-02-13 2018-07-24 北京易真学思教育科技有限公司 文本情感分析系统及方法、存储介质
CN110019754A (zh) * 2019-01-30 2019-07-16 阿里巴巴集团控股有限公司 一种知识库的建立方法、装置及设备
CN110516244A (zh) * 2019-08-26 2019-11-29 西安艾尔洛曼数字科技有限公司 一种基于bert的句子自动填充方法
CN110717010A (zh) * 2018-06-27 2020-01-21 北京嘀嘀无限科技发展有限公司 一种文本处理方法及系统
CN111222331A (zh) * 2019-12-31 2020-06-02 北京捷通华声科技股份有限公司 辅助解码方法、装置、电子设备及可读存储介质
CN111507088A (zh) * 2020-04-15 2020-08-07 深圳前海微众银行股份有限公司 语句补全方法、设备及可读存储介质
CN111552811A (zh) * 2020-04-24 2020-08-18 深圳数联天下智能科技有限公司 知识图谱中信息补全的方法、装置、计算机设备和存储介质
CN111708882A (zh) * 2020-05-29 2020-09-25 西安理工大学 基于Transformer的中文文本信息缺失的补全方法
CN111738018A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种意图理解方法、装置、设备及存储介质
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN111984766A (zh) * 2019-05-21 2020-11-24 华为技术有限公司 缺失语义补全方法及装置
CN112035672A (zh) * 2020-07-23 2020-12-04 深圳技术大学 一种知识图谱补全方法、装置、设备以及存储介质

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102194013A (zh) * 2011-06-23 2011-09-21 上海毕佳数据有限公司 一种基于领域知识的短文本分类方法及文本分类系统
US20130339283A1 (en) * 2012-06-14 2013-12-19 Microsoft Corporation String prediction
CN106066866A (zh) * 2016-05-26 2016-11-02 同方知网(北京)技术有限公司 一种英文文献关键短语自动抽取方法与系统
US20180101599A1 (en) * 2016-10-08 2018-04-12 Microsoft Technology Licensing, Llc Interactive context-based text completions
CN106959946A (zh) * 2017-04-07 2017-07-18 闽江学院 一种基于深度学习的文本语义特征生成优化方法
CN108319588A (zh) * 2018-02-13 2018-07-24 北京易真学思教育科技有限公司 文本情感分析系统及方法、存储介质
CN110717010A (zh) * 2018-06-27 2020-01-21 北京嘀嘀无限科技发展有限公司 一种文本处理方法及系统
CN110019754A (zh) * 2019-01-30 2019-07-16 阿里巴巴集团控股有限公司 一种知识库的建立方法、装置及设备
WO2020221298A1 (zh) * 2019-04-30 2020-11-05 北京金山云网络技术有限公司 文本检测模型训练方法、文本区域、内容确定方法和装置
CN111984766A (zh) * 2019-05-21 2020-11-24 华为技术有限公司 缺失语义补全方法及装置
CN110516244A (zh) * 2019-08-26 2019-11-29 西安艾尔洛曼数字科技有限公司 一种基于bert的句子自动填充方法
CN111222331A (zh) * 2019-12-31 2020-06-02 北京捷通华声科技股份有限公司 辅助解码方法、装置、电子设备及可读存储介质
CN111507088A (zh) * 2020-04-15 2020-08-07 深圳前海微众银行股份有限公司 语句补全方法、设备及可读存储介质
CN111552811A (zh) * 2020-04-24 2020-08-18 深圳数联天下智能科技有限公司 知识图谱中信息补全的方法、装置、计算机设备和存储介质
CN111708882A (zh) * 2020-05-29 2020-09-25 西安理工大学 基于Transformer的中文文本信息缺失的补全方法
CN111738018A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种意图理解方法、装置、设备及存储介质
CN112035672A (zh) * 2020-07-23 2020-12-04 深圳技术大学 一种知识图谱补全方法、装置、设备以及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DAE HOON PARK, ET AL: "A Neural Language Model for Query Auto-Completion", COMPUTER SCIENCE, 7 August 2017 (2017-08-07) *
LUKE AEMILIUS: "论文笔记:Blank Language Model", Retrieved from the Internet <URL:https://zhuanlan.zhihu.com/p/106564690> *
张香玲;陈跃国;毛文祥;荣垂田;杜小勇;: "基于随机游走的实体类型补全方法", 计算机学报, no. 10, 31 December 2017 (2017-12-31) *
王玮;: "基于C-R神经网络的生成式自动摘要方法", 计算机与数字工程, no. 01, 20 January 2020 (2020-01-20) *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434632A (zh) * 2021-06-25 2021-09-24 平安科技(深圳)有限公司 基于语言模型的文本补全方法、装置、设备及存储介质
CN117556187A (zh) * 2023-11-10 2024-02-13 纬创软件(武汉)有限公司 基于深度学习的云数据修复方法、系统及可读存储介质
CN117556187B (zh) * 2023-11-10 2024-05-10 纬创软件(武汉)有限公司 基于深度学习的云数据修复方法、系统及可读存储介质

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
Samih et al. Multilingual code-switching identification via lstm recurrent neural networks
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
US10706230B2 (en) System and method for inputting text into electronic devices
CN104933113B (zh) 一种基于语义理解的表情输入方法和装置
CN110020424B (zh) 合同信息的提取方法、装置和文本信息的提取方法
KR101265263B1 (ko) 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체
CN109960728B (zh) 一种开放域会议信息命名实体识别方法及系统
EP2643770A2 (en) Text segmentation with multiple granularity levels
US11334609B2 (en) Semantic structure search device and semantic structure search method
CN112560476A (zh) 文本补全方法以及电子设备、存储装置
CN109508448A (zh) 基于长篇文章生成短资讯方法、介质、装置和计算设备
JP6680126B2 (ja) 符号化プログラム、符号化装置、符号化方法、及び検索方法
JP6186198B2 (ja) 学習モデル作成装置、翻訳装置、学習モデル作成方法、及びプログラム
CN112560477A (zh) 文本补全方法以及电子设备、存储装置
CN113158648A (zh) 文本补全方法以及电子设备、存储装置
CN111950274A (zh) 一种专业领域语料的中文分词方法及装置
CN114528944B (zh) 一种医疗文本编码方法、装置、设备及可读存储介质
Goh Using named entity recognition for automatic indexing
CN113111649B (zh) 事件抽取方法、系统以及设备
CN115796177A (zh) 用于实现中文分词与词性标注的方法、介质及电子设备
JP4266240B1 (ja) 項目判定システムおよび項目判定プログラム
CN115130455A (zh) 文章处理方法、装置、电子设备以及存储介质
CN114997167A (zh) 简历内容提取方法及装置
CN115525728A (zh) 汉字排序、汉字检索和汉字插入的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 311-2, 3 / F, building 5, East District, No.10 courtyard, northwest Wangdong Road, Haidian District, Beijing

Applicant after: iFLYTEK (Beijing) Co.,Ltd.

Applicant after: Hebei Xunfei Institute of Artificial Intelligence

Applicant after: IFLYTEK Co.,Ltd.

Address before: 311-2, 3 / F, building 5, East District, No.10 courtyard, northwest Wangdong Road, Haidian District, Beijing

Applicant before: Zhongke Xunfei Internet (Beijing) Information Technology Co.,Ltd.

Applicant before: Hebei Xunfei Institute of Artificial Intelligence

Applicant before: IFLYTEK Co.,Ltd.

CB02 Change of applicant information