CN114840499A - 一种表描述信息的生成方法、相关装置、设备及存储介质 - Google Patents

一种表描述信息的生成方法、相关装置、设备及存储介质 Download PDF

Info

Publication number
CN114840499A
CN114840499A CN202110138511.XA CN202110138511A CN114840499A CN 114840499 A CN114840499 A CN 114840499A CN 202110138511 A CN202110138511 A CN 202110138511A CN 114840499 A CN114840499 A CN 114840499A
Authority
CN
China
Prior art keywords
word
vector
text
probability distribution
generation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110138511.XA
Other languages
English (en)
Other versions
CN114840499B (zh
Inventor
赵文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110138511.XA priority Critical patent/CN114840499B/zh
Publication of CN114840499A publication Critical patent/CN114840499A/zh
Application granted granted Critical
Publication of CN114840499B publication Critical patent/CN114840499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种表描述信息的生成方法,包括:获取元数据表中待处理的表名信息;对表名信息进行预处理操作,得到单词序列,单词序列属于第一语种;基于单词序列,通过文本生成模型获取文本概率分布,文本概率分布包括至少一个字概率分布;根据文本概率分布,生成表名信息所对应的表描述信息,表描述信息包括至少一个字,至少一个字中的每个字对应一个字概率分布,表描述信息属于第二语种,第二语种与第一语种属于不同的语种。本申请还提供了装置、设备及介质。本申请采用文本生成模型对表名信息进行转换,无需人工参与也可以自动补全表名信息对应的表描述信息,从而降低了人工成本,提升了工作效率,有利于实现业务的正常运行。

Description

一种表描述信息的生成方法、相关装置、设备及存储介质
技术领域
本申请涉及计算机领域,尤其涉及一种表描述信息的生成方法、相关装置、设备及存储介质。
背景技术
随着业务的发展,元数据在数据侧的重要程度也与日俱增。一般地,元数据信息包括业务领域,数据存放库表位置,数据更新情况,数据开发历程,数据血缘以及数据描述等。在数据描述又可以分为表描述信息和字段描述,其中,表描述信息是每个数据的中文信息,从表描述信息中可以得知业务领域,业务发展阶段,数据更新周期以及数据用法用途等。
但是表描述信息的缺失是难免的,很多数据的生成并非来源于唯一的途径,有可能从各种数据开发平台、实时任务或者定时任务中所产生。因此,对于表描述信息缺失的情况而言,目前需要由开发人员通过数据平台对表描述信息进行补充。
然而,考虑到人员变动,每个数据表未必能分配到具体的开发人员,导致有些数据无法补全表描述信息。与此同时,人工参与往往需要消耗大量的人力,不但人工成本较高,而且工作效率较低,还可能影响到业务的正常运行。
发明内容
本申请实施例提供了一种表描述信息的生成方法、相关装置、设备及存储介质,采用文本生成模型对表名信息进行转换,无需人工参与也可以自动补全表名信息对应的表描述信息,从而降低了人工成本,提升了工作效率,有利于实现业务的正常运行。
有鉴于此,本申请一方面提供一种表描述信息的生成方法,包括:
获取元数据表中待处理的表名信息;
对表名信息进行预处理操作,得到单词序列,其中,单词序列包括至少一个单词,单词序列属于第一语种;
基于单词序列,通过文本生成模型获取文本概率分布,其中,文本概率分布包括至少一个字概率分布;
根据文本概率分布,生成表名信息所对应的表描述信息,其中,表描述信息包括至少一个字,至少一个字中的每个字对应于一个字概率分布,表描述信息属于第二语种,第二语种与第一语种属于不同的语种。
本申请另一方面提供一种表描述信息生成装置,包括:
获取模块,用于获取元数据表中待处理的表名信息;
处理模块,用于对表名信息进行预处理操作,得到单词序列,其中,单词序列包括至少一个单词,单词序列属于第一语种;
获取模块,还用于基于单词序列,通过文本生成模型获取文本概率分布,其中,文本概率分布包括至少一个字概率分布;
生成模块,用于根据文本概率分布,生成表名信息所对应的表描述信息,其中,表描述信息包括至少一个字,至少一个字中的每个字对应于一个字概率分布,表描述信息属于第二语种,第二语种与第一语种属于不同的语种。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
处理模块,具体用于对表名信息进行分词处理,得到待处理序列;
对待处理序列进行去噪处理,得到单词序列,其中,去噪处理包括去除预设符号,去除开头词,去除结束词中的至少一项。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,文本生成模型包括循环神经网络RNN;
获取模块,具体用于根据单词序列生成至少一个词向量,其中,至少一个词向量中的词向量与单词序列中的单词具有对应关系;
调用文本生成模型所包括的编码器,对至少一个词向量进行编码处理,得到句子编码向量;
调用文本生成模型所包括的解码器,对句子编码向量进行解码处理,得到文本概率分布。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于调用文本生成模型所包括的编码器,对至少一个词向量中的第i个词向量以及第(i-1)个单词所对应的融合词向量进行编码处理,得到第i个单词所对应的融合词向量,其中,i为大于或等于1的整数;
根据第i个单词所对应的融合词向量以及第i个单词所对应的网络参数,获取第i个单词所对应的权重值;
根据第i个单词所对应的权重值以及第i个单词所对应的融合词向量,获取第i个单词所对应的字编码向量;
根据至少一个单词中每个单词所对应的字编码向量,获取句子编码向量。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于调用文本生成模型所包括的解码器,对句子编码向量、第(t-1)个索引字向量以及第(t-1)个解码字向量进行解码处理,得到第t个解码字向量,其中,索引字向量表示根据索引值确定的词向量,t为大于或等于1的整数;
根据第t个解码字向量、句子编码向量以及第(t-1)个索引字向量,获取第t个字所对应的字概率分布;
根据每个字所对应的字概率分布,获取文本概率分布。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,文本生成模型包括双向长短期记忆网络BI-LSTM;
获取模块,具体用于调用文本生成模型所包括的前向编码器对单词序列进行编码处理,得到第一句子编码向量;
调用文本生成模型所包括的后向编码器对单词序列进行编码处理,得到第二句子编码向量;
根据第一句子编码向量以及第二句子编码向量,生成目标句子编码向量,其中,目标句子编码向量包括至少一个词编码向量;
基于目标句子编码向量,通过文本生成模型所包括的注意力网络获取至少一个注意力权重值;
基于至少一个注意力权重值,调用文本生成模型所包括的解码器进行解码处理,得到文本概率分布。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于调用文本生成模型所包括的前向编码器,对第t个前向单词的索引值、第(t-1)个前向记忆单元以及第(t-1)个前向语义向量进行编码处理,得到第t个前向记忆单元以及第t个前向语义向量,其中,t为大于或等于1的整数;
根据第t个前向语义向量获取第一句子编码向量;
获取模块,具体用于调用文本生成模型所包括的后向编码器,对第t个后向单词的索引值、第(t-1)个后向记忆单元以及第(t-1)个后向语义向量进行编码处理,得到第t个后向记忆单元以及第t个后向语义向量,其中,第t个后向单词索引值表示单词序列中在第t个时刻所对应的后向单词的索引值;
根据第t个后向语义向量获取第二句子编码向量。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于调用文本生成模型所包括的注意力网络,对第(k-1)个解码字向量以及目标句子编码向量中的第s个词编码向量进行处理,得到第t个单词与第s个单词之间的单词关联程度,其中,t为大于或等于1的整数,s为大于或等于1的整数,k为大于或等于1的整数;
根据单词关联程度以及总关联程度,获取第t个单词与第s个单词之间的归一化关联程度;
根据第t个单词与第s个单词之间的归一化关联程度以及第s个词编码向量,获取第t个注意力权重值;
根据第t个注意力权重值获取至少一个注意力权重值。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,
获取模块,具体用于调用文本生成模型所包括的解码器,对至少一个注意力权重值中的第t个注意力权重值、第(k-1)个索引字向量以及第(k-1)个解码字向量进行解码处理,得到第k个解码字向量,其中,t为大于或等于1的整数,k为大于或等于1的整数;
根据第k个解码字向量、第t个注意力权重值以及第(k-1)个索引字向量,获取第k个字所对应的字概率分布;
根据每个字所对应的字概率分布,获取文本概率分布。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,表描述信息生成装置包括训练模块;
获取模块,还用于基于单词序列,通过文本生成模型获取文本概率分布之前,获取待训练样本对集合,其中,待训练样本对集合包括至少一个待训练样本对,每个待训练样本对包括待训练表名信息以及待训练表描述信息,待训练表名信息属于第一语种,待训练表描述信息属于第二语种;
处理模块,还用于针对于待训练样本对集合中的每个待训练样本对,对待训练表名信息进行预处理操作,得到待训练表名信息所对应的待训练单词序列,其中,待训练单词序列包括至少一个单词;
获取模块,还用于针对于待训练样本对集合中的每个待训练样本对,基于待训练表名信息所对应的待训练单词序列,通过待训练文本生成模型获取待训练单词序列所对应的预测文本概率分布,其中,预测文本概率分布包括至少一个字概率分布;
训练模块,用于针对于待训练样本对集合中的每个待训练样本对,根据预测文本概率分布以及待训练表描述信息,对待训练文本生成模型的模型参数进行更新,直至满足模型训练条件,得到文本生成模型。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,表描述信息生成装置包括发送模块;
生成模块,还用于在获取模块基于单词序列,通过文本生成模型获取文本概率分布之前,生成模型调用指令;
发送模块,用于向服务器发送模型调用指令,以使服务器根据模型调用指令,确定文本生成模型;
获取模块,还用于获取文本生成模型;
生成模块,具体用于根据文本概率分布,生成待处理表描述信息;
若待处理表描述信息中存在字满足纠错条件,则将字替换为目标字,得到表描述信息。
在一种可能的设计中,在本申请实施例的另一方面的另一种实现方式中,表描述信息生成装置包括显示模块;
获取模块,具体用于提供针对于元数据表的表名输入区域;
通过表名输入区域获取待处理的表名信息;
显示模块,用于在生成模块根据文本概率分布,生成表名信息所对应的表描述信息之后,显示表描述信息;
或,
向终端设备发送表描述信息,以使终端设备显示表描述信息。
本申请另一方面提供一种计算机设备,包括:存储器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,所述处理器用于根据程序代码中的指令执行上述各方面所提供的方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
本申请的另一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
本申请的另一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方面所提供的方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种表描述信息的生成方法,首先获取元数据表中待处理的表名信息,然后对表名信息进行预处理操作,得到单词序列,单词序列包括属于第一语种的至少一个单词,基于单词序列,通过文本生成模型获取文本概率分布,最后,根据文本概率分布,生成表名信息所对应的表描述信息,表描述信息包括属于第二语种的至少一个字。通过上述方式,利用机器学习训练得到的文本生成模型能够实现表名信息与表描述信息之间的转换,因此,采用文本生成模型对表名信息进行转换,无需人工参与也可以自动补全表名信息对应的表描述信息,从而降低了人工成本,提升了工作效率,有利于实现业务的正常运行。
附图说明
图1为本申请实施例中表描述信息生成系统的一个架构示意图;
图2为本申请实施例中文本生成和推理过程的一个示意图;
图3为本申请实施例中表描述信息生成方法的一个流程示意图;
图4为本申请实施例中文本生成模型的一个结构示意图;
图5为本申请实施例中基于循环神经网络实现编码和解码的一个示意图;
图6为本申请实施例中文本生成模型的另一个结构示意图;
图7为本申请实施例中基于双向长短期记忆网络实现编码的一个示意图;
图8为本申请实施例中多层双向长短期记忆网络的一个结构示意图;
图9为本申请实施例中单层双向长短期记忆网络的一个结构示意图;
图10为本申请实施例中显示表描述信息的一个界面示意图;
图11为本申请实施例中表描述信息生成装置的一个示意图;
图12为本申请实施例中终端设备的一个结构示意图;
图13为本申请实施例中服务器的一个结构示意图。
具体实施方式
本申请实施例提供了一种表描述信息的生成方法、相关装置、设备及存储介质,采用文本生成模型对表名信息进行转换,无需人工参与也可以自动补全表名信息对应的表描述信息,从而降低了人工成本,提升了工作效率,有利于实现业务的正常运行。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“对应于”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
元数据是一个业务数据的最根本性的信息,一般而言,元数据包括数据领域信息、数据敏感度信息、表名信息、表描述信息、开发人员信息以及具体分区信息等。其中,通常可以从表描述信息中得知业务领域,业务发展阶段,数据更新周期,数据用法用途等。在数据字典工具中,还可以根据关键词检索表描述信息,以此解决业务内部数据信息不对称的问题,因此,表描述信息对于元数据的质量而言至关重要。但是表描述信息的缺失是难免的,很多数据的生成不通过唯一的途径,有可能从各种数据开发平台、实时任务或者定时任务中所产生。只有数据平台能对数据开发者填写信息有一定的约束力,其余途径难以彻底遏制表描述信息缺失这一现象。尽管数据平台能够强制所有数据的建立都必须完善表描述信息才可提交完成,但是也只能使新增数据具有完整的表描述信息,对于历史遗留的缺失表描述信息而言,依旧存在潜在风险。
为了更好地解决表描述信息缺失的问题,本申请提出了一种表描述信息的生成方法,该方法应用于图1所示的表描述信息生成系统,如图所示,表描述信息生成系统包括终端设备,或,表描述信息生成系统包括服务器以及终端设备,其中,客户端部署于终端设备上。本申请涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视以及智能手表等,但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。服务器和终端设备的数量也不做限制。下面将分别对两种表描述信息生成系统进行介绍。
一、表描述信息生成系统包括终端设备;
首先,终端设备获取元数据表中待处理的表名信息,然后终端设备对该待处理的表名信息进行预处理操作,得到单词序列,单词序列属于第一语种(例如,英文)。接下来,终端设备调用本地存储的文本生成模型,将单词序列输入至该文本生成模型之后,可通过文本生成模型输出文本概率分布。最后,终端设备根据文本概率分布生成表名信息所对应的表描述信息,表描述信息属于第二语种(例如,中文)。
二、表描述信息生成系统包括终端设备以及服务器;
首先,终端设备获取元数据表中待处理的表名信息。然后终端设备对该待处理的表名信息进行预处理操作,得到单词序列,然后将单词序列发送至服务器。或者,终端设备将该待处理的表名信息发送至服务器,由服务器对待处理的表名信息进行预处理操作,得到单词序列。其中,单词序列属于第一语种(例如,英文)。接下来,服务器调用本地存储的文本生成模型,将单词序列输入至该文本生成模型之后,可通过文本生成模型输出文本概率分布。最后,服务器根据文本概率分布生成表名信息所对应的表描述信息,表描述信息属于第二语种(例如,中文)。
本申请利用机器学习(Machine Learning,ML)的思想,利用表名信息推理出合理的表描述信息,因为数据的存在必然拥有表名信息,因此,使用表名信息能够补全大部分的表描述信息。其中,ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。ML是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。ML和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。ML属于人工智能(Artificial Intelligence,AI)领域中的一个技术,其中,ML是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,AI是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。AI也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。AI基础技术一般包括如传感器、专用AI芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。AI软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及ML/深度学习等几大方向。
基于此,下面将结合图2介绍文本生成和推理的过程。请参阅图2,图2为本申请实施例中文本生成和推理过程的一个示意图,如图所示,基于文本生成表描述信息主要包括两个部分,第一部分为模型训练部分,在模型训练部分中,将各个待训练样本对输入至待训练的文本生成模型,其中,每个待训练样本对包括一个待训练的表名信息以及一个待训练的表描述信息。利用ML对待训练样本进行训练,从而学习到表名信息和表描述信息之间的转换关系。第二部分为模型推理部分,在文本推理部分中,需要先加载模型训练部分保存下来的模型参数,基于模型参数构建相应的文本生成模型。然后再将表名信息(例如,“xxx_offline_data_verify_result_xxx”)输入至文本生成模型,通过文本生成模型输出相应的表描述信息(例如,“离线数据验证结果”)。
结合上述介绍,下面将对本申请中表描述信息的生成方法进行介绍,请参阅图3,本申请实施例中表描述信息生成方法的一个实施例包括:
101、获取元数据表中待处理的表名信息;
本实施例中,表描述信息生成装置获取元数据表中待处理的表名信息,其中,元数据表用于存储元数据(metadata),元数据为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找和文件记录等功能。
需要说明的是,表描述信息生成装置部署于计算机设备,该计算机设备可以是终端设备,也可以是服务器,还可以是由终端设备以及服务器共同构成的系统,此处不做限定。
102、对表名信息进行预处理操作,得到单词序列,其中,单词序列包括至少一个单词,单词序列属于第一语种;
本实施例中,表描述信息生成装置对待处理的表名信息进行预处理操作,由此得到干净的单词序列,其中,单词序列包括至少一个单词。需要说明的是,单词序列属于第一语种,第一语种包含但不仅限于英文、中文、日文、法文、德文以及俄文等,此处不做限定。
具体地,在一个示例中,可直接对表名信息进行预处理操作,即该预处理操作独立于文本生成模型。在另一个示例中,可将表名信息输入至文本生成模型,通过文本生成模型的输入层,对表名信息进行预处理操作。
103、基于单词序列,通过文本生成模型获取文本概率分布,其中,文本概率分布包括至少一个字概率分布;
本实施例中,表描述信息生成装置调用训练好的文本生成模型,然后将单词序列输入至文本生成模型,由文本生成模型输出文本概率分布,该文本概率分布包括至少一个字概率分布,每个字概率分布对应于一个字,且每个字概率分布包括至少Q维特征,Q为大于1的整数。
可以理解的是,文本生成模型包含但不仅限于机器翻译模型(transformer)、卷积序列到序列(convolutional sequence to sequence,ConS2S)以及生成性预训练(Generative Pre-Training,GPT)-2模型。
其中,transformer是一种不同于循环神经网络(Recurrent Neural Network,RNN)的架构,模型同样包含编码器(encoder)和解码器(decoder),但是编码器和解码器并未使用RNN,而将各种前馈层堆叠在一起。编码器由多个相同的层堆叠起来的,每层又包括两个子层,第一个子层是多头自注意机制(multi-head self-attention mechanism)层,第二个子层是一个简单的多层全连接前馈网络(fully connected feed-forward network)。解码器也是有多个相同的层的堆叠起来的,但每层包括三个子层,第一个子层是多头自注意(multi-head self-attention)层,第二个子层是多头上下文注意(multi-headcontext-attention)层,第三个子层是一个简单的多层全连接前馈网络。
104、根据文本概率分布,生成表名信息所对应的表描述信息,其中,表描述信息包括至少一个字,至少一个字中的每个字对应于一个字概率分布,表描述信息属于第二语种,第二语种与第一语种属于不同的语种。
本实施例中,表描述信息生成装置根据文本概率分布,生成表名信息所对应的表描述信息,其中,表描述信息包括至少一个字,每个字对应于一个字概率分布。需要说明的是,表描述信息属于第二语种,第二语种包含但不仅限于英文、中文、日文、法文、德文以及俄文等,但第二语种与第一语种不同。其中,表描述(table descriptions)信息是指数据库中的表(table)附带的描述性信息,通常情况下,表名信息所对应的第一语种为英文,表描述信息所对应的第二语种为中文。
可以理解的是,单词序列所包括的单词数量可能与表描述信息所包括的字数量不同,例如,一个单词“data”,经过文本生成模型后预测得到两个字,即为“数”和“据”。
具体地,假设文本生成模型输出的文本概率分布包括四个字概率分布,且每个字概率分布为1000维的向量。假设第一个字概率分布中的最大值为0.9,且0.9对应于字概率分布中的第522个元素位置,第522个元素位置所对应的字为“离”。假设第二个字概率分布中的最大值为0.85,且0.85对应于字概率分布中的第735个元素位置,第735个元素位置所对应的字为“线”。假设第三个字概率分布中的最大值为0.9,且0.9对应于字概率分布中的第191个元素位置,第191个元素位置所对应的字为“数”。假设第四个字概率分布中的最大值为0.78,且0.78对应于字概率分布中的第65个元素位置,第65个元素位置所对应的字为“据”。基于此,将四个字拼接在一起即构成表描述信息“离线数据”。
本申请实施例中,提供了一种表描述信息的生成方法,首先获取元数据表中待处理的表名信息,然后对表名信息进行预处理操作,得到单词序列,单词序列包括属于第一语种的至少一个单词,基于单词序列,通过文本生成模型获取文本概率分布,最后,根据文本概率分布,生成表名信息所对应的表描述信息,表描述信息包括属于第二语种的至少一个字。通过上述方式,利用机器学习训练得到的文本生成模型能够实现表名信息与表描述信息之间的转换,因此,采用文本生成模型对表名信息进行转换,无需人工参与也可以自动补全表名信息对应的表描述信息,从而降低了人工成本,提升了工作效率,有利于实现业务的正常运行。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,对表名信息进行预处理操作,得到单词序列,具体可以包括:
对表名信息进行分词处理,得到待处理序列;
对待处理序列进行去噪处理,得到单词序列,其中,去噪处理包括去除预设符号,去除开头词,去除结束词中的至少一项。
本实施例中,介绍了一种对表名信息进行预处理的方式。表描述信息生成装置可先对表名信息进行分词处理,得到待处理序列,然后再对待处理序列进行去噪处理,最后得到用于输入至文本生成模型的单词序列。
具体地,以第一语种为英文为例,即表名信息对应于英文。由于英文句子基本上就是由标点符号、空格和单词构成,因此,可根据空格和标点符号将表名信息分割成一个或多个单词。
具体地,为了便于理解,下面将结合一个示例对预处理过程进行介绍。假设表名信息为“xxx_offline_data_verify_result_xxxx”,其中,“xxx”属于表名信息的开头词,“xxxx”属于表名信息的结束词,“_”属于标点符号。基于此,对该表名信息进行分词处理,得到的待处理序列为“xxx”、“_”、“offline”、“_”、“data”、“_”、“verify”、“_”、“result”、“_”和“xxxx”。于是,可以对待处理序列进行去噪处理,可以理解的是,去噪的方式包含但不仅限于去除预设符号,去除开头词以及去除结束词等。继续以前述得到的待处理序列为例,将开头词“xxx”和结束词“xxxx”去除,并且去除预设符号“_”,从而得到单词序列为“offlinedate verify result”。
需要说明的是,预设符号包含但不仅限于“_”、“\”、“,”、“-”,“@”,“#”等,此处不进行穷举。
其次,本申请实施例中,提供了一种对表名信息进行预处理的方式,通过上述方式,对表名信息进行一系列预处理,得到符合规则的单词序列,这样一方面能够规范化模型的输入,有利于模型输出合理的结果,另一方面,能够减少无用符号或者字符的影响,提供模型输出的准确性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,文本生成模型包括循环神经网络RNN;
基于单词序列,通过文本生成模型获取文本概率分布,可以包括包括:
根据单词序列生成至少一个词向量,其中,至少一个词向量中的词向量与单词序列中的单词具有对应关系;
调用文本生成模型所包括的编码器,对至少一个词向量进行编码处理,得到句子编码向量;
调用文本生成模型所包括的解码器,对句子编码向量进行解码处理,得到文本概率分布。
本实施例中,介绍了一种基于RNN结构实现预测的方式。文本生成模型为编码器-解码器模型,基于该结构设计的文本生成模型,其输入和输出的时间步数是不同的。在一种实现中,文本生成模型所包括的编码器采用RNN结构,用于将整个源序列(即单词序列)读取为固定长度的编码。文本生成模型所包括的解码器也采用RNN结构,用于将编码的输入序列进行解码,以输出目标序列。其中,RNN是一类以序列数据为输入,在序列的演进方向进行递归且所有节点按链式连接的递归神经网络。
具体地,首先需要对单词序列中的每个单词进行编码,分别得到每个单词所对应的词向量。对单词可采用独热(one-hot)编码的方式生成词向量,独热编码中只有对应于该单词的项为“1”,其他项都是“0”。对单词也可采用文本向量化(word to vector,Word2vec)编码的方式生成词向量,Word2vec通过查看单词上下文并以数字方式表示它,来学习给定单词的含义。需要说明的是,还可以采用其他的方式对单词进行编码,此处不做穷举。
然后,调用文本生成模型所包括的编码器,对至少一个词向量进行编码处理,得到句子编码向量,再调用文本生成模型所包括的解码器,对句子编码向量进行解码处理,得到文本概率分布。为了便于理解,请参阅图4,图4为本申请实施例中文本生成模型的一个结构示意图,如图所示,假设表名信息为“xxx_offline_data_verify_result_xxx”,基于此,采用如下方式对表描述信息进行预测。
在步骤A1中,对上述表名信息进行预处理之后,得到单词序列“offline dateverify result”。
在步骤A2中,将单词序列“offline date verify result”输入至文本生成模型所包括的编码器中,其中,在对单词序列编码之前,还需要将单词序列转换为至少一个词向量,即每个单词对应于一个词向量。
在步骤A3中,通过文本生成模型所包括的编码器对至少一个词向量进行编码,然后输出编码后的结果,即输出句子编码向量。
在步骤A4中,将句子编码向量输入至文本生成模型所包括的解码器。
在步骤A5中,通过文本生成模型所包括的编码器输出解码后的文本概率分布。
在生成文本的过程中是一个字一个字生成的,也就是说,每次只能生成一个字。假设在当前时刻下,单词序列“offline date verify result”中的“offline”生成“离线”两个字,接下来将会生成“数据”中的“数”字,此时,可以采用“</s>”对句子开始的地方进行标记。
进一步地,下面将结合图5,介绍文本生成模型进行编码和解码的具体过程,请参阅图5,图5为本申请实施例中基于循环神经网络实现编码和解码的一个示意图,如图所示,假设单词序列为“offline data”。在编码过程中,首先,对单词“offline”进行编码,然后,基于单词“offline”的编码结果对单词“data”进行编码,最后,基于单词“data”的编码结果对“<eos>”进行编码,即得到一个句子编码向量。其中,<eos>表示判断终止的标签。在解码过程中,首先基于句子编码向量解码得到第一个字“离”,然后基于第一个字“离”和句子编码向量,解码得到第二个字“线”,再基于第二个字“线”和句子编码向量,解码得到第三个字“数”,最后基于第三个字“数”和句子编码向量,解码得到第四个字“据”。其中,在生成的第一个字处理打上标签“<bos>”,“<bos>”表示判断初始的标签。
其次,本申请实施例中,提供了一种基于RNN结构实现预测的方式,通过上述方式,利用RNN结构对单词序列进行编码和解码,由此完成对单词序列的转换,即得到文本概率分布,最后,既可以通过文本生成模型的输出层输出表描述信息,也可以直接基于解码器输出的文本概率分布计算出表描述信息,从而实现自动补全表描述信息的功能,提升方案的可行性和可操作性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,调用文本生成模型所包括的编码器,对至少一个词向量进行编码处理,得到句子编码向量,具体可以包括:
调用文本生成模型所包括的编码器,对至少一个词向量中的第i个词向量以及第(i-1)个单词所对应的融合词向量进行编码处理,得到第i个单词所对应的融合词向量,其中,i为大于或等于1的整数;
根据第i个单词所对应的融合词向量以及第i个单词所对应的网络参数,获取第i个单词所对应的权重值;
根据第i个单词所对应的权重值以及第i个单词所对应的融合词向量,获取第i个单词所对应的字编码向量;
根据至少一个单词中每个单词所对应的字编码向量,获取句子编码向量。
本实施例中,介绍了一种基于RNN结构输出句子编码向量的方式。文本生成模型所包括的编码器需要对输入单词序列的语义进行抽象,生成一个句子编码向量。生成句子编码向量的过程需要将单词嵌入到语义空间并获得词级别的向量表示。之后再经过词向量的运算获得句向量的表示。
具体地,为了便于介绍,下面将以单词序列中的第i个单词为例进行说明,可以理解的是,单词序列中其他单词均采用类似的方式进行编码,此处不做赘述。假设单词序列中的第i个单词为xi,单词xi所对应的词向量为ei,即第i个词向量为ei。基于此,采用如下方式生成句子编码向量:
Figure BDA0002927927740000111
Figure BDA0002927927740000112
oi=RNN(ei,oi-1),i=1,2,3,...,L;
o0=0D
其中,z表示句子编码向量。L表示单词序列中单词的总数。第i个单词为当前词。oi表示第i个单词的融合词向量,即融合了上下文信息的当前词的向量。oi-1表示第(i-1)个单词的融合词向量,即融合了上下文信息的前一个单词的向量。o0表示RNN编码器的初始化输入。D表示向量的维度数。βi表示第i个单词所对应的权重值,即第i个单词在句子编码向量中的权重。wi表示第i个单词所对应的网络参数。wj表示第j个单词所对应的网络参数。oj表示第j个单词的融合词向量。ei表示第i个词向量。RNN()表示基于RNN结构的编码器。βioi表示第i个单词所对应的字编码向量。
再次,本申请实施例中,提供了一种基于RNN结构输出句子编码向量的方式,通过上述方式,可采用RNN结构的编码器对单词序列进行编码,以得到句子编码向量,由此提升方案的可行性和可操作性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,调用文本生成模型所包括的解码器,对句子编码向量进行处理,得到文本概率分布,包括:
调用文本生成模型所包括的解码器,对句子编码向量、第(t-1)个索引字向量以及第(t-1)个解码字向量进行解码处理,得到第t个解码字向量,其中,索引字向量表示根据索引值确定的词向量,t为大于或等于1的整数;
根据第t个解码字向量、句子编码向量以及第(t-1)个索引字向量,获取第t个字所对应的字概率分布;
根据每个字所对应的字概率分布,获取文本概率分布。
本实施例中,介绍了一种基于RNN结构输出文本概率分布的方式。文本生成模型所包括的解码器,依据输入的句子编码向量一个字一个字地生成字概率分布。
具体地,为了便于介绍,下面以生成一个字为例进行介绍,该字为整个表描述信息中的第t个字,可以理解的是,表描述信息中其他字均采用类似的方式进行解码,此处不做赘述。解码器的输入包括句子编码向量和已经解码了的字序列。基于此,采用如下方式生成第t个字所对应的字概率分布:
st=RNN(st-1,e(yt-1),z);
p(yt|{y1,y2,...yt-1},x)=g(e(yt-1),st,z);
其中,z表示句子编码向量。第t个字为当前字。yt表示表描述信息中第t个字的索引。x表示输入的表名信息(或已经过预处理的单词序列)。p(B|A)表示已知A条件,发生事件B的概率。g()表示softmax输出的字概率分布。st表示第t个解码字向量,即已经解码的序列经过RNN生成的向量表示。st-1表示第(t-1)个解码字向量。e(yt-1)表示第(t-1)个索引字向量,利用输入索引yt-1获取字的向量。RNN()表示基于RNN结构的解码器。
基于此,每个字所对应的字概率分布共同构成文本概率分布。根据解码后得到的每个字概率分布,确定每个字概率分布中的最大概率所对应的字,这些字共同构成表描述信息。
再次,本申请实施例中,提供了一种基于RNN结构输出文本概率分布的方式,通过上述方式,可采用RNN结构的解码器对句子编码向量进行编码,以得到文本概率分布,由此提升方案的可行性和可操作性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,文本生成模型包括双向长短期记忆网络BI-LSTM;
基于单词序列,通过文本生成模型获取文本概率分布,具体可以包括:
调用文本生成模型所包括的前向编码器对单词序列进行编码处理,得到第一句子编码向量;
调用文本生成模型所包括的后向编码器对单词序列进行编码处理,得到第二句子编码向量;
根据第一句子编码向量以及第二句子编码向量,生成目标句子编码向量,其中,目标句子编码向量包括至少一个词编码向量;
基于目标句子编码向量,通过文本生成模型所包括的注意力网络获取至少一个注意力权重值;
基于至少一个注意力权重值,调用文本生成模型所包括的解码器进行解码处理,得到文本概率分布。
本实施例中,介绍了一种基于双向长短期记忆网络(Bi-directional Long-ShortTerm Memory,BI-LSTM)结构实现预测的方式。文本生成模型为编码器-解码器模型,基于该结构设计的文本生成模型,其输入和输出的时间步数是不同的。在一种实现中,文本生成模型所包括的编码器采用BI-LSTM结构,BI-LSTM结构输入层的数据会经过向前和向后两个方向推算,最后输出的隐含状态再进行拼接(concat),再作为下一层的输入,原理和LSTM类似,不同之处在于多了双向计算和concat过程。
首先,调用文本生成模型所包括的前向编码器,对单词序列进行编码处理,得到第一句子编码向量,类似地,调用文本生成模型所包括的后向编码器对单词序列进行编码处理,得到第二句子编码向量。将第一句子编码向量以及第二句子编码向量拼接之后,即可得到目标句子编码向量。再通过文本生成模型所包括的注意力网络,对目标句子编码向量进行计算,从而得到每个单词所对应的注意力权重值。最后,调用文本生成模型所包括的解码器,对每个单词所对应的注意力权重值进行解码处理,得到文本概率分布。
为了便于理解,请参阅图6,图6为本申请实施例中文本生成模型的另一个结构示意图,如图所示,假设表名信息为“xxx_offline_data_verify_result_xxx”,经过预处理之后得到单词序列“offline date verify result”,此时该单词序列包括4个单词,即L等于4。于是将单词序列输入至前向编码器和后向编码器中,分别得到第一句子编码向量以及第二句子编码向量。基于此,可得到目标句子编码向量,在根据目标句子编码向量中的每个词编码向量,计算对应的注意力权重值,其中,注意力权重值与单词之间关联程度相关,例如,at,1表示第1个单词与第t个字之间的关联程度。最后,基于至少一个注意力权重值,调用文本生成模型所包括的解码器进行解码处理,得到文本概率分布。
进一步地,下面将结合图7,介绍文本生成模型进行编码和解码的过程,请参阅图7,图7为本申请实施例中基于双向长短期记忆网络实现编码的一个示意图,如图所示,BI-LSTM会同时按照前向和反向来处理输入的序列(即单词序列),然后将输出的结果拼接在一起作为BI-LSTM的输出。
在一个示例中,请参阅图8,图8为本申请实施例中多层双向长短期记忆网络的一个结构示意图,如图所示,本申请采用的BI-LSTM可采用多个隐藏层。在另一个示例中,请参阅图9,图9为本申请实施例中单层双向长短期记忆网络的一个结构示意图,如图所示,本申请采用的BI-LSTM可采用单个隐藏层。
其次,本申请实施例中,提供了一种基于BI-LSTM结构实现预测的方式,通过上述方式,利用BI-LSTM结构对单词序列进行编码,并基于注意力网络确定解码后的字需要更注重编码中的哪个单词,由此完成对单词序列的转换,即得到文本概率分布,最后,既可以通过文本生成模型的输出层输出表描述信息,也可以直接基于解码器输出的文本概率分布计算出表描述信息,从而实现自动补全表描述信息的功能,提升方案的可行性和可操作性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,调用文本生成模型所包括的前向编码器对单词序列进行编码处理,得到第一句子编码向量,具体可以包括:
调用文本生成模型所包括的前向编码器,对第t个前向单词的索引值、第(t-1)个前向记忆单元以及第(t-1)个前向语义向量进行编码处理,得到第t个前向记忆单元以及第t个前向语义向量,其中,t为大于或等于1的整数,k为大于或等于1的整数;
根据第t个前向语义向量获取第一句子编码向量;
调用文本生成模型所包括的后向编码器对单词序列进行编码处理,得到第二句子编码向量,具体可以包括:
调用文本生成模型所包括的后向编码器,对第t个后向单词的索引值、第(t-1)个后向记忆单元以及第(t-1)个后向语义向量进行编码处理,得到第t个后向记忆单元以及第t个后向语义向量,其中,第t个后向单词索引值表示单词序列中在第t个时刻所对应的后向单词的索引值;
根据第t个后向语义向量获取第二句子编码向量。
本实施例中,介绍了一种基于BI-LSTM输出第一句子编码向量和第二句子编码向量的方式。在得到单词序列之后,即可对该单词序列进行编码处理,其中,可以使用BI-LSTM对文本的上下文进行充分融合,生成每个单词的语义表示。
具体地,为了便于介绍,下面将以第t时刻所对应的编码操作为例进行说明,可以理解的是,其他时刻均采用类似的方式进行编码,此处不做赘述。基于此,采用如下方式生成每个单词的语义表示:
Figure BDA0002927927740000141
Figure BDA0002927927740000142
Figure BDA0002927927740000143
其中,t表示第t时刻。ht表示第t个词编码向量,即在第t时刻生成的词编码向量。
Figure BDA0002927927740000144
表示前向编码器(即前向LSTM)在第t时刻输出的编码向量,即第t个前向语义向量。
Figure BDA0002927927740000145
表示后向编码器(即后向LSTM)在第t时刻输出的编码向量,即第t个后向语义向量。||表示把前后输出向量拼接在一起,例如,将第t个前向语义向量与第t个后向语义向量进行拼接处理。
Figure BDA0002927927740000151
表示前向编码器(即前向LSTM)在处理上下文时作为保存上一个状态的记忆单元,即第t个前向记忆单元。
Figure BDA0002927927740000152
表示表示前向编码器(即前向LSTM)在第(t-1)时刻输出的编码向量,即第(t-1)个前向语义向量。
Figure BDA0002927927740000153
表示第(t-1)个前向记忆单元。
Figure BDA0002927927740000154
表示单词序列中第t个单词的索引值,即第t个前向单词的索引值,前向单词表示从前往后数第t个单词。LSTM()表示LSTM编码器(前向LSTM编码器或后向LSTM编码器)。
Figure BDA0002927927740000155
表示后向编码器(即后向LSTM)在处理上下文时作为保存上一个状态的记忆单元,即第t个后向记忆单元。
Figure BDA0002927927740000156
表示表示后向编码器(即后向LSTM)在第(t-1)时刻输出的编码向量,即第(t-1)个后向语义向量。
Figure BDA0002927927740000157
表示第(t-1)个后向记忆单元。
Figure BDA0002927927740000158
表示单词序列中第t个单词的索引值,即第t个后向单词的索引值,后向单词表示从后往前数第t个单词。
基于此,假设单词序列包括L个单词,根据每个单词的前向语义向量,拼接得到第一句子编码向量。根据每个单词的后向语义向量,拼接得到第二句子编码向量。
再次,本申请实施例中,提供了一种基于BI-LSTM输出第一句子编码向量和第二句子编码向量的方式,通过上述方式,可采用BI-LSTM结构的编码器对单词序列进行编码,以得到句子编码向量,由此提升方案的可行性和可操作性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于目标句子编码向量,通过文本生成模型所包括的注意力网络获取至少一个注意力权重值,具体可以包括:
调用文本生成模型所包括的注意力网络,对第(k-1)个解码字向量以及目标句子编码向量中的第s个词编码向量进行处理,得到第t个单词与第s个单词之间的单词关联程度,其中,t为大于或等于1的整数,s为大于或等于1的整数;
根据单词关联程度以及总关联程度,获取第t个单词与第s个单词之间的归一化关联程度;
根据第t个单词与第s个单词之间的归一化关联程度以及第s个词编码向量,获取第t个注意力权重值;
根据第t个注意力权重值获取至少一个注意力权重值。
本实施例中,介绍了一种基于注意力网络对目标句子编码向量进行注意力计算的方式。文本生成模型还包括注意力网络,注意力网络基于注意力机制对目标句子编码向量进行计算,得到注意力权重值。
具体地,为了便于介绍,下面将以第t时刻所对应的注意力计算作为例进行说明,可以理解的是,其他时刻均采用类似的方式进行注意力计算,此处不做赘述。基于此,采用如下方式生成每个单词的注意力权重值:
Figure BDA0002927927740000159
ats=a(sk-1,hs);
Figure BDA0002927927740000161
其中,ct表示每个单词的词编码向量按照权重占比加在一起,即第t个注意力权重值。L表示单词序列中单词的总数。αts表示每个词向量的权重,即第t个单词与第s个单词之间的归一化关联程度。s表示单词序列中的第s个单词。
Figure BDA0002927927740000162
表示总关联程度。atj表示第t个单词与第j个单词之间的单词关联程度。ats表示第t个单词与第s个单词之间的单词关联程度。hs表示第s个单词对应的LSTM输出,即目标句子编码向量中的第s个词编码向量。sk-1表示经过RNN生成的第(k-1)个解码字向量。需要说明的是,关联程度是一个标量。
再次,本申请实施例中,提供了一种基于注意力网络对目标句子编码向量进行注意力计算的方式,通过上述方式,能够决定需要关注输入的哪部分,并且分配有限的信息处理资源给重要的部分。引入注意力机制能够将单词序列中每个位置的信息都保存下来,在解码过程中生成每一个目标语言的字时,通过注意力机制直接从单词序列的信息中选择相关的信息作为辅助,这样的方式就可以有效地解决上面的两个问题,第一是无需让单词序列中所有信息都通过编码向量进行传递,在解码的每一步都可以直接访问单词序列的所有位置上的信息,第二是单词序列的信息可以直接传递到解码过程中的每一步,缩短了信息传递的距离。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于至少一个注意力权重值,调用文本生成模型所包括的解码器进行解码处理,得到文本概率分布,具体可以包括:
调用文本生成模型所包括的解码器,对至少一个注意力权重值中的第t个注意力权重值、第(k-1)个索引字向量以及第(k-1)个解码字向量进行解码处理,得到第k个解码字向量,其中,t为大于或等于1的整数,k为大于或等于1的整数;
根据第k个解码字向量、第t个注意力权重值以及第(k-1)个索引字向量,获取第k个字所对应的字概率分布;
根据每个字所对应的字概率分布,获取文本概率分布。
本实施例中,介绍了一种基于RNN结构输出文本概率分布的方式。文本生成模型所包括的解码器,依据输入的句子编码向量一个字一个字地生成字概率分布。
具体地,为了便于介绍,下面以生成一个字为例进行介绍,该字为整个表描述信息中的第k个字,可以理解的是,表描述信息中其他字均采用类似的方式进行解码,此处不做赘述。解码器的输入包括注意力权重值和已经解码了的字序列。基于此,采用如下方式生成第k个字所对应的字概率分布:
sk=RNN(sk-1,e(yk-1),ct);
p(yk|{y1,y2,...yk-1},x)=g(e(yk-1),sk,ct);
其中,ct表示第t个注意力权重值。第k个字为当前字。yk表示表描述信息中第k个字的索引。x表示输入的表名信息(或已经过预处理的单词序列)。p(B|A)表示已知A条件,发生事件B的概率。g()表示softmax输出的字概率分布。sk表示第k个解码字向量,即已经解码的序列经过RNN生成的向量表示。sk-1表示第(k-1)个解码字向量。e(yk-1)表示第(k-1)个索引字向量,利用输入索引yk-1获取字的向量。RNN()表示基于RNN结构的解码器。
基于此,每个字所对应的字概率分布共同构成文本概率分布。根据解码后得到的每个字概率分布,确定每个字概率分布中的最大概率所对应的字,这些字共同构成表描述信息。
再次,本申请实施例中,提供了一种基于RNN结构输出文本概率分布的方式,通过上述方式,可采用BI-LSTM结构的解码器对句子编码向量进行编码,以得到文本概率分布,由此提升方案的可行性和可操作性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于单词序列,通过文本生成模型获取文本概率分布之前,还可以包括:
获取待训练样本对集合,其中,待训练样本对集合包括至少一个待训练样本对,每个待训练样本对包括待训练表名信息以及待训练表描述信息,待训练表名信息属于第一语种,待训练表描述信息属于第二语种;
针对于待训练样本对集合中的每个待训练样本对,对待训练表名信息进行预处理操作,得到待训练表名信息所对应的待训练单词序列,其中,待训练单词序列包括至少一个单词;
针对于待训练样本对集合中的每个待训练样本对,基于待训练表名信息所对应的待训练单词序列,通过待训练文本生成模型获取待训练单词序列所对应的预测文本概率分布,其中,预测文本概率分布包括至少一个字概率分布;
针对于待训练样本对集合中的每个待训练样本对,根据预测文本概率分布以及待训练表描述信息,对待训练文本生成模型的模型参数进行更新,直至满足模型训练条件,得到文本生成模型。
本实施例中,介绍了一种训练得到文本生成模型的方式。首先需要获取待训练样本对集合,待训练样本对集合包括至少一个待训练样本对。通常情况下,为了提升模型精度,会选择较多的待训练样本对进行训练,例如,选择10万个待训练样本对,且每个待训练样本对包括待训练表名信息以及待训练表描述信息,其中,待训练表描述信息可以是人工标注的信息,待训练表名信息属于第一语种(例如,英文),待训练表描述信息属于第二语种(例如,中文)。接下来,需要分别对每个待训练样本对中的待训练表名信息进行预处理操作,与前述实施例类似,对每个待训练表名信息进行分词和去噪之后,得到对应的待训练单词序列。
为了便于说明,下面将以一个待训练单词序列为例进行介绍,在实际训练中,可对一批(batch)待训练单词序列进行训练。具体地,在得到待训练表名信息A所对应的待训练单词序列之后,将该待训练单词序列输入至待训练文本生成模型,通过待训练文本生成模型输出预测文本概率分布,类似地,预测文本概率分布包括至少一个字概率分布。由此可知,预测文本概率分布属于预测结果,即属于预测值。而待训练表名信息A所对应的待训练表描述信息A属于标注结果,即属于真实值。
基于此,可采用交叉熵损失函数,计算待训练表名信息A所对应的预测文本概率分布与待训练表描述信息A之间的损失值,利用损失值采用梯度下降法(Batch GradientDescent,SGD)对待训练文本生成模型的模型参数进行更新,使得模型参数最优或者局部最优。需要说明的是,在一种情况下,当模型训练的迭代次数达到次数阈值时,满足模型训练条件,此时停止模型训练,并将最后一次更新得到的模型参数作为文本生成模型的模型参数。在另一种情况下,当损失值达到收敛状态时,满足模型训练条件,此时停止模型训练,并将最后一次更新得到的模型参数作为文本生成模型的模型参数。最后,将模型参数保存下来。
再次,本申请实施例中,提供了一种训练得到文本生成模型的方式,通过上述方式,采用待训练样本对集合对文本生成模型进行训练,直至满足模型训练条件,即可输出文本生成模型。基于此,利用机器学习在已有描述的待训练样本对集合上训练,学习到表名信息和表描述信息之间的转换关系,从而便于后续使用训练好的文本生成模型对表描述信息进行预测。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,基于单词序列,通过文本生成模型获取文本概率分布之前,还可以包括:
生成模型调用指令;
向服务器发送模型调用指令,以使服务器根据模型调用指令,确定文本生成模型;
获取文本生成模型;
根据文本概率分布,生成表名信息所对应的表描述信息,具体可以包括:
根据文本概率分布,生成待处理表描述信息;
若待处理表描述信息中存在字满足纠错条件,则将字替换为目标字,得到表描述信息。
本实施例中,介绍了一种基于纠错机制生成表描述信息的方式。首先,表描述信息生成装置在获取到单词序列之后,可直接调用模型接口,即生成模型调用指令,然后向服务器发送该模型调用指令,服务器根据模型调用指令,即可确定所要调用的文本生成模型,于是将该文本生成模型所对应的模型参数传输至表描述信息生成装置。由此,表描述信息生成装置根据模型参数获取相应的文本生成模型。
需要说明的是,文本生成模型可以是一个用于实现文本翻译的模型,即采用自然语言处理(Nature Language processing,NLP)技术对文本进行翻译。其中,NLP是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。NLP是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。NLP技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
由于文本生成模型可能无法识别一些专有词汇,因此,在根据文本概率分布生成表描述信息的过程中,还需要采用纠错机制对初步生成的待处理表描述信息进行纠错处理。为了便于理解,下面将结合一个示例进行介绍。
具体地,假设单词序列为“XiaoLan storehouse storage data”,经过文本生成模型处理后,得到的待处理表描述信息为“小兰仓库库存数据”。于是,对该待处理表描述信息进行检测,检测到“小兰仓库”这个词并非专有名词,而与之音素构成最接近的为“小榄仓库”,因此,将待处理表描述信息中的“兰”字自动替换为目标字“榄”,由此,得到更新后的表描述信息为“小榄仓库库存数据”。可以理解的是,在实际应用中,还可以设定其他的纠错规则,此处仅为一个示意,不应理解为对本申请的限定。
其次,本申请实施例中,提供了一种基于纠错机制生成表描述信息的方式,通过上述方式,能够直接调用模型接口,即直接利用用于文本翻译的文本生成模型对单词序列进行翻译,从而得到翻译后的待处理表描述信息。但考虑到该文本生成模型可能无法识别出单词序列中的一些特殊单词,因此,进一步采用纠错机制对待处理表描述信息中的字进行替换,最终得到合理的表描述信息,由此,无需人工参与即可完成表描述信息的补全,从而提升方案的灵活性和可行性。
可选地,在上述图3对应的实施例的基础上,本申请实施例提供的另一个可选实施例中,获取元数据表中待处理的表名信息,具体可以包括:
提供针对于元数据表的表名输入区域;
通过表名输入区域获取待处理的表名信息;
根据文本概率分布,生成表名信息所对应的表描述信息之后,还可以包括:
显示表描述信息;
或,
向终端设备发送表描述信息,以使终端设备显示表描述信息。
本实施例中,介绍了一种以可视化的形态展示表描述信息的方式。在实际应用中,本申请提供的表描述信息生成装置可作为一个插件,安装在数据库应用中,当开发人员需要获知表描述信息时,直接通过数据库应用提供的界面即可查询。
具体地,为了便于理解,请参阅图10,图10为本申请实施例中显示表描述信息的一个界面示意图,如图10中的(A)图所示的界面,在显示元数据表的界面上,还可以展示一个或多个表名信息,这些表名信息属于待处理的表名信息,由终端设备后台或者服务器后台对其进行处理的预测,由此得到每个表名信息所对应的表描述信息。当用户选择查询某个表名信息时,即可进入如图10中的(B)图所示的界面。由此可见,表名信息为“xxx_offline_data_verify_result_xxxx”,其对应的表描述信息为“离线数据验证结果”。类似地,如果用户查询其他表名信息所对应的表描述信息,则点击该表名信息所对应的“查询”模块即可。
其次,本申请实施例中,提供了一种以可视化的形态展示表描述信息的方式,通过上述方式,可设计一款能够直接将表名信息转换为表描述信息的应用或者插件等,使得用户在表名输入区域中输入表名信息之后,即可直接显示相应的表描述信息,便于用户快速查看该表名信息所对应的表描述信息,从而提升方案的灵活性。
下面对本申请中的表描述信息生成装置进行详细描述,请参阅图11,图11为本申请实施例中表描述信息生成装置的一个实施例示意图,表描述信息生成装置20包括:
获取模块201,用于获取元数据表中待处理的表名信息;
处理模块202,用于对表名信息进行预处理操作,得到单词序列,其中,单词序列包括至少一个单词,单词序列属于第一语种;
获取模块201,还用于基于单词序列,通过文本生成模型获取文本概率分布,其中,文本概率分布包括至少一个字概率分布;
生成模块203,用于根据文本概率分布,生成表名信息所对应的表描述信息,其中,表描述信息包括至少一个字,至少一个字中的每个字对应于一个字概率分布,表描述信息属于第二语种,第二语种与第一语种属于不同的语种。
本申请实施例中,提供了一种表描述信息装置生成装置,采用上述装置,利用机器学习训练得到的文本生成模型能够实现表名信息与表描述信息之间的转换,因此,采用文本生成模型对表名信息进行转换,无需人工参与也可以自动补全表名信息对应的表描述信息,从而降低了人工成本,提升了工作效率,有利于实现业务的正常运行。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的表描述信息生成装置20的另一实施例中,
处理模块202,具体用于对表名信息进行分词处理,得到待处理序列;
对待处理序列进行去噪处理,得到单词序列,其中,去噪处理包括去除预设符号,去除开头词,去除结束词中的至少一项。
本申请实施例中,提供了一种表描述信息装置生成装置,采用上述装置,对表名信息进行一系列预处理,得到符合规则的单词序列,这样一方面能够规范化模型的输入,有利于模型输出合理的结果,另一方面,能够减少无用符号或者字符的影响,提供模型输出的准确性。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的表描述信息生成装置20的另一实施例中,文本生成模型包括循环神经网络RNN;
获取模块201,具体用于根据单词序列生成至少一个词向量,其中,至少一个词向量中的词向量与单词序列中的单词具有对应关系;
调用文本生成模型所包括的编码器,对至少一个词向量进行编码处理,得到句子编码向量;
调用文本生成模型所包括的解码器,对句子编码向量进行解码处理,得到文本概率分布。
本申请实施例中,提供了一种表描述信息装置生成装置,采用上述装置,利用RNN结构对单词序列进行编码和解码,由此完成对单词序列的转换,即得到文本概率分布,最后,既可以通过文本生成模型的输出层输出表描述信息,也可以直接基于解码器输出的文本概率分布计算出表描述信息,从而实现自动补全表描述信息的功能,提升方案的可行性和可操作性。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的表描述信息生成装置20的另一实施例中,
获取模块201,具体用于调用文本生成模型所包括的编码器,对至少一个词向量中的第i个词向量以及第(i-1)个单词所对应的融合词向量进行编码处理,得到第i个单词所对应的融合词向量,其中,i为大于或等于1的整数;
根据第i个单词所对应的融合词向量以及第i个单词所对应的网络参数,获取第i个单词所对应的权重值;
根据第i个单词所对应的权重值以及第i个单词所对应的融合词向量,获取第i个单词所对应的字编码向量;
根据至少一个单词中每个单词所对应的字编码向量,获取句子编码向量。
本申请实施例中,提供了一种表描述信息装置生成装置,采用上述装置,可采用RNN结构的编码器对单词序列进行编码,以得到句子编码向量,由此提升方案的可行性和可操作性。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的表描述信息生成装置20的另一实施例中,
获取模块201,具体用于调用文本生成模型所包括的解码器,对句子编码向量、第(t-1)个索引字向量以及第(t-1)个解码字向量进行解码处理,得到第t个解码字向量,其中,索引字向量表示根据索引值确定的词向量,t为大于或等于1的整数;
根据第t个解码字向量、句子编码向量以及第(t-1)个索引字向量,获取第t个字所对应的字概率分布;
根据每个字所对应的字概率分布,获取文本概率分布。
本申请实施例中,提供了一种表描述信息装置生成装置,采用上述装置,可采用RNN结构的解码器对句子编码向量进行编码,以得到文本概率分布,由此提升方案的可行性和可操作性。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的表描述信息生成装置20的另一实施例中,文本生成模型包括双向长短期记忆网络BI-LSTM;
获取模块201,具体用于调用文本生成模型所包括的前向编码器对单词序列进行编码处理,得到第一句子编码向量;
调用文本生成模型所包括的后向编码器对单词序列进行编码处理,得到第二句子编码向量;
根据第一句子编码向量以及第二句子编码向量,生成目标句子编码向量,其中,目标句子编码向量包括至少一个词编码向量;
基于目标句子编码向量,通过文本生成模型所包括的注意力网络获取至少一个注意力权重值;
基于至少一个注意力权重值,调用文本生成模型所包括的解码器进行解码处理,得到文本概率分布。
本申请实施例中,提供了一种表描述信息装置生成装置,采用上述装置,利用BI-LSTM结构对单词序列进行编码,并基于注意力网络确定解码后的字需要更注重编码中的哪个单词,由此完成对单词序列的转换,即得到文本概率分布,最后,既可以通过文本生成模型的输出层输出表描述信息,也可以直接基于解码器输出的文本概率分布计算出表描述信息,从而实现自动补全表描述信息的功能,提升方案的可行性和可操作性。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的表描述信息生成装置20的另一实施例中,
获取模块201,具体用于调用文本生成模型所包括的前向编码器,对第t个前向单词的索引值、第(t-1)个前向记忆单元以及第(t-1)个前向语义向量进行编码处理,得到第t个前向记忆单元以及第t个前向语义向量,其中,t为大于或等于1的整数;
根据第t个前向语义向量获取第一句子编码向量;
获取模块201,具体用于调用文本生成模型所包括的后向编码器,对第t个后向单词的索引值、第(t-1)个后向记忆单元以及第(t-1)个后向语义向量进行编码处理,得到第t个后向记忆单元以及第t个后向语义向量,其中,第t个后向单词索引值表示单词序列中在第t个时刻所对应的后向单词的索引值;
根据第t个后向语义向量获取第二句子编码向量。
本申请实施例中,提供了一种表描述信息装置生成装置,采用上述装置,可采用BI-LSTM结构的编码器对单词序列进行编码,以得到句子编码向量,由此提升方案的可行性和可操作性。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的表描述信息生成装置20的另一实施例中,
获取模块201,具体用于调用文本生成模型所包括的注意力网络,对第(k-1)个解码字向量以及目标句子编码向量中的第s个词编码向量进行处理,得到第t个单词与第s个单词之间的单词关联程度,其中,t为大于或等于1的整数,s为大于或等于1的整数,k为大于或等于1的整数;
根据单词关联程度以及总关联程度,获取第t个单词与第s个单词之间的归一化关联程度;
根据第t个单词与第s个单词之间的归一化关联程度以及第s个词编码向量,获取第t个注意力权重值;
根据第t个注意力权重值获取至少一个注意力权重值。
本申请实施例中,提供了一种表描述信息装置生成装置,采用上述装置,能够决定需要关注输入的哪部分,并且分配有限的信息处理资源给重要的部分。引入注意力机制能够将单词序列中每个位置的信息都保存下来,在解码过程中生成每一个目标语言的字时,通过注意力机制直接从单词序列的信息中选择相关的信息作为辅助,这样的方式就可以有效地解决上面的两个问题,第一是无需让单词序列中所有信息都通过编码向量进行传递,在解码的每一步都可以直接访问单词序列的所有位置上的信息,第二是单词序列的信息可以直接传递到解码过程中的每一步,缩短了信息传递的距离。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的表描述信息生成装置20的另一实施例中,
获取模块201,具体用于调用文本生成模型所包括的解码器,对至少一个注意力权重值中的第t个注意力权重值、第(k-1)个索引字向量以及第(k-1)个解码字向量进行解码处理,得到第k个解码字向量,其中,t为大于或等于1的整数,k为大于或等于1的整数;
根据第k个解码字向量、第t个注意力权重值以及第(k-1)个索引字向量,获取第k个字所对应的字概率分布;
根据每个字所对应的字概率分布,获取文本概率分布。
本申请实施例中,提供了一种表描述信息装置生成装置,采用上述装置,可采用BI-LSTM结构的解码器对句子编码向量进行编码,以得到文本概率分布,由此提升方案的可行性和可操作性。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的表描述信息生成装置20的另一实施例中,表描述信息生成装置20包括训练模块204;
获取模块201,还用于基于单词序列,通过文本生成模型获取文本概率分布之前,获取待训练样本对集合,其中,待训练样本对集合包括至少一个待训练样本对,每个待训练样本对包括待训练表名信息以及待训练表描述信息,待训练表名信息属于第一语种,待训练表描述信息属于第二语种;
处理模块202,还用于针对于待训练样本对集合中的每个待训练样本对,对待训练表名信息进行预处理操作,得到待训练表名信息所对应的待训练单词序列,其中,待训练单词序列包括至少一个单词;
获取模块201,还用于针对于待训练样本对集合中的每个待训练样本对,基于待训练表名信息所对应的待训练单词序列,通过待训练文本生成模型获取待训练单词序列所对应的预测文本概率分布,其中,预测文本概率分布包括至少一个字概率分布;
训练模块204,用于针对于待训练样本对集合中的每个待训练样本对,根据预测文本概率分布以及待训练表描述信息,对待训练文本生成模型的模型参数进行更新,直至满足模型训练条件,得到文本生成模型。
本申请实施例中,提供了一种表描述信息装置生成装置,采用上述装置,采用待训练样本对集合对文本生成模型进行训练,直至满足模型训练条件,即可输出文本生成模型。基于此,利用机器学习在已有描述的待训练样本对集合上训练,学习到表名信息和表描述信息之间的转换关系,从而便于后续使用训练好的文本生成模型对表描述信息进行预测。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的表描述信息生成装置20的另一实施例中,表描述信息生成装置包括发送模块205;
生成模块203,还用于在获取模块201基于单词序列,通过文本生成模型获取文本概率分布之前,生成模型调用指令;
发送模块205,用于向服务器发送模型调用指令,以使服务器根据模型调用指令,确定文本生成模型;
获取模块201,还用于获取文本生成模型;
生成模块203,具体用于根据文本概率分布,生成待处理表描述信息;
若待处理表描述信息中存在字满足纠错条件,则将字替换为目标字,得到表描述信息。
本申请实施例中,提供了一种表描述信息装置生成装置,采用上述装置,能够直接调用模型接口,即直接利用用于文本翻译的文本生成模型对单词序列进行翻译,从而得到翻译后的待处理表描述信息。但考虑到该文本生成模型可能无法识别出单词序列中的一些特殊单词,因此,进一步采用纠错机制对待处理表描述信息中的字进行替换,最终得到合理的表描述信息,由此,无需人工参与即可完成表描述信息的补全,从而提升方案的灵活性和可行性。
可选地,在上述图11所对应的实施例的基础上,本申请实施例提供的表描述信息生成装置20的另一实施例中,表描述信息生成装置20包括显示模块206;
获取模块201,具体用于提供针对于元数据表的表名输入区域;
通过表名输入区域获取待处理的表名信息;
显示模块206,用于在生成模块203根据文本概率分布,生成表名信息所对应的表描述信息之后,显示表描述信息;
或,
向终端设备发送表描述信息,以使终端设备显示表描述信息。
本申请实施例中,提供了一种表描述信息装置生成装置,采用上述装置,可设计一款能够直接将表名信息转换为表描述信息的应用或者插件等,使得用户在表名输入区域中输入表名信息之后,即可直接显示相应的表描述信息,便于用户快速查看该表名信息所对应的表描述信息,从而提升方案的灵活性。
本申请实施例还提供了另一种表描述信息生成装置,该表描述信息生成装置部署于终端设备,如图12所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端设备(Point of Sales,POS)、车载电脑等任意终端设备,以终端设备为电脑为例:
图12示出的是与本申请实施例提供的终端设备相关的电脑的部分结构的框图。参考图12,电脑包括:射频(Radio Frequency,RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless fidelity,WiFi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解,图12中示出的电脑结构并不构成对电脑的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图12对电脑的各个构成部件进行具体的介绍:
RF电路310可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器380处理;另外,将设计上行的数据发送给基站。通常,RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier,LNA)、双工器等。此外,RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器320可用于存储软件程序以及模块,处理器380通过运行存储在存储器320的软件程序以及模块,从而执行电脑的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电脑的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器320可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元330可用于接收输入的数字或字符信息,以及产生与电脑的用户设置以及功能控制有关的键信号输入。具体地,输入单元330可包括触控面板331以及其他输入设备332。触控面板331,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板331可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器380,并能接收处理器380发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331,输入单元330还可以包括其他输入设备332。具体地,其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元340可用于显示由用户输入的信息或提供给用户的信息以及电脑的各种菜单。显示单元340可包括显示面板341,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板341。进一步的,触控面板331可覆盖显示面板341,当触控面板331检测到在其上或附近的触摸操作后,传送给处理器380以确定触摸事件的类型,随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图12中,触控面板331与显示面板341是作为两个独立的部件来实现电脑的输入和输入功能,但是在某些实施例中,可以将触控面板331与显示面板341集成而实现电脑的输入和输出功能。
电脑还可包括至少一种传感器350,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板341的亮度,接近传感器可在电脑移动到耳边时,关闭显示面板341和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电脑姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于电脑还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路360、扬声器361,传声器362可提供用户与电脑之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号,传输到扬声器361,由扬声器361转换为声音信号输出;另一方面,传声器362将收集的声音信号转换为电信号,由音频电路360接收后转换为音频数据,再将音频数据输出处理器380处理后,经RF电路310以发送给比如另一电脑,或者将音频数据输出至存储器320以便进一步处理。
WiFi属于短距离无线传输技术,电脑通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块370,但是可以理解的是,其并不属于电脑的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器380是电脑的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器320内的软件程序和/或模块,以及调用存储在存储器320内的数据,执行电脑的各种功能和处理数据,从而对电脑进行整体监控。可选的,处理器380可包括一个或多个处理单元;可选的,处理器380可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器380中。
电脑还包括给各个部件供电的电源390(比如电池),可选的,电源可以通过电源管理系统与处理器380逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,电脑还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该终端设备所包括的处理器380还具有以下功能:
获取元数据表中待处理的表名信息;
对表名信息进行预处理操作,得到单词序列,其中,单词序列包括至少一个单词,单词序列属于第一语种;
基于单词序列,通过文本生成模型获取文本概率分布,其中,文本概率分布包括至少一个字概率分布;
根据文本概率分布,生成表名信息所对应的表描述信息,其中,表描述信息包括至少一个字,至少一个字中的每个字对应于一个字概率分布,表描述信息属于第二语种,第二语种与第一语种属于不同的语种。
可选地,处理器380具体用于执行如下步骤:
根据单词序列生成至少一个词向量,其中,至少一个词向量中的词向量与单词序列中的单词具有对应关系;
调用文本生成模型所包括的编码器,对至少一个词向量进行编码处理,得到句子编码向量;
调用文本生成模型所包括的解码器,对句子编码向量进行解码处理,得到文本概率分布。
可选地,处理器380具体用于执行如下步骤:
调用文本生成模型所包括的前向编码器对单词序列进行编码处理,得到第一句子编码向量;
调用文本生成模型所包括的后向编码器对单词序列进行编码处理,得到第二句子编码向量;
根据第一句子编码向量以及第二句子编码向量,生成目标句子编码向量,其中,目标句子编码向量包括至少一个词编码向量;
基于目标句子编码向量,通过文本生成模型所包括的注意力网络获取至少一个注意力权重值;
基于至少一个注意力权重值,调用文本生成模型所包括的解码器进行解码处理,得到文本概率分布。
可选地,处理器380还用于执行如下步骤:
生成模型调用指令;
向服务器发送模型调用指令,以使服务器根据模型调用指令,确定文本生成模型;
获取文本生成模型;
处理器380具体用于执行如下步骤:
根据文本概率分布,生成待处理表描述信息;
若待处理表描述信息中存在字满足纠错条件,则将字替换为目标字,得到表描述信息。
可选地,处理器380具体用于执行如下步骤:
提供针对于元数据表的表名输入区域;
通过表名输入区域获取待处理的表名信息;
处理器380还用于执行如下步骤:
显示表描述信息。
上述实施例中由终端设备所执行的步骤可以基于该图12所示的终端设备结构。
本申请实施例还提供了另一种表描述信息生成装置,该表描述信息生成装置部署于服务器,图13是本申请实施例提供的一种服务器结构示意图,该服务器400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)422(例如,一个或一个以上处理器)和存储器432,一个或一个以上存储应用程序442或数据444的存储介质430(例如一个或一个以上海量存储设备)。其中,存储器432和存储介质430可以是短暂存储或持久存储。存储在存储介质430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器422可以设置为与存储介质430通信,在服务器400上执行存储介质430中的一系列指令操作。
服务器400还可以包括一个或一个以上电源426,一个或一个以上有线或无线网络接口450,一个或一个以上输入输出接口458,和/或,一个或一个以上操作系统441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器结构。
本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行如前述各个实施例描述的方法。
本申请实施例中还提供一种包括程序的计算机程序产品,当其在计算机上运行时,使得计算机执行前述各个实施例描述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (15)

1.一种表描述信息的生成方法,其特征在于,包括:
获取元数据表中待处理的表名信息;
对所述表名信息进行预处理操作,得到单词序列,其中,所述单词序列包括至少一个单词,所述单词序列属于第一语种;
基于所述单词序列,通过文本生成模型获取文本概率分布,其中,所述文本概率分布包括至少一个字概率分布;
根据所述文本概率分布,生成所述表名信息所对应的表描述信息,其中,所述表描述信息包括至少一个字,所述至少一个字中的每个字对应于一个字概率分布,所述表描述信息属于第二语种,所述第二语种与所述第一语种属于不同的语种。
2.根据权利要求1所述的生成方法,其特征在于,所述对所述表名信息进行预处理操作,得到单词序列,包括:
对所述表名信息进行分词处理,得到待处理序列;
对所述待处理序列进行去噪处理,得到所述单词序列,其中,所述去噪处理包括去除预设符号,去除开头词,去除结束词中的至少一项。
3.根据权利要求1所述的生成方法,其特征在于,所述文本生成模型包括循环神经网络RNN;
所述基于所述单词序列,通过文本生成模型获取文本概率分布,包括:
根据所述单词序列生成至少一个词向量,其中,所述至少一个词向量中的词向量与所述单词序列中的单词具有对应关系;
调用所述文本生成模型所包括的编码器,对所述至少一个词向量进行编码处理,得到句子编码向量;
调用所述文本生成模型所包括的解码器,对所述句子编码向量进行解码处理,得到所述文本概率分布。
4.根据权利要求3所述的生成方法,其特征在于,所述调用所述文本生成模型所包括的编码器,对所述至少一个词向量进行编码处理,得到句子编码向量,包括:
调用所述文本生成模型所包括的编码器,对所述至少一个词向量中的第i个词向量以及第(i-1)个单词所对应的融合词向量进行编码处理,得到第i个单词所对应的融合词向量,其中,所述i为大于或等于1的整数;
根据所述第i个单词所对应的融合词向量以及所述第i个单词所对应的网络参数,获取所述第i个单词所对应的权重值;
根据所述第i个单词所对应的权重值以及所述第i个单词所对应的融合词向量,获取所述第i个单词所对应的字编码向量;
根据所述至少一个单词中每个单词所对应的字编码向量,获取所述句子编码向量。
5.根据权利要求3所述的生成方法,其特征在于,所述调用所述文本生成模型所包括的解码器,对所述句子编码向量进行处理,得到所述文本概率分布,包括:
调用所述文本生成模型所包括的解码器,对所述句子编码向量、第(t-1)个索引字向量以及第(t-1)个解码字向量进行解码处理,得到第t个解码字向量,其中,所述索引字向量表示根据索引值确定的词向量,所述t为大于或等于1的整数;
根据所述第t个解码字向量、所述句子编码向量以及所述第(t-1)个索引字向量,获取第t个字所对应的字概率分布;
根据每个字所对应的字概率分布,获取所述文本概率分布。
6.根据权利要求1所述的生成方法,其特征在于,所述文本生成模型包括双向长短期记忆网络BI-LSTM;
所述基于所述单词序列,通过文本生成模型获取文本概率分布,包括:
调用所述文本生成模型所包括的前向编码器对所述单词序列进行编码处理,得到第一句子编码向量;
调用所述文本生成模型所包括的后向编码器对所述单词序列进行编码处理,得到第二句子编码向量;
根据所述第一句子编码向量以及所述第二句子编码向量,生成目标句子编码向量,其中,所述目标句子编码向量包括至少一个词编码向量;
基于所述目标句子编码向量,通过所述文本生成模型所包括的注意力网络获取至少一个注意力权重值;
基于所述至少一个注意力权重值,调用所述文本生成模型所包括的解码器进行解码处理,得到所述文本概率分布。
7.根据权利要求6所述的生成方法,其特征在于,所述调用所述文本生成模型所包括的前向编码器对所述单词序列进行编码处理,得到第一句子编码向量,包括:
调用所述文本生成模型所包括的前向编码器,对第t个前向单词的索引值、第(t-1)个前向记忆单元以及第(t-1)个前向语义向量进行编码处理,得到第t个前向记忆单元以及所述第t个前向语义向量,其中,所述t为大于或等于1的整数;
根据所述第t个前向语义向量获取所述第一句子编码向量;
所述调用所述文本生成模型所包括的后向编码器对所述单词序列进行编码处理,得到第二句子编码向量,包括:
调用所述文本生成模型所包括的后向编码器,对第t个后向单词的索引值、第(t-1)个后向记忆单元以及第(t-1)个后向语义向量进行编码处理,得到第t个后向记忆单元以及所述第t个后向语义向量,其中,所述第t个后向单词索引值表示所述单词序列中在所述第t个时刻所对应的后向单词的索引值;
根据所述第t个后向语义向量获取所述第二句子编码向量。
8.根据权利要求6所述的生成方法,其特征在于,所述基于所述目标句子编码向量,通过所述文本生成模型所包括的注意力网络获取至少一个注意力权重值,包括:
调用所述文本生成模型所包括的注意力网络,对第(k-1)个解码字向量以及所述目标句子编码向量中的第s个词编码向量进行处理,得到第t个单词与第s个单词之间的单词关联程度,其中,所述t为大于或等于1的整数,所述s为大于或等于1的整数,所述k为大于或等于1的整数;
根据所述单词关联程度以及总关联程度,获取所述第t个单词与所述第s个单词之间的归一化关联程度;
根据所述第t个单词与所述第s个单词之间的归一化关联程度以及所述第s个词编码向量,获取第t个注意力权重值;
根据所述第t个注意力权重值获取所述至少一个注意力权重值。
9.根据权利要求6所述的生成方法,其特征在于,所述基于所述至少一个注意力权重值,调用所述文本生成模型所包括的解码器进行解码处理,得到所述文本概率分布,包括:
调用所述文本生成模型所包括的解码器,对所述至少一个注意力权重值中的第t个注意力权重值、第(k-1)个索引字向量以及第(k-1)个解码字向量进行解码处理,得到第k个解码字向量,其中,所述t为大于或等于1的整数,所述k为大于或等于1的整数;
根据所述第k个解码字向量、所述第t个注意力权重值以及所述第(k-1)个索引字向量,获取第k个字所对应的字概率分布;
根据每个字所对应的字概率分布,获取所述文本概率分布。
10.根据权利要求1所述的生成方法,其特征在于,所述基于所述单词序列,通过文本生成模型获取文本概率分布之前,所述方法还包括:
获取待训练样本对集合,其中,所述待训练样本对集合包括至少一个待训练样本对,每个待训练样本对包括待训练表名信息以及待训练表描述信息,所述待训练表名信息属于所述第一语种,所述待训练表描述信息属于所述第二语种;
针对于所述待训练样本对集合中的每个待训练样本对,对所述待训练表名信息进行预处理操作,得到所述待训练表名信息所对应的待训练单词序列,其中,所述待训练单词序列包括至少一个单词;
针对于所述待训练样本对集合中的每个待训练样本对,基于所述待训练表名信息所对应的待训练单词序列,通过待训练文本生成模型获取所述待训练单词序列所对应的预测文本概率分布,其中,所述预测文本概率分布包括至少一个字概率分布;
针对于所述待训练样本对集合中的每个待训练样本对,根据所述预测文本概率分布以及所述待训练表描述信息,对所述待训练文本生成模型的模型参数进行更新,直至满足模型训练条件,得到所述文本生成模型。
11.根据权利要求1所述的生成方法,其特征在于,所述基于所述单词序列,通过文本生成模型获取文本概率分布之前,所述方法还包括:
生成模型调用指令;
向服务器发送所述模型调用指令,以使所述服务器根据所述模型调用指令,确定所述文本生成模型;
获取所述文本生成模型;
所述根据所述文本概率分布,生成所述表名信息所对应的表描述信息,包括:
根据所述文本概率分布,生成待处理表描述信息;
若所述待处理表描述信息中存在字满足纠错条件,则将所述字替换为目标字,得到所述表描述信息。
12.根据权利要求1至11中任一项所述的生成方法,其特征在于,所述获取元数据表中待处理的表名信息,包括:
提供针对于所述元数据表的表名输入区域;
通过所述表名输入区域获取所述待处理的表名信息;
所述根据所述文本概率分布,生成所述表名信息所对应的表描述信息之后,所述方法还包括:
显示所述表描述信息;
或,
向终端设备发送所述表描述信息,以使所述终端设备显示所述表描述信息。
13.一种表描述信息生成装置,其特征在于,包括:
获取模块,用于获取元数据表中待处理的表名信息;
处理模块,用于对所述表名信息进行预处理操作,得到单词序列,其中,所述单词序列包括至少一个单词,所述单词序列属于第一语种;
所述获取模块,还用于基于所述单词序列,通过文本生成模型获取文本概率分布,其中,所述文本概率分布包括至少一个字概率分布;
生成模块,用于根据所述文本概率分布,生成所述表名信息所对应的表描述信息,其中,所述表描述信息包括至少一个字,所述至少一个字中的每个字对应于一个字概率分布,所述表描述信息属于第二语种,所述第二语种与所述第一语种属于不同的语种。
14.一种计算机设备,其特征在于,包括:存储器、处理器以及总线系统;
其中,所述存储器用于存储程序;
所述处理器用于执行所述存储器中的程序,所述处理器用于根据程序代码中的指令执行权利要求1至12中任一项所述的生成方法;
所述总线系统用于连接所述存储器以及所述处理器,以使所述存储器以及所述处理器进行通信。
15.一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1至12中任一项所述的生成方法。
CN202110138511.XA 2021-02-01 2021-02-01 一种表描述信息的生成方法、相关装置、设备及存储介质 Active CN114840499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110138511.XA CN114840499B (zh) 2021-02-01 2021-02-01 一种表描述信息的生成方法、相关装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110138511.XA CN114840499B (zh) 2021-02-01 2021-02-01 一种表描述信息的生成方法、相关装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114840499A true CN114840499A (zh) 2022-08-02
CN114840499B CN114840499B (zh) 2024-07-09

Family

ID=82561378

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110138511.XA Active CN114840499B (zh) 2021-02-01 2021-02-01 一种表描述信息的生成方法、相关装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114840499B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227506A (zh) * 2023-05-08 2023-06-06 湘江实验室 一种具有高效非线性注意力结构的机器翻译方法
CN117608873A (zh) * 2023-11-14 2024-02-27 阿尔特汽车技术股份有限公司 信号交互方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062937A (zh) * 2018-06-15 2018-12-21 北京百度网讯科技有限公司 训练描述文本生成模型的方法、生成描述文本的方法及装置
CN110134971A (zh) * 2018-02-08 2019-08-16 腾讯科技(深圳)有限公司 一种机器翻译的方法、设备以及计算机可读存储介质
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN110413972A (zh) * 2019-07-23 2019-11-05 杭州城市大数据运营有限公司 一种基于nlp技术的表名字段名智能补全方法
CN110427617A (zh) * 2019-07-22 2019-11-08 阿里巴巴集团控股有限公司 推送信息的生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110134971A (zh) * 2018-02-08 2019-08-16 腾讯科技(深圳)有限公司 一种机器翻译的方法、设备以及计算机可读存储介质
CN109062937A (zh) * 2018-06-15 2018-12-21 北京百度网讯科技有限公司 训练描述文本生成模型的方法、生成描述文本的方法及装置
US20190384810A1 (en) * 2018-06-15 2019-12-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Method of training a descriptive text generating model, and method and apparatus for generating descriptive text
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN110427617A (zh) * 2019-07-22 2019-11-08 阿里巴巴集团控股有限公司 推送信息的生成方法及装置
CN110413972A (zh) * 2019-07-23 2019-11-05 杭州城市大数据运营有限公司 一种基于nlp技术的表名字段名智能补全方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116227506A (zh) * 2023-05-08 2023-06-06 湘江实验室 一种具有高效非线性注意力结构的机器翻译方法
CN117608873A (zh) * 2023-11-14 2024-02-27 阿尔特汽车技术股份有限公司 信号交互方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114840499B (zh) 2024-07-09

Similar Documents

Publication Publication Date Title
CN110599557B (zh) 图像描述生成方法、模型训练方法、设备和存储介质
CN111428516B (zh) 一种信息处理的方法以及装置
CN108304846B (zh) 图像识别方法、装置及存储介质
CN109543824B (zh) 一种序列模型的处理方法和装置
CN111553162B (zh) 一种意图识别的方法以及相关装置
CN111985240B (zh) 命名实体识别模型的训练方法、命名实体识别方法及装置
CN111816159B (zh) 一种语种识别方法以及相关装置
WO2020108400A1 (zh) 一种文本翻译的方法、装置及存储介质
CN109902296B (zh) 自然语言处理方法、训练方法及数据处理设备
CN110334360A (zh) 机器翻译方法及装置、电子设备及存储介质
CN113821589B (zh) 一种文本标签的确定方法及装置、计算机设备和存储介质
CN111105852A (zh) 一种电子病历推荐方法、装置、终端及存储介质
CN111539212A (zh) 文本信息处理方法、装置、存储介质及电子设备
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN114840499B (zh) 一种表描述信息的生成方法、相关装置、设备及存储介质
CN113761122A (zh) 一种事件抽取方法、相关装置、设备及存储介质
CN112434536A (zh) 文档理解方法、设备和存储介质
CN113392644A (zh) 模型训练、文本信息处理方法、系统、装置和存储介质
CN114547244A (zh) 用于确定信息的方法和装置
CN114328908A (zh) 一种问答语句质检方法、装置及相关产品
CN114840563B (zh) 一种字段描述信息的生成方法、装置、设备及存储介质
CN112328783A (zh) 一种摘要确定方法和相关装置
US20240038223A1 (en) Speech recognition method and apparatus
CN114462539A (zh) 一种内容分类模型的训练方法、内容分类的方法及装置
CN113821609A (zh) 一种答案文本的获取方法及装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant