CN113051875B - 信息转换模型的训练方法、文本信息的转换方法和装置 - Google Patents
信息转换模型的训练方法、文本信息的转换方法和装置 Download PDFInfo
- Publication number
- CN113051875B CN113051875B CN202110304716.0A CN202110304716A CN113051875B CN 113051875 B CN113051875 B CN 113051875B CN 202110304716 A CN202110304716 A CN 202110304716A CN 113051875 B CN113051875 B CN 113051875B
- Authority
- CN
- China
- Prior art keywords
- information
- model
- text
- entity
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 138
- 238000012549 training Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000000605 extraction Methods 0.000 claims abstract description 79
- 230000009466 transformation Effects 0.000 claims description 25
- 238000013145 classification model Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本公开公开了一种信息转换模型的训练方法和装置,以及文本信息的转换方法和装置,应用于电子技术领域,具体应用于自然语言处理领域、深度学习领域和大数据领域。信息转换模型的训练方法的具体实现方案为:获取具有第一标签的第一样本信息,该第一标签指示了基于第一样本信息转换得到的结构化信息;采用实体特征提取模型来从第一样本信息中提取第一实体特征,并采用语义理解模型来从第一样本信息中提取第一语义特征;根据第一实体特征和第一语义特征,采用初始信息转换模型得到针对第一样本信息的预测结构化信息;以及根据预测结构化信息和第一标签指示的结构化信息,训练初始信息转换模型,得到经训练的信息转换模型。
Description
技术领域
本公开涉及电子技术领域,具体涉及自然语言处理领域、深度学习领域和大数据领域,更具体地涉及一种信息转换模型的训练方法和装置,及文本信息的转换方法和装置。
背景技术
企业的知识信息通常存储在数据库中,从数据库中查询知识信息需要使用数据库查询语言,例如结构化查询语言(Structured Query Language,SQL)。
对于普通用户,通常不熟悉甚至不了解数据库查询语言。因此普通用户若想查询知识信息,需要将查询需求提供给数据库操作员,由数据库操作员进行查询。
发明内容
提供了一种提高训练模型的效率和准确性的信息转换模型的训练方法和装置,以及一种提高转换精度的文本信息的转换方法和装置。
根据第一方面,提供了一种信息转换模型的训练方法,该方法包括:获取具有第一标签的第一样本信息,该第一标签指示了基于第一样本信息转换得到的结构化信息;采用实体特征提取模型来从第一样本信息中提取第一实体特征,并采用语义理解模型来从第一样本信息中提取第一语义特征;根据第一实体特征和第一语义特征,采用初始信息转换模型得到针对第一样本信息的预测结构化信息;以及根据预测结构化信息和第一标签指示的结构化信息,训练初始信息转换模型,得到经训练的信息转换模型。
根据第二方面,提供了一种文本信息的转换方法,该方法包括:获取用于查询信息的待转换文本信息,该待转换文本信息包括自然语言文本;采用实体特征提取模型来从待转换文本信息中提取第二实体特征,并采用语义理解模型来从待转换文本信息中提取第二语义特征;以及根据第二实体特征和第二语义特征,经由信息转换模型得到针对待转换文本信息的结构化信息,其中,信息转换模型是使用上述的信息转换模型的训练方法来训练的。
根据第三方面,提供了一种信息转换模型的训练装置,包括:样本信息获取模块,用于获取具有第一标签的第一样本信息,该第一标签指示了基于第一样本信息转换得到的结构化信息;第一特征提取模块,用于采用实体特征提取模型来从第一样本信息中提取第一实体特征,并采用语义理解模型来从第一样本信息中提取第一语义特征;结构化信息获得模块,用于根据第一实体特征和第一语义特征,采用初始信息转换模型得到针对第一样本信息的预测结构化信息;以及转换模型训练模块,用于根据预测结构化信息和第一标签指示的结构化信息,训练初始信息转换模型,得到经训练的信息转换模型。
根据第四方面,提供了一种文本信息的转换装置,包括:文本信息获取模块,用于获取用于查询信息的待转换文本信息,该待转换文本信息包括自然语言文本;第二特征提取模块,用于采用实体特征提取模型来从待转换文本信息中提取第二实体特征,并采用语义理解模型来从待转换文本信息中提取第二语义特征;以及信息转换模块,用于根据第二实体特征和第二语义特征,经由信息转换模型得到针对待转换文本信息的结构化信息,其中,信息转换模型是使用上述的信息转换模型的训练装置来训练的。
根据第五方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的方法。
根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的方法。
根据第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开提供的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例的信息转换模型的训练方法和装置、及文本信息的转换方法和装置的应用场景示意图;
图2是根据本公开实施例的信息转换模型的训练方法的流程图;
图3是根据本公开实施例的生成具有第一标签的第一样本信息的原理图;
图4是根据本公开实施例的信息转换模型的训练方法的原理示意图;
图5是根据本公开实施例的训练实体特征提取模型的原理示意图;
图6是根据本公开实施例的训练语义理解模型的流程图;
图7是根据本公开实施例训练信息转换模型时采用的模型架构图;
图8是根据本公开实施例的文本信息的转换方法的流程图;
图9是根据本公开实施例的信息转换模型的训练装置的结构框图;
图10是根据本公开实施例的文本信息的转换装置的结构框图;以及
图11示出了可以用来实现本公开实施例的信息转换模型的训练方法和/或文本信息的转换方法的电子设备的示意性框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开提供了一种信息转换模型的训练方法,该方法包括样本信息获取阶段、特征提取阶段、结构化信息获得阶段和转换模型训练阶段。在样本信息获取阶段,获取具有第一标签的第一样本信息,该第一标签指示了基于第一样本信息转换得到的结构化信息。在特征提取阶段,采用实体特征提取模型来从第一样本信息中提取第一实体特征,并采用语义理解模型来从第一样本信息中提取第一语义特征。在结构化信息获得阶段,根据第一实体特征和第一语义特征,采用初始信息转换模型得到针对第一样本信息的预测结构化信息。在转换模型训练阶段,根据预测结构化信息和第一标签指示的结构化信息,训练初始信息转换模型,得到经训练的信息转换模型。
以下将结合图1对本公开提供的方法和装置的应用场景进行描述。
图1是根据本公开实施例的信息转换模型的训练方法和装置、及文本信息的转换方法和装置的应用场景示意图。
如图1所示,该实施例的应用场景100可以包括终端设备110、服务器120和数据库130。终端设备110与服务器120之间、服务器120与数据库130之间可以通过网络进行通信。网络包括有线或无线通信链路等。
终端设备110可以为能够提供用户交互界面的电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。该终端设备110例如可以安装有各种客户端应用,例如网页浏览器应用、搜索类应用、网盘类应用、智能办公平台等(仅为示例)。
示例性地,用户可以通过终端设备110输入用于查询信息的自然语言查询语句140,终端设备110可以经由网络将该自然语言查询语句140发送给服务器120,以使得服务器基于该自然语言查询语句140对数据库130进行查询,将查询结果160作为针对自然语言查询语句140的答复语句。
示例性地,服务器120例如可以为应用服务器,用于向终端设备110中运行的客户端应用提供支持。该服务器120可以通过网络访问数据库130,对数据库130中的数据进行读取、增加或删除等操作。
在一实施例中,服务器120可以对接收到的自然语言查询语句140进行转换,以转换为用于查询数据库的结构化查询语句150。通过此方式,在用户需要从数据库130中查询信息时,仅需输入自然语言查询语句即可,无需输入结构化查询语句。其中,结构化查询语句150例如可以为采用SQL语言编写的语句。可以理解的是,终端设备110例如也可以在接收到自然语言查询语句140后,先将自然语言查询语句140转换为结构化查询语句150,把转换得到的结构化查询语句发送给服务器120。
在一实施例中,服务器120例如可以是结合了区块链的服务器。或者,服务器120还可以为虚拟服务器或云服务器等。
在一实施例中,该应用场景100还可以包括用于维护历史查询语句的数据库,服务器120例如可以基于历史查询语句,训练得到用于将自然语言查询语句转换为结构化查询语句的模型。
需要说明的是,本公开提供的信息转换模型的训练方法可以由服务器120执行。本公开提供的文本信息的转换方法可以由服务器120执行,也可以由终端设备110执行。相应地,本公开提供的信息转换模型的训练装置可以设置在服务器120中。本公开提供的文本信息的转换装置可以设置在服务器120中,也可以设置在终端设备110中。
应该理解,图1中的终端设备、服务器和数据库的类型仅仅是示意性的。根据实现需要,可以具有任意类型的终端设备、服务器和数据库。
以下将结合图1描述的应用场景,通过图2~图7对本公开提供的信息转换模型的训练方法进行详细描述。
图2是根据本公开实施例的信息转换模型的训练方法的流程图。
如图2所示,该实施例的信息转换模型的训练方法200可以包括操作S210、操作S230、操作S250和操作S270。
在操作S210,获取具有第一标签的第一样本信息。
根据本公开的实施例,该第一样本信息可以是标注了第一标签的自然语言文本,该自然语言文本例如可以记载有查询语句query。其中,该第一标签指示了基于第一样本信息转换得到的结构化信息。
示例性地,结构化信息可以为用于查询数据库中数据的查询语句,第一标签可以由人工标注。例如,该结构化信息可以为SQL语句。在一实施例中,具有第一标签的第一样本信息还可以由后续生成第一样本信息的方法得到,以实现标签的自动标注。可以理解的是,本公开结构化信息的具体类型不限于上述类型。
在操作S230,采用实体特征提取模型来从第一样本信息中提取第一实体特征,并采用语义理解模型来从第一样本信息中提取第一语义特征。
根据本公开的实施例,实体特征提取模型例如可以用于识别第一样本信息中的实体词,并识别该实体词表达的实体的类别。提取得到的第一实体特征可以包括识别得到的实体类别。例如,该实体特征提取模型例如可以用于对第一样本信息进行实体类型标注,第一实体特征可以为标注有实体类型的文本信息,或者与文本信息相对应的实体类别向量。其中,实体类别向量中例如包括指示文本信息中各个词的实体类别的编号等。
示例性地,实体特征提取模型可以为实体识别模型。例如,该实体识别模型可以包括长短期记忆网络模型(Long-short Term memory,LSTM)与条件随机场模型(ConditionalRandom Fields,CRF)相结合构成的模型。可以理解的是,上述实体特征提取模型仅作为示例以利于理解本公开,该实体特征提取模型例如还可以为联合的词法分析模型(LexicalAnalysis of Chinese,LAC)等,本公开对此不做限定。
示例性地,实体类别例如可以根据实际需求进行设定,例如,该实体类别可以包括姓名、项目名称、科室名称、会议室名称、地点等。
根据本公开的实施例,语义理解模型例如可以为双向转换编码器(BidirectionalEncoder Representation from Transformers,BERT)模型、基于知识图谱增强BERT语言表征模型(Ernie)等。该语义理解模型提取的语义特征为语义矩阵,该语义矩阵中可以包括第一样本信息中每个字的向量表示,或者每个词的向量表示。可以理解的是,上述语义理解模型仅作为示例以利于理解本公开,本公开对此不做限定。
在操作S250,根据第一实体特征和第一语义特征,采用初始信息转换模型得到针对第一样本信息的预测结构化信息。
根据本公开的实施例,初始信息转换模型例如可以为LSTM编码器、LSTM解码器与全连接层构成的模型。可以先对第一实体特征和第一语义特征进行拼接,将拼接得到的特征矩阵作为初始信息转换模型的输入,经由该初始信息转换模型处理后得到预测结构化信息。
可以理解的是,上述实体特征提取模型、语义理解模型和信息转换模型可以构成将用户的自然语句转为可执行SQL语句的技术,即Natural Language to SQL(NL2SQL)技术。在一实施例中,信息转换模型可以采用现有技术中可以应用于NL2SQL技术的任意类型的解码器,例如使用Coarse-to-line机制构建的解码器等,本公开对此不做限定。
在操作S270,根据预测结构化信息和第一标签指示的结构化信息,训练初始信息转换模型,得到经训练的信息转换模型。
根据得到的预测结构化信息和第一标签指示的结构化信息的差异,来确定初始信息转换模型的损失函数的取值。该实施例可以通过梯度下降算法来最小化损失函数,根据损失函数取最小值时信息转换模型中参数的取值,对初始信息转换模型进行调整,从而得到经训练的信息转换模型。
根据本公开的实施例,第一样本信息例如可以为多个,基于多个第一样本信息,可以循环执行操作S230、操作S250和操作S270,以此实现对信息转换模型的不断优化,直至经训练的信息转换模型输出的结构化信息与第一标签指示的结构化信息的差异小于预定值。该预定值可以根据实际需求来设定。在新一轮的训练中,使用当前的信息转换模型替换初始信息转换模型,经前述流程调整得到的模型为经训练的信息转换模型。
综上分析,本公开实施例的信息转换模型的训练方法,在训练时不仅考虑语义特征,还考虑查询语句的实体特征,可以提高对查询语句中特征提取的全面性,并因此便于提高对信息转换模型训练的准确性,提高经训练的信息转换模型的精度。
图3是根据本公开实施例的生成具有第一标签的第一样本信息的原理图。
根据本公开的实施例,在对信息转换模型进行训练之前,可以先生成具有第一标签的第一样本信息,以将该第一样本信息作为训练数据对信息转换模型进行训练。在生成第一样本信息的过程中,例如可以采用文本模板生成文本信息,采用标签模板生成针对文本信息的标签,从而实现文本信息的自动生成和标注。相较于相关技术中需要对文本信息进行人工标注的技术方案,可以有效提高样本信息的生成效率,降低样本信息的生成成本。
示例性地,在生成第一样本信息时,可以先获取用于查询信息的关键词。该关键词例如可以通过输入得到,或者可以从历史查询语句中提取得到。例如,该实施例可以维护有关键词库,该关键词库例如可以包括从历史查询语句中提取得到的关键词,还包括与该提取得到的关键词相近的其他关键词。
在得到关键词后,可以基于关键词和第一预定文本模板,得到包含关键词的第一文本信息。例如可以将关键词作为第一预定文本模板中变量的取值,得到包含关键词的文本信息。如图3所示,在实施例300中,若关键词310为“a”,该“a”为姓名,第一预定文本模板320为“{查}{}的{电话}”,则得到的第一文本信息可以为“{查}{a}的{电话}”。可以理解的是,该第一预定文本模板仅作为示例以利于理解本公开,在变量为姓名的文本模板为多个的情况下,为了准确确定第一预定文本模板,获取的关键词例如可以为多个。例如,获取的关键词还可以包括“电话”。可以理解的是,上述第一预定文本模板“{查}{}的{电话}”中的词“查”可以采用同义词“看一看”、“查找”、“找到”等词进行替换,词“电话”还可以采用“座机”、“手机号”、“联系方式”等词进行替换。
在得到关键词后,可以基于关键词和第一预定标签模板,得到包含关键词的第一标签。例如可以将关键词作为第一预定标签模板中变量的取值,得到包含关键词的标签。如图3所示,在实施例300中,若第一预定标签模板330为“Select phone from user_tablewhere username={}”,则得到的第一标签可以为“Select phone from user_table whereusername={a}”。可以理解的是,在标签模板的表述语言与关键词的表述语言不一致时,例如还可以从关键词库中查找到与关键词表达相同含义、且与标签模板的表述语言相一致的词,将该查找到的词作为第一预定标签模板中变量的取值,得到第一标签。
在得到第一标签和第一文本信息后,可以将包含关键词的第一标签作为第一文本信息的标签,以生成具有第一标签的第一样本信息。例如,在实施例300中,使用第一标签“Select phone from user_table where username={a}”标注第一文本信息“{查}{a}的{电话}”,可以得到第一样本信息340。
图4是根据本公开实施例的信息转换模型的训练方法的原理示意图。
根据本公开的实施例,可以使用多任务联合学习的方法来对信息转换模型进行训练,以此提高训练得到的信息转换模型的泛化能力。例如,用于查询数据库中数据的结构化信息的格式通常为固定格式,结构化信息中各词的词性通常是固定的。该实施例可以将词性预测任务与信息转换任务相联合,以此向信息转换模型的训练进行辅助,在提高信息转换模型的泛化能力的同时,提高信息转换模型的训练精度。
示例性地,前述获取的第一样本信息除了第一标签外,还可以具有第二标签。该第二标签指示针对第一样本信息的词性信息,以便于向基于训练过程中词性预测任务的预测结果来对信息转换模型进行训练提供参考。
如图4所示,在实施例400中,词性预测任务例如可以通过词性预测模型430来完成,信息转换任务通过信息转换模型420来完成。在对信息转换模型进行训练时,可以在根据第一实体特征411和第一语义特征412,经由信息转换模型420得到针对第一样本信息的预测结构化信息440的同时,根据第一实体特征411和第一语义特征412,经由词性预测模型430得到针对第一样本信息的预测词性信息450。其中,信息转换模型420和词性预测模型430可以共享除输出层外的其他层。
示例性地,如图4所示,信息转换模型420由LSTM模型401和全连接层402构成,全连接层为信息转换模型420的输出层。词性预测模型430由LSTM模型401和CRF模型403构成,CRF模型作为词性预测模型430的输出层。信息转换模型420中的LSTM模型与词性预测模型430中的LSTM模型的结构,该两个模型中的LSTM模型的参数同步调整。其中,LSTM模型例如可以包括依次拼接的LSTM编码器和LSTM解码器。
在训练初始信息转换模型时,如图4所示,可以根据预测结构化信息440和第一标签460指示的结构化信息之间的差异以及预测词性信息450和第二标签470指示的词性信息之间的差异,来确定初始信息转换模型的损失函数的取值。类似地,采用提取下降算法来训练初始信息转换模型。例如,可以基于前述两种差异来调整LSTM模型401中参数的取值,基于预测结构化信息440和第一标签460指示的结构化信息之间的差异调整全连接层402中参数的取值,基于预测词性信息450和第二标签470指示的词性信息之间的差异来调整CRF模型403中参数的取值。
根据本公开的实施例,在第一样本信息还包括第二标签时,前文生成第一样本信息时所采用的第一预定标签模板可以包括用于生成第一标签的模板和用于生成第二标签的模板。每个第一预定文本模板与一个生成第一标签的模板及一个生成第二标签的模板相对应。例如,在第一预定文本模板为“{查}{}的{电话}”时,对应的生成第二标签的模板可以为“select colname from tablename where colname=value”。可以理解的是,上述生成第二标签的模板仅作为示例以利于理解本公开,本公开对此不做限定。
图5是根据本公开实施例的训练实体特征提取模型的原理示意图。
根据本公开的实施例,前述实体特征提取模型例如可以采用自然语言语料库训练得到。在本公开中,在使用实体特征提取模型提取样本信息的实体特征之前,例如可以先采用具体使用场景中的语料对该实体特征提取模型进行训练,以使得该实体特征提取模型能够更好的应用于该具体使用场景。
示例性地,对于查询信息(例如企业知识)的应用场景,可以采用查询信息的语料信息作为训练样本,对实体特征提取模型进行训练。其中,训练样本预先标注有语料信息包含的实体词的类型。
根据本公开的实施例,训练样本例如可以基于具体使用场景中的实体词库、文本模板和标签模板来生成,以此节省人工标注的过程,提高训练样本的生成效率,并提高样本多样性。如此,在训练实体特征提取模型时,如图5所示的实施例500,可以先获取用于查询信息的实体词库510。在一实施例中,实体词库510可以为企业内的实体词库,该实体词库例如可以包括企业内员工名称、企业内项目名称、企业内会议室名称等。然后基于实体词库510、第二预定文本模板520和第二预定标签模板540,生成第二样本信息560。以该第二样本信息560作为训练样本训练实体特征提取模型570。
示例性地,在生成第二样本信息560时,可以先基于实体词库510和第二预定文本模板520,得到包含实体词库中的实体词的第二文本信息530。例如可以先从实体词库510中挑选到可以作为第二预定文本模板520中变量的取值的实体词,随后将该挑选出的实体词代入第二预定文本模板520,得到第二文本信息530。例如,若实体词库510中包括企业内员工名称列表和项目名称列表,第二预定文本模板520为“{姓名}计划在六月三号进行{XX项目}的测试工作”,则可以从实体词库中随机挑选一个员工名称b和一个项目名称B,将该员工名称b和项目名称B代入第二预定文本模板520,得到第二文本信息“{b}计划在六月三号进行{B项目}的测试工作”。可以理解的是,上述第二预定文本模板和实体词库中实体词的类型仅作为示例以利于理解本公开,本公开对此不做限定。
在得到第二文本信息530中,可以基于该第二文本信息530中包括的实体词库中的词和第二预定标签模板540,得到第三标签550,该第三标签可以用于指示第二文本信息包含的实体词的类型。其中,第二预定标签模板与第二预定文本模板相匹配。若第二预定标签模板为“【 】(姓名)计划在六月三号进行【 】(项目名称)的测试工作”,则可以将前述第二文本信息530中包括的实体词(员工名称b和项目名称B)代入该第二预定标签模板540,得到第三标签“【b】(姓名)计划在六月三号进行【B项目】(项目名)的测试工作”。可以理解的是,该第二文本信息和第三标签的生成方法与前文描述的第一文本信息和第一标签的生成方法类似。
在得到第二文本信息530和第三标签550后,可以将第三标签作为第二文本信息的标签,获得第二样本信息。即使用第三标签550标注第二文本信息530,得到第二样本信息。
根据本公开的实施例,在得到第二样本信息时,例如还可以从用于查询信息的历史文本信息中挑选出可以作为训练样本的文本信息,并基于第二预定标签模板为挑选出的文本信息添加标签。通过此方式,可以使得实体特征提取模型的训练样本中包括部分的噪音数据,从而便于提高对实体特征提取模型训练的精度。
如图5所示,该实施例500还可以获取用于查询信息的第一历史文本信息590,该历史文本信息例如可以为企业数据库中自然语言文本形式的查询语句。随后将该历史文本信息590与实体词库510中的实体词进行匹配,以从历史文本信息中挑选出包含实体词库中的实体词的文本信息,该挑选出的文本信息可以作为第二文本信息530,并通过将匹配到的实体词代入第二预定标签模板540来得到该挑选出的文本信息的标签,得到训练样本。
在得到第二样本信息560后,可以将该第二样本信息560作为实体特征提取模型570的输入,经由实体特征提取模型570处理后得到预测实体特征580。随后,基于该预测实体特征580与第三标签550指示的实体特征的差异来对实体特征提取模型570中的参数进行调整,实现对实体特征提取模型570的训练。
图6是根据本公开实施例的训练语义理解模型的流程图。
根据本公开的实施例,前述语义理解模型例如可以采用自然语言语料库训练得到。在本公开中,在使用语义理解模型提取样本信息的语义特征之前,例如可以先采用具体使用场景中的语料对该语义理解模型进行训练,以使得该语义理解模型能够更好的应用于该具体使用场景。
示例性地,该实施例在采用语义理解模型提取第一样本信息的语义特征之前,可以先采用用于查询信息的语料对该语义理解模型进行训练。具体地,如图6所示,在对该语义理解模型进行训练时,可以先执行操作S601,获取第二历史文本信息,该历史文本信息例如可以为企业数据库中自然语言文本形式的语句,即历史文本信息包括自然语言文本。然后执行操作S603,基于第二历史文本信息训练语义理解模型。即将历史文本信息作为训练样本,训练语义理解模型。在一实施例中,第二历史文本信息可以包括企业内部论坛中的文章、专业的企业知识管理与协同软件(Confluence)中的笔记、企业新闻以及项目资料等文本信息。
根据本公开的实施例,语义理解模型的输入除了文本信息外,例如还可以包括存储文本信息所查询信息的表的属性信息。以此使得基于转换得到的结构化信息查询数据时,可以快速定位到数据所在表,从而提高基于结构化信息查询数据的查询效率,提高转换得到的结构化信息的准确性。
示例性地,前述在采用语义理解模型从第一样本信息中提取第一语义特征时,可以基于第一样本信息和第一样本信息所查询信息的存储信息,来提取语义特征。其中,存储信息即为存储所查询信息的数据库的属性信息,该属性信息例如可以包括数据库包括的数据表的表头、列名等。
根据本公开的实施例,第一样本信息包括用于查询信息的自然语言文本。在采用语义理解模型提取语义特征时,例如可以先采用预定分类模型来确定第一样本信息所查询信息的存储信息。随后基于第一样本信息和存储信息,采用语义理解模型提取得到第一语义特征。
示例性地,预定分类模型的输入例如可以为第一样本信息中第一文本信息的词向量,输出例如可以为所查询信息所在数据库的编码。可以根据预先维护的数据库编码与数据表表头、列名的映射关系,确定所查询信息所在数据库的所有数据表的表头,和所有数据列的列名,将该所查询信息所在数据库的所有数据表的表头和所有数据列的列名作为存储信息。
示例性地,预定分类模型例如可以为逻辑回归模型,或者可以基于以下算法中的任一算法来构建得到:softmax激活函数、k最近邻算法、决策树算法、朴素贝叶斯算法。可以理解的是,上述预定分类模型仅作为示例以利于理解本公开,本公开对此不做限定。
图7是根据本公开实施例训练信息转换模型时采用的模型架构图。
根据本公开的实施例,在训练信息转换模型时,例如可以采用如图7所示的模型架构700,该模型架构700可以包括实体特征提取模型720、BERT编码器730、LSTM编码解码器750、全连接层760和CRF层770。其中,实体特征提取模型720的输入基于查询语句711获得,BERT编码器的输入基于存储信息712和查询语句获得。实体特征提取模型720的输出为查询语句的实体特征741,BERT编码器的输出为输入信息的语义特征742。该实体特征741与语义特征742拼接后作为LSTM编码解码器750的输入。LSTM编码解码器750的输出作为全连接层760和CRF层770的输入,经由全连接层760可以输出SQL语句781,经由CRF层可以输出预测词性信息782。其中,LSTM编码解码器为LSTM编码器和LSTM解码器拼接构成,LSTM编码器的输出作为LSTM解码器的输入。
示例性地,查询语句可以为前文描述的第一样本信息,存储信息可以为前述存储查询语句所查询信息的数据库的属性信息。LSTM编码解码器750和全连接层760拼接构成前文描述的信息转换模型,LSTM编码解码器750和CRF层拼接构成前文描述的词性预测模型。SQL语句为前文描述的结构化信息。实体特征提取模型、BERT编码器、LSTM编码解码器和全连接层相结合可以实现将自然语句转换为可执行的SQL语句的技术。
以下将结合图8,对本公开提供的文本信息的转换方法进行描述。
图8是根据本公开实施例的文本信息的转换方法的流程图。
如图8所示,该实施例的文本信息的转换方法800包括操作S820、操作S840和操作S860。
在操作S820,获取用于查询信息的待转换文本信息,该待转换文本信息包括自然语言文本。
根据本公开的实施例,该待转换文本信息可以为用户输入的查询语句,用于查询数据库中的数据。其中,数据库例如可以为企业内的知识数据库,查询语句可以由自然语言表达。
在操作S840,采用实体特征提取模型来从待转换文本信息中提取第二实体特征,并采用语义理解模型来从待转换文本信息中提取第二语义特征。
根据本公开的实施例,采用实体特征提取模型来从待转换文本信息中提取第二实体特征的方法与前文描述的采用实体特征提取模型从第一样本信息中提取第一实体特征的方法类似,采用语义理解模型来从待转换文本信息中提取第二语义特征的方法与前文描述的采用语义理解模型来从第一样本信息中提取第一语义特征的方法类似,在此不再赘述。
在操作S860,根据第二实体特征和第二语义特征,经由信息转换模型得到针对待转换文本信息的结构化信息。
根据本公开的实施例,信息转换模型可以为经由前文描述的信息转换模型的训练方法训练得到。该操作可以将第二实体特征和第二语义特征拼接为特征矩阵后输入信息转换模型,由信息转换模型输出结构化信息。
根据本公开的实施例,在采用语义理解模型来从待转换文本信息中提取第二语义特征时,可以先采用预定分类模型确定待转换文本信息所查询信息的存储信息。该预定分类模型与前文描述的预定分类模型相同,该存储信息与前文描述的第一样本信息所查询信息的存储信息类似,在此不再赘述。随后基于存储信息和待转换文本信息,采用语义理解模型提取得到第二语义特征。即以存储信息和待转换文本信息作为语义理解模型的输入,经由语义理解模型输出第二语义特征。
以下将结合图9对本公开提供的信息转换模型的训练装置进行描述。
图9是根据本公开实施例的信息转换模型的训练装置的结构框图。
如图9所示,该实施例的信息转换模型的训练装置900包括样本信息获取模块910、第一特征提取模块930、结构化信息获得模块950和转换模型训练模块970。
样本信息获取模块910用于获取具有第一标签的第一样本信息,该第一标签指示了基于第一样本信息转换得到的结构化信息。在一实施例中,该样本信息获取模块910例如可以用于执行前文描述的操作S210,在此不再赘述。
第一特征提取模块930用于采用实体特征提取模型来从第一样本信息中提取第一实体特征,并采用语义理解模型来从第一样本信息中提取第一语义特征。在一实施例中,该第一特征提取模块930例如可以用于执行前文描述的操作S230,在此不再赘述。
结构化信息获得模块950用于根据第一实体特征和第一语义特征,采用初始信息转换模型得到针对第一样本信息的预测结构化信息。在一实施例中,结构化信息获得模块950例如可以用于执行前文描述的操作S250,在此不再赘述。
转换模型训练模块970用于根据预测结构化信息和第一标签指示的结构化信息,训练初始信息转换模型,得到经训练的信息转换模型。在一实施例中,转换模型训练模块970例如可以用于执行前文描述的操作S270,在此不再赘述。
根据本公开的实施例,上述第一样本信息还具有第二标签,该第二标签指示了针对第一样本信息的词性信息。上述信息转换模型的训练装置900还包括词性信息获得模块,用于根据第一实体特征和第一语义特征,经由词性预测模型得到针对第一样本信息的预测词性信息。该词性预测模型与经训练的信息转换模型共享除输出层外的其他层。上述转换模型训练模块970具体可以用于根据预测结构化信息和第一标签指示的结构化信息之间的差异以及预测词性信息和第二标签指示的词性信息之间的差异,训练初始信息转换模型。
根据本公开的实施例,上述信息转换模型的训练装置900还包括样本信息生成模块,用于生成具有第一标签的第一样本信息。该第一样本生成模块可以包括关键词获取子模块、文本信息获得子模块、标签获得子模块和第一样本生成子模块。关键词获取子模块用于获取用于查询信息的关键词。文本信息获得子模块用于基于关键词和第一预定文本模板,得到包含关键词的第一文本信息。标签获得子模块用于基于关键词和第一预定标签模板,得到包含关键词的第一标签。第一样本生成子模块用于将包含关键词的第一标签作为第一文本信息的标签,以生成具有第一标签的第一样本信息。
根据本公开的实施例,上述结构化信息为用于查询数据库中数据的查询语句。
根据本公开的实施例,上述信息转换模型的训练装置900还包括第一模型训练模块,用于在第一特征提取模块930提取第一实体特征之前,训练实体特征提取模型。该第一模型训练模块包括词库获取子模块、第二样本生成子模块和第一训练子模块。词库获取子模块用于获取用于查询信息的实体词库。第二样本生成子模块用于基于实体词库、第二预定文本模板和第二预定标签模板,获得针对实体特征提取模型的第二样本信息。第一训练子模块用于基于第二样本信息训练实体特征提取模型。
根据本公开的实施例,上述第二样本生成子模块包括文本信息获得单元、标签获得单元和样本获得单元,文本信息获得单元用于基于实体词库和第二预定文本模板,得到包含实体词库中的实体词的第二文本信息。标签获得单元用于基于第二预定标签模板和第二文本信息包含的实体词库中的实体词,得到第三标签。样本获得单元用于将第三标签作为第二文本信息的标签,获得第二样本信息。其中,第三标签指示了第二文本信息包含的实体词的类型。
根据本公开的实施例,上述第二样本生成子模块还包括历史文本获得单元,用于获取用于查询信息的第一历史文本信息,第一历史文本信息包括自然语言文本。上述文本信息获得单元还用于从第一历史文本信息中确定包含实体词库中的实体词的文本信息,作为第二文本信息。
根据本公开的实施例,上述信息转换模型的训练装置900还包括第二模型训练模块,用于在第一特征提取模块930提取第一语义特征之前,训练语义理解模型。该第二模型训练模块包括历史文本获得子模块和第二训练子模块。历史文本获得子模块用于获取第二历史文本信息,该第二历史文本信息包括自然语言文本。第二训练子模块用于基于历史文本信息训练语义理解模型。在一实施例中,历史文本获得子模块和第二训练子模块例如可以分别用于执行前文描述的操作S601和操作S603,在此不再赘述。
根据本公开的实施例,上述第二训练子模块可以包括存储信息确定单元和模型训练单元,存储信息确定单元用于采用预定分类模型确定历史文本信息所查询信息的存储信息。模型训练单元用于基于历史文本信息和存储信息,训练语义理解模型。
根据本公开的实施例,上述第一样本信息用于查询信息。上述第一特征提取模块包括第一存储信息确定子模块和第一语义特征提取子模块。第一存储信息确定子模块用于采用预定分类模型确定第一样本信息所查询信息的第一存储信息。第一语义特征提取子模块用于基于第一存储信息和第一样本信息,采用语义理解模型提取得到第一语义特征。
以下将结合图10对本公开提供的文本信息的转换装置进行描述。
图10是根据本公开实施例的文本信息的转换装置的结构框图。
如图10所示,该实施例的文本信息的转换装置1000可以包括文本信息获取模块1020、第二特征提取模块1040和信息转换模块1060。
文本信息获取模块1020用于获取用于查询信息的待转换文本信息,该待转换文本信息包括自然语言文本。在一实施例中,文本信息获取模块1020可以用于执行前文描述的操作S820,在此不再赘述。
第二特征提取模块1040用于采用实体特征提取模型来从待转换文本信息中提取第二实体特征,并采用语义理解模型来从待转换文本信息中提取第二语义特征。在一实施例中,第二特征提取模块1040可以用于执行前文描述的操作S840,在此不再赘述。
信息转换模块1060用于根据第二实体特征和第二语义特征,经由信息转换模型得到针对待转换文本信息的结构化信息。在一实施例中,信息转换模块1060可以用于执行前文描述的操作S860,在此不再赘述。
根据本公开的实施例,上述第二特征提取模块1040可以包括第二存储信息确定子模块和第二语义特征提取子模块。第二存储信息确定子模块用于采用预定分类模型确定待转换文本信息所查询信息的存储信息。第二语义特征提取子模块用于基于存储信息和待转换文本信息,采用语义理解模型提取得到第二语义特征。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图11示出了可以用来实现本公开实施例的信息转换模型的训练方法和/或文本信息的转换方法的电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图11所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(RAM)1103中的计算机程序,来执行各种适当的动作和处理。在RAM 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
设备1100中的多个部件连接至I/O接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理,例如信息转换模型的训练方法和/或文本信息的转换方法。例如,在一些实施例中,信息转换模型的训练方法和/或文本信息的转换方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时,可以执行上文描述的信息转换模型的训练方法和/或文本信息的转换方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息转换模型的训练方法和/或文本信息的转换方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (20)
1.一种信息转换模型的训练方法,包括:
获取具有第一标签的第一样本信息,所述第一标签指示了基于所述第一样本信息转换得到的结构化信息,所述结构化信息为用于查询数据库中数据的查询语句;
采用实体特征提取模型来从所述第一样本信息中提取第一实体特征,并采用语义理解模型来从所述第一样本信息中提取第一语义特征;
根据所述第一实体特征和所述第一语义特征,采用初始信息转换模型得到针对所述第一样本信息的预测结构化信息;以及
根据所述预测结构化信息和所述第一标签指示的结构化信息,训练所述初始信息转换模型,得到经训练的信息转换模型;
其中,所述具有第一标签的第一样本信息是通过以下方式生成的:
获取用于查询信息的关键词;
基于所述关键词和第一预定文本模板,得到包含所述关键词的第一文本信息;
基于所述关键词和第一预定标签模板,得到包含所述关键词的第一标签;以及
将包含所述关键词的第一标签作为所述第一文本信息的标签,以生成具有第一标签的第一样本信息。
2.根据权利要求1所述的方法,其中,所述第一样本信息还具有第二标签,所述第二标签指示了针对所述第一样本信息的词性信息;所述方法还包括:
根据所述第一实体特征和所述第一语义特征,经由词性预测模型得到针对所述第一样本信息的预测词性信息,其中,所述词性预测模型与所述经训练的信息转换模型共享除输出层外的其他层;
其中,训练所述初始信息转换模型包括:根据所述预测结构化信息和所述第一标签指示的结构化信息之间的差异以及所述预测词性信息和所述第二标签指示的词性信息之间的差异,训练所述初始信息转换模型。
3.根据权利要求1所述的方法,还包括在提取第一实体特征之前,训练所述实体特征提取模型,包括:
获取用于查询信息的实体词库;
基于所述实体词库、第二预定文本模板和第二预定标签模板,获得针对实体特征提取模型的第二样本信息;以及
基于所述第二样本信息训练所述实体特征提取模型。
4.根据权利要求3所述的方法,其中,获得针对实体特征提取模型的第二样本信息包括:
基于所述实体词库和第二预定文本模板,得到包含所述实体词库中的实体词的第二文本信息;
基于所述第二预定标签模板和所述第二文本信息包含的实体词库中的实体词,得到第三标签;以及
将所述第三标签作为所述第二文本信息的标签,获得所述第二样本信息,
其中,所述第三标签指示了所述第二文本信息包含的实体词的类型。
5. 根据权利要求4所述的方法,其中,获得针对实体特征提取模型的第二样本信息还包括:
获取用于查询信息的第一历史文本信息,所述第一历史文本信息包括自然语言文本;以及
从所述第一历史文本信息中确定包含所述实体词库中的实体词的文本信息,作为所述第二文本信息。
6. 根据权利要求1所述的方法,还包括在提取第一语义特征之前,训练所述语义理解模型,包括:
获取第二历史文本信息,所述第二历史文本信息包括自然语言文本;以及
基于所述第二历史文本信息训练所述语义理解模型。
7. 根据权利要求1所述的方法,其中,所述第一样本信息用于查询信息;所述采用语义理解模型来从所述第一样本信息中提取第一语义特征包括:
采用预定分类模型确定所述第一样本信息所查询信息的第一存储信息;以及
基于所述第一存储信息和所述第一样本信息,采用所述语义理解模型提取得到所述第一语义特征。
8.一种文本信息的转换方法,包括:
获取用于查询信息的待转换文本信息,所述待转换文本信息包括自然语言文本;
采用实体特征提取模型来从所述待转换文本信息中提取第二实体特征,并采用语义理解模型来从所述待转换文本信息中提取第二语义特征;以及
根据所述第二实体特征和所述第二语义特征,经由信息转换模型得到针对所述待转换文本信息的结构化信息,
其中,所述信息转换模型是使用根据权利要求1~7中任一项权利要求所述的方法来训练的。
9. 根据权利要求8所述的方法,其中,采用语义理解模型来从所述待转换文本信息中提取第二语义特征包括:
采用预定分类模型确定所述待转换文本信息所查询信息的存储信息;以及
基于所述存储信息和所述待转换文本信息,采用语义理解模型提取得到所述第二语义特征。
10.一种信息转换模型的训练装置,包括:
样本信息获取模块,用于获取具有第一标签的第一样本信息,所述第一标签指示了基于所述第一样本信息转换得到的结构化信息,所述结构化信息为用于查询数据库中数据的查询语句;
第一特征提取模块,用于采用实体特征提取模型来从所述第一样本信息中提取第一实体特征,并采用语义理解模型来从所述第一样本信息中提取第一语义特征;
结构化信息获得模块,用于根据所述第一实体特征和所述第一语义特征,采用初始信息转换模型得到针对所述第一样本信息的预测结构化信息;以及
转换模型训练模块,用于根据所述预测结构化信息和所述第一标签指示的结构化信息,训练所述初始信息转换模型,得到经训练的信息转换模型;
其中,所述具有第一标签的第一样本信息是通过以下方式生成的:
获取用于查询信息的关键词;
基于所述关键词和第一预定文本模板,得到包含所述关键词的第一文本信息;
基于所述关键词和第一预定标签模板,得到包含所述关键词的第一标签;以及
将包含所述关键词的第一标签作为所述第一文本信息的标签,以生成具有第一标签的第一样本信息。
11.根据权利要求10所述的装置,其中,所述第一样本信息还具有第二标签,所述第二标签指示了针对所述第一样本信息的词性信息;所述装置还包括:
词性信息获得模块,用于根据所述第一实体特征和所述第一语义特征,经由词性预测模型得到针对所述第一样本信息的预测词性信息,其中,所述词性预测模型与所述经训练的信息转换模型共享除输出层外的其他层;
其中,所述转换模型训练模块具体用于根据所述预测结构化信息和所述第一标签指示的结构化信息之间的差异以及所述预测词性信息和所述第二标签指示的词性信息之间的差异,训练所述初始信息转换模型。
12.根据权利要求10所述的装置,还包括第一模型训练模块,用于在所述第一特征提取模块提取第一实体特征之前,训练所述实体特征提取模型;所述第一模型训练模块包括:
词库获取子模块,用于获取用于查询信息的实体词库;
第二样本生成子模块,用于基于所述实体词库、第二预定文本模板和第二预定标签模板,获得针对实体特征提取模型的第二样本信息;以及
第一训练子模块,用于基于所述第二样本信息训练所述实体特征提取模型。
13.根据权利要求12所述的装置,其中,所述第二样本生成子模块包括:
文本信息获得单元,用于基于所述实体词库和第二预定文本模板,得到包含所述实体词库中的实体词的第二文本信息;
标签获得单元,用于基于所述第二预定标签模板和所述第二文本信息包含的实体词库中的实体词,得到第三标签;以及
样本获得单元,用于将所述第三标签作为所述第二文本信息的标签,获得所述第二样本信息,
其中,所述第三标签指示了所述第二文本信息包含的实体词的类型。
14.根据权利要求13所述的装置,其中,所述第二样本生成子模块还包括:
历史文本获得单元,用于获取用于查询信息的第一历史文本信息,所述第一历史文本信息包括自然语言文本,
其中,所述文本信息获得单元还用于从所述第一历史文本信息中确定包含所述实体词库中的实体词的文本信息,作为所述第二文本信息。
15. 根据权利要求10所述的装置,还包括第二模型训练模块,用于在所述第一特征提取模块提取第一语义特征之前,训练语义理解模型;所述第二模型训练模块包括:
历史文本获得子模块,用于获取第二历史文本信息,所述第二历史文本信息包括自然语言文本;以及
第二训练子模块,用于基于所述第二历史文本信息训练所述语义理解模型。
16. 根据权利要求10所述的装置,其中,所述第一样本信息用于查询信息;所述第一特征提取模块包括:
第一存储信息确定子模块,用于采用预定分类模型确定所述第一样本信息所查询信息的第一存储信息;以及
第一语义特征提取子模块,用于基于所述第一存储信息和所述第一样本信息,采用所述语义理解模型提取得到所述第一语义特征。
17.一种文本信息的转换装置,包括:
文本信息获取模块,用于获取用于查询信息的待转换文本信息,所述待转换文本信息包括自然语言文本;
第二特征提取模块,用于采用实体特征提取模型来从所述待转换文本信息中提取第二实体特征,并采用语义理解模型来从所述待转换文本信息中提取第二语义特征;以及
信息转换模块,用于根据所述第二实体特征和所述第二语义特征,经由信息转换模型得到针对所述待转换文本信息的结构化信息,
其中,所述信息转换模型是使用根据权利要求10~16中任一项所述的装置来训练的。
18. 根据权利要求17所述的装置,其中,所述第二特征提取模块包括:
第二存储信息确定子模块,用于采用预定分类模型确定所述待转换文本信息所查询信息的存储信息;以及
第二语义特征提取子模块,用于基于所述存储信息和所述待转换文本信息,采用语义理解模型提取得到所述第二语义特征。
19. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1~9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1~9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110304716.0A CN113051875B (zh) | 2021-03-22 | 2021-03-22 | 信息转换模型的训练方法、文本信息的转换方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110304716.0A CN113051875B (zh) | 2021-03-22 | 2021-03-22 | 信息转换模型的训练方法、文本信息的转换方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113051875A CN113051875A (zh) | 2021-06-29 |
CN113051875B true CN113051875B (zh) | 2024-02-02 |
Family
ID=76514220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110304716.0A Active CN113051875B (zh) | 2021-03-22 | 2021-03-22 | 信息转换模型的训练方法、文本信息的转换方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113051875B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609158A (zh) * | 2021-08-12 | 2021-11-05 | 国家电网有限公司大数据中心 | 一种sql语句的生成方法、装置、设备及介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101567006A (zh) * | 2009-05-25 | 2009-10-28 | 中兴通讯股份有限公司 | 一种数据库系统及分布式sql语句执行计划重用方法 |
CN102662923A (zh) * | 2012-04-23 | 2012-09-12 | 天津大学 | 一种基于机器学习的本体实例学习方法 |
CN102880649A (zh) * | 2012-08-27 | 2013-01-16 | 北京搜狗信息服务有限公司 | 一种个性化信息处理方法和系统 |
CN108170715A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本分类内容提取方法及文本结构化处理方法 |
CN109542929A (zh) * | 2018-11-28 | 2019-03-29 | 山东工商学院 | 语音查询方法、装置和电子设备 |
US10552541B1 (en) * | 2018-08-27 | 2020-02-04 | International Business Machines Corporation | Processing natural language queries based on machine learning |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
WO2020238061A1 (zh) * | 2019-05-28 | 2020-12-03 | 平安科技(深圳)有限公司 | 自然语言分类方法、装置、计算机设备以及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11550783B2 (en) * | 2019-04-18 | 2023-01-10 | Sap Se | One-shot learning for text-to-SQL |
US11789945B2 (en) * | 2019-04-18 | 2023-10-17 | Sap Se | Clause-wise text-to-SQL generation |
US11275906B2 (en) * | 2019-07-17 | 2022-03-15 | Avigilon Corporation | Natural language text conversion and method therefor |
-
2021
- 2021-03-22 CN CN202110304716.0A patent/CN113051875B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101567006A (zh) * | 2009-05-25 | 2009-10-28 | 中兴通讯股份有限公司 | 一种数据库系统及分布式sql语句执行计划重用方法 |
CN102662923A (zh) * | 2012-04-23 | 2012-09-12 | 天津大学 | 一种基于机器学习的本体实例学习方法 |
CN102880649A (zh) * | 2012-08-27 | 2013-01-16 | 北京搜狗信息服务有限公司 | 一种个性化信息处理方法和系统 |
CN108170715A (zh) * | 2017-12-01 | 2018-06-15 | 厦门快商通信息技术有限公司 | 一种文本分类内容提取方法及文本结构化处理方法 |
US10552541B1 (en) * | 2018-08-27 | 2020-02-04 | International Business Machines Corporation | Processing natural language queries based on machine learning |
CN109542929A (zh) * | 2018-11-28 | 2019-03-29 | 山东工商学院 | 语音查询方法、装置和电子设备 |
WO2020238061A1 (zh) * | 2019-05-28 | 2020-12-03 | 平安科技(深圳)有限公司 | 自然语言分类方法、装置、计算机设备以及存储介质 |
CN111126068A (zh) * | 2019-12-25 | 2020-05-08 | 中电云脑(天津)科技有限公司 | 一种中文命名实体识别方法和装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
基于序列标注的漏洞信息结构化抽取方法;陈钧衍;陶非凡;张源;;计算机应用与软件(02);全文 * |
基于自然语言处理和深度学习的NL2SQL技术及其在BI增强分析中的应用;刘译璟;徐林杰;代其锋;;中国信息化(11);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113051875A (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507099B (zh) | 对话理解模型的训练方法、装置、设备和存储介质 | |
CN112860866B (zh) | 语义检索方法、装置、设备以及存储介质 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN112528681A (zh) | 跨语言检索及模型训练方法、装置、设备和存储介质 | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
CN116028618A (zh) | 文本处理、文本检索方法、装置、电子设备及存储介质 | |
KR102608867B1 (ko) | 업계 텍스트를 증분하는 방법, 관련 장치 및 매체에 저장된 컴퓨터 프로그램 | |
CN113051875B (zh) | 信息转换模型的训练方法、文本信息的转换方法和装置 | |
CN111538817A (zh) | 人机交互方法和装置 | |
CN115658903B (zh) | 文本分类方法、模型训练方法、相关装置及电子设备 | |
CN109902152B (zh) | 用于检索信息的方法和装置 | |
CN117112595A (zh) | 一种信息查询方法、装置、电子设备及存储介质 | |
CN114818736B (zh) | 文本处理方法、用于短文本的链指方法、装置及存储介质 | |
CN113139558A (zh) | 确定物品的多级分类标签的方法和装置 | |
CN116049370A (zh) | 信息查询方法和信息生成模型的训练方法、装置 | |
CN114036397B (zh) | 数据推荐方法、装置、电子设备和介质 | |
CN112966513B (zh) | 用于实体链接的方法和装置 | |
CN114218431A (zh) | 视频搜索方法、装置、电子设备以及存储介质 | |
CN114254642A (zh) | 实体信息处理方法、装置、电子设备和介质 | |
CN114048315A (zh) | 确定文档标签的方法、装置、电子设备和存储介质 | |
CN114692610A (zh) | 关键词确定方法及装置 | |
CN113220841B (zh) | 确定鉴别信息的方法、装置、电子设备和存储介质 | |
CN116610782B (zh) | 文本检索方法、装置、电子设备及介质 | |
CN116383491B (zh) | 信息推荐方法、装置、设备、存储介质和程序产品 | |
CN114925185B (zh) | 交互方法、模型的训练方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |