CN111709229A - 基于人工智能的文本生成方法、装置、计算机设备和介质 - Google Patents

基于人工智能的文本生成方法、装置、计算机设备和介质 Download PDF

Info

Publication number
CN111709229A
CN111709229A CN202010548649.2A CN202010548649A CN111709229A CN 111709229 A CN111709229 A CN 111709229A CN 202010548649 A CN202010548649 A CN 202010548649A CN 111709229 A CN111709229 A CN 111709229A
Authority
CN
China
Prior art keywords
text
structure information
word
content
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010548649.2A
Other languages
English (en)
Inventor
邓黎明
庄伯金
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010548649.2A priority Critical patent/CN111709229A/zh
Publication of CN111709229A publication Critical patent/CN111709229A/zh
Priority to PCT/CN2020/124736 priority patent/WO2021139344A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本申请涉及人工智能领域,特别是涉及一种基于人工智能的文本生成方法、装置、计算机设备和介质。所述方法包括:获取文本生成请求,文本生成请求携带有文本关键词以及参考文本内容;从参考文本内容中提取出文本结构信息,文本结构信息用于控制待生成的文本内容的文本结构;根据提取的文本结构信息以及文本关键词,生成新的文本内容。采用本方法能够提升文本内容生成准确性。同时,本申请还涉及区块链技术,其中,文本关键词、参考文本内容、文本结构信息以及新的文本内容等均可以存储与区块链中。

Description

基于人工智能的文本生成方法、装置、计算机设备和介质
技术领域
本申请涉及人工智能领域,特别是涉及一种基于人工智能的文本生成方法、装置、计算机设备和介质。
背景技术
文本生成在今天被广泛应用于各种自然语言处理任务中,如语音识别、机器翻译、文档分类、人机对话等。
在传统方式中,通过神经网络来学习字或词之间的统计关联,然后根据学习的结果进行预测,以得到预测结果。
但是,在该种方式中,文本内容的生成随机性较大,使得生成的文本内容准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升文本内容生成准确性的基于人工智能的文本生成方法、装置、计算机设备和介质。
一种基于人工智能的文本生成方法,所述方法包括:
获取文本生成请求,文本生成请求携带有文本关键词以及参考文本内容;
从参考文本内容中提取出文本结构信息,文本结构信息用于控制待生成的文本内容的文本结构;
根据提取的文本结构信息以及文本关键词,生成新的文本内容。
在其中一个实施例中,从参考文本内容中提取出文本结构信息,包括:
对参考文本内容进行语法结构的提取,得到参考文本内容的语法结构信息;
对参考文本内容进行拆分,得到参考文本内容中各文本位置的字词结构信息;
将语法结构信息和字词结构信息作为参考文本内容的文本结构信息。
在其中一个实施例中,对参考文本内容进行拆分,得到参考文本内容中各文本位置的字词结构信息,包括:
对参考文本内容进行文本词的拆分,得到参考文本内容中的各文本词、各文本词的词性信息以及各文本词在参考文本内容中的词位置信息;
对各文本词进行文本字的拆分,得到各文本字的文本字信息以及各文本字在文本词中的字位置信息;
将各词性信息、词位置信息、文本字信息以及位置信息作为参考文本内容中各字词的字词结构信息。
在其中一个实施例中,根据提取的文本结构信息以及文本关键词,生成新的文本内容,包括:
根据文本关键词,确定文本关键词的词性信息;
根据文本关键词的词性信息以及文本结构信息中各文本位置的字词结构信息,确定各待预测文本字词的词性信息;
根据文本关键词、各待预测文本字词的词性信息以及文本结构信息,进行文本字词预测,得到各预测文本字词;
根据各预测文本字词生成新的文本内容。
在其中一个实施例中,根据文本关键词、各待预测文本字词的词性信息以及文本结构信息,进行文本字词预测,包括:
将文本关键词作为当前预测字词,并根据各待预测文本字词的词性信息以及文本结构信息,进行文本字词的预测,得到预测文本字词;
将已得到的预测文本字词以及文本关键词作为当前预测字词,并根据剩余的各待预测文本字词的词性信息以及文本结构信息,继续进行文本字词的预测,直至完成所有待预测文本字词的预测。
在其中一个实施例中,上述方法还包括:
将文本关键词、参考文本内容、文本结构信息以及新的文本内容中的至少一个上传至区块链,并存储至区块链的节点中。
一种基于人工智能的文本生成装置,所述装置包括:
文本生成请求获取模块,用于获取文本生成请求,文本生成请求携带有文本关键词以及参考文本内容;
文本结构信息提取模块,用于从参考文本内容中提取出文本结构信息,文本结构信息用于控制待生成的文本内容的文本结构;
文本内容生成模块,用于根据提取的文本结构信息以及文本关键词,生成新的文本内容。
在其中一个实施例中,文本结构信息提取模块,包括:
语法结构信息提取子模块,用于对参考文本内容进行语法结构的提取,得到参考文本内容的语法结构信息;
字词结构信息生成子模块,用于对参考文本内容进行拆分,得到参考文本内容中各文本位置的字词结构信息;
文本结构信息生成子模块,用于将语法结构信息和字词结构信息作为参考文本内容的文本结构信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
上述基于人工智能的文本生成方法、装置、计算机设备和介质,通过获取文本生成请求,文本生成请求携带有文本关键词以及参考文本内容,然后从参考文本内容中提取出文本结构信息,文本结构信息用于控制待生成的文本内容的文本结构,进一步根据提取的文本结构信息以及文本关键词,生成新的文本内容。从而,可以通过对参考文本内容进行文本结构信息的提取,并生成对应文本结构信息的文本内容,使得文本内容生成符合参考文本内容的文本结构要求,提升文本生成的准确性。并且,通过提取不同的文本结构信息,可以生成对应不同文本结构的文本内容,使得生成的文本内容的文本结构可控,提升生成的文本内容的文本结构的多样性。
附图说明
图1为一个实施例中基于人工智能的文本生成方法的应用场景图;
图2为一个实施例中基于人工智能的文本生成方法的流程示意图;
图3为另一个实施例中基于人工智能的文本生成方法的流程示意图;
图4为一个实施例中基于人工智能的文本生成装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于人工智能的文本生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。具体地,终端102接收用户输入,生成文本生成请求,将生成的文本生成请求发送至服务器104,文本生成请求携带有文本关键词以及参考文本内容。服务器104在获取到文本生成请求后,从文本生成请求携带的参考文本内容中提取出文本结构信息。然后服务器104根据提取的文本结构信息以及文本关键词,生成新的文本内容。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于人工智能的文本生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取文本生成请求,文本生成请求携带有文本关键词以及参考文本内容。
其中,文本生成请求是指终端发送的用于生成文本内容的请求,文本生成请求中携带有待生成文本内容的文本关键词以及参考文本内容。
参考文本内容是指用于参考的文本内容,或者也可以称之为文本模板。
在本实施例中,用户可以根据所期望生成的文本,通过终端选取对应的参考文本内容,生成文本生成请求并发送服务器。
在本实施例中,服务器接收到文本生成请求后,可以获取文本生成请求中携带的文本关键词以及参考文本内容,并进行后续的处理。
步骤S204,从参考文本内容中提取出文本结构信息,文本结构信息用于控制待生成的文本内容的文本结构。
其中,文本结构信息是指文本内容的结构信息,可以包括语法结构信息以及字词结构信息。文本结构信息用于控制待生成的文本内容的文本结构。
具体地,文本语法信息是指文本语句的主谓宾结构、文本语句的主干结构、修饰结构等信息。字词结构信息是指文本内容中各个字词的结构信息等。
在本实施例中,服务器获取到文本参考请求后,可以根据对文本参考请求中的参考文本内容进行提取,以提取到文本结构信息,例如,可以通过对参考文本内容深网络模型以及各种语法工具中的一种或者多种进行文本结构信息的提取,以得到参考文本内容的文本结构信息。
在本实施例中,根据文本参考请求中携带的参考文本内容的不同,服务器可以提取得到对应不同参考文本内容的文本结构信息,例如,对于请求1,其参考文本内容为主谓宾结构的文本内容,如“他打篮球”,则提取的文本结构信息可以包括主谓宾结构信息,对于文本2,其考文本内容为定主补谓结构的文本内容,如“美丽的天空总令人神往”,则提取的文本结构信息可以包括定主补谓结构信息。
步骤S206,根据提取的文本结构信息以及文本关键词,生成新的文本内容。
具体地,服务器可以根据提取得到的文本结构信息以及文本关键词,进行文本字词的预测,并基于预测得到的文本字词以及文本关键词,生成新的文本内容。
在本实施例中,基于文本关键词的不同和/或文本结构信息的不同,生成的新的文本内容不同,例如,对于主谓宾结构的文本结构信息,生成的新的文本内容也是主谓宾结构,对于定主补谓结构的文本结构信息,生成的新的文本内容也是定主补谓结构。
上述基于人工智能的文本生成方法中,通过获取文本生成请求,文本生成请求携带有文本关键词以及参考文本内容,然后从参考文本内容中提取出文本结构信息,文本结构信息用于控制待生成的文本内容的文本结构,进一步根据提取的文本结构信息以及文本关键词,生成新的文本内容。从而,可以通过对参考文本内容进行文本结构信息的提取,并生成对应文本结构信息的文本内容,使得文本内容生成符合参考文本内容的文本结构要求,提升文本生成的准确性。并且,通过提取不同的文本结构信息,可以生成对应不同文本结构的文本内容,使得生成的文本内容的文本结构可控,提升生成的文本内容的文本结构的多样性。
在其中一个实施例中,从参考文本内容中提取出文本结构信息,可以包括:对参考文本内容进行语法结构的提取,得到参考文本内容的语法结构信息;对参考文本内容进行拆分,得到参考文本内容中各文本位置的字词结构信息;将语法结构信息和字词结构信息作为参考文本内容的文本结构信息。
其中,语法结构信息是指文本语句的主体结构信息,可以包括前文所述的主谓宾结构、文本语句的主干结构、修饰结构等信息。
字词结构信息是指文本语句中各个字或者词的位置结构信息以及各字词的词性信息等。
在本实施例中,参考图3,服务器可以通过神经网络模型,对参考文本内容进行语法结构信息的提取,如,服务器将参考文本内容输入ON-LSTM模型,以输出参考文本内容的语法结构信息,即得到sentence level structure。例如,参考文本内容为“我是平安的员工”,则服务器可以通过模型提取出该参考文本内容为主谓宾结构+定语修饰词结构的语法结构信息,以及确定文本语句的主干结构为“我是员工”,修饰结构为“平安的”。
在本实施例中,进行语法结构信息提取的模型可以是预先训练好的模型,服务器通过大量的训练集数据对模型训练并进行测试,以得到训练完成的模型。
进一步,服务器可以通过语法工具对参考文本内容进行拆分,如Thulac等,以得到参考文本内容中各文本位置的文本字词的字词结构信息。
在其中一个实施例中,对参考文本内容进行拆分,得到参考文本内容中各文本位置的字词结构信息,可以包括:对参考文本内容进行文本词的拆分,得到参考文本内容中的各文本词、各文本词的词性信息以及各文本词在参考文本内容中的词位置信息;对各文本词进行文本字的拆分,得到各文本字的文本字信息以及各文本字在文本词中的字位置信息;将各词性信息、词位置信息、文本字信息以及位置信息作为参考文本内容中各字词的字词结构信息。
其中,文本词是指组成文本内容的词语,可以是单个字构成的词语,也可以是多个字构成的词语,如对于参考文本内容“我是平安的员工”,文本词“我”以及“是”等是组成文本内容的一个词,“员工”“平安的”等也是组成文本内容的一个词。
词性信息是指指示各个文本词的词性的信息,例如,名词、动词、代词、形容词等,例如,“我”是代词,“是”是动词,“员工”是名词,“平安的”是形容词。
词位置信息是指各文本词在文本内容中的位置信息,例如,继续引用前例,“我”是参考文本内容中的第一文本位置的词,则其位置信息即为文本内容中的首位置词,同理,“是”和“平安的”是参考文本内容的中间位置词,其位置信息分别中间位置词1、中间位置词2,“员工”为句尾词。
文本字信息是指各文本词中各文本字的信息,字位置信息是指各文本字在文本词中的位置信息,例如,对于文本词“平安的”,则“平”是中间位置词2中的第一个字,“安”是中间位置词2中的第二个字,“的”是中间位置词2中的第三个字。
在本实施例中,继续参考图3,服务器通过语法工具,对参考文本内容进行文本词的拆分,然后进行文本字的拆分,以得到参考文本内容中个文本位置的字词结构信息。
在本实施例中,各文本位置的字词结构信息可以通过如下方式确定,即首先确定各词语是否为单字词,若词语为单字词,则通过字母S表示,S是single的缩写,若词语为非单字词,则可以根据各个字在词语中的位置加上词语的词性表示各个字。例如,对于参考文本内容“我是平安的员工”,“我”是单字词,可以表示为S,“平安的”为非单字词,且“平安的”为形容词,可以“平”表示为“B+adj”,“安”表示为“M+adj”,“的”表示为“E+adj”。其中,B是begin的缩写,表示首位置,M是middle的缩写,表示中间位置,E是End的缩写,表示末尾位置,adj表示形容词。
上述实施例中,通过分别进行语法结构信息以及字词结构信息的提取,使得生成的文本结构信息中既包含参考文本内容的主体结构信息,也包含各个字词结构的信息,使得文本结构信息对各文本字词的结构的表达更加准确,保障了信息的完整性。
在其中一个实施例中,根据提取的文本结构信息以及文本关键词,生成新的文本内容,可以包括:根据文本关键词,确定文本关键词的词性信息;根据文本关键词的词性信息以及文本结构信息中各文本位置的字词结构信息,确定各待预测文本字词的词性信息;根据文本关键词、各待预测文本字词的词性信息以及文本结构信息,进行文本字词预测,得到各预测文本字词;根据各预测文本字词生成新的文本内容。
具体地,服务器可以根据从文本生成请求中携带的文本关键词,确定文本关键词的词性信息,例如,对于文本关键词“客户”,可以确定其为名词。
进一步,服务器可以根据文本结构信息中各文本位置的字词结构信息,确定待预测文本字词的词性信息,例如,确定了文本关键词“客户”为名词,则根据各字词结构信息,可以确定待预测文本字词分别为代词、动词、形容词等。以及服务器可以根据文本字词信息中的文本字信息以及字位置信息,确定各待预测文本字词的字数量、在文本句中的位置信息等。
进一步,服务器根据文本关键词、各待预测文本字词的词性信息以及获取的参考文本内容的文本结构信息,对带预测文本字词的各个文本字词进行预测,以得到各预测文本字词。
进一步,服务器根据得到的各预测文本字词、文本关键词以及文本结构信息,生成新的文本内容。例如,预测文本字词是“你”、“是”、“平安的”,文本关键词为“客户”,以及各字词的文本结构信息,可以得到新的文本内容为“你是平安的客户”。
在本实施例中,对于相同的预测文本字词以及文本关键词,文本结构信息不同,得到的新的文本内容不同。例如,同样是“你”、“是”、“平安的”以及“客户”等文本字词,若参考文本内容为“平安的员工是你”,则基于提取的文本结构信息生成的新的文本内容为“平安的客户是你”。
可选的,文本关键词也可以是多个词,例如,文本关键词为“我”、“客户”,则生成的新的文本内容可以是“我是平安的客户”。
在本实施例中,当文本生成请求中携带的文本关键词数量越多,则生成的文本内容更贴合文本生成请求,生成的文本内容更加准确。例如,文本关键词为“他”、“公司的”、“同事”,则生成的新的文本内容可以是“他是公司的同事”。
上述实施例中,根据文本关键词以及文本结构信息,确定文本关键词的字词结构信息以及各待预测文本字词的字词结构信息,然后进行文本字词的预测。从而,可以根据各待预测文本字词的字词结构信息对各待预测文本字词进行准确预测,提升预测的准确性。并且,通过各待预测文本字词的字词结构信息对以及参考文本内容的语法结构信息对各文本字词进行预测,使得可以对生成的文本内容的文本结构进行控制,可以提升生成的文本内容的结构多样性。
在其中一个实施例中,根据文本关键词、各待预测文本字词的词性信息以及文本结构信息,进行文本字词预测,可以包括:将文本关键词作为当前预测字词,并根据各待预测文本字词的词性信息以及文本结构信息,进行文本字词的预测,得到预测文本字词;将已得到的预测文本字词以及文本关键词作为当前预测字词,并根据剩余的各待预测文本字词的词性信息以及文本结构信息,继续进行文本字词的预测,直至完成所有待预测文本字词的预测。
在本实施例中,服务器在进行文本字词的预测的时候,先以文本关键词作为当前预测字词,进行文本字词的预测,然后在以得到的预测文本字词以及文本关键词,继续对还未预测的待预测文本字词进行预测。例如,文本关键词为“客户”,则服务器可能先得到预测文本字词“是”,然后根据关键词“客户”、预测文本字词“是”以及文本结构信息继续进行预测,如得到预测词“他”。以此往复,直至完成文本结构信息确定的所有的待预测文本字词的预测。
在本实施例中,服务器对剩余的待预测文本字词的预测是根据已得到的各预测文本字词和关键词的概率对未预测的待预测文本字词的概率进行预测,然后基于得到的各预测结果,继续对未预测的待预测文本字词继续进行预测。例如,根据关键词“客户”得到预测文本字词的“是”的概率为80%,“不是”的概率是20%,然后在进行后续待预测文本字词的预测,例如,进一步根据“客户”和“是”,得到“他”的概率为50%,“你”的概率为30%,“我”的概率为20%等,根据“客户”和“不是”,得到“他”的概率为80%,“你”的概率为25%,“我”的概率为5%等。依次类推,直至完成所有待预测文本字词的预测。
在本实施例中,服务器在得到各预测文本字词的概率之后,可以通过对所有的预测文本字词的概率进行联乘,以得到各预测文本内容的概率,并确定概率最高的预测文本内容为新的文本内容。例如,继续延用前例,预测文本字词“是”的概率为80%,在此基础上“我”的概率为90%,进一步,“平安的”概率为50%,则可以得到预测文本句“我是平安的客户”的概率为36%,而对于预测文本字词“不是”的概率为70%,在此基础上“他”的概率为80%,“平安的”概率为60%,则可以得到预测文本句“他是平安的客户”的概率为33.6%。则以此类推,可以得到多个预测文本内容的概率。然后服务器从中确定概率值最高的一个为新的文本内容并输出。
在本实施例中,预测文本内容的概率计算公式如公式(1)所示:
Figure BDA0002541682910000101
其中,P(s)表示预测文本内容的概率值,n表示预测文本内容中字词的数量,P(ωi1,...,ωi-1)表示各文本字词的概率,下标表示各文本字词在文本内容中的位置。
上述实施例中,根据将已得到的预测文本字词以及文本关键词作为当前预测字词,并根据剩余各待预测文本字词的字词结构信息以及语法结构信息,继续进行文本字词的预测,从而,使得预测在后的预测文本字词包含了已得到的预测文本字词的预测结果,可以提升预测的准确性,进而可以提升生成的文本内容的准确性。
在其中一个实施例中,服务器对参考文本内容进行文本结构信息的提取,以及确定文本关键词的词性信息、待预测文本字词的词性信息以及进行文本字词预测可以是通过预测模型进行。
例如,继续参考图3,服务器参考文本内容以及文本关键词输入预测模型,以通过预测模型进行文本结构信息的提取,即进行句子级的语法结构信息的提取(Sentencelevel structure)、词结构信息的提取(Word level POS)以及字结构信息的提取(Character level POS),然后进行归一化处理(Normalization)后,通Embedding方式转换为向量,如512维度的向量,以通过向量的方式表示参考文本内容的语法结构信息和字词结构信息,并进行向量融合,以得到向量表示的对应参考文本内容的结构信息。
进一步,将得到的结构信息输入多头注意力机制(Multi-head Self-attention)层,即multi-head self-attention层以512维度的向量为输入,得到对应的输出。在multi-head self-attention层中,输出与输出之间存在依赖关系。
在本实施例中,Multi-head Self-attention层输出一个512维度的向量,并将输入和输出进行规范化处理(Add&Norm)后得到最终的输出结构信息
同理,在本实施例中,服务器可以将输入的文本关键词进行文本位置嵌入(Text&Position Embed)转换为512维度的向量,输入带有因果遮挡的多头自注意力处理机制(Masked Multi-head Self-attention)层,并输出对应的结果,然后将输入和输出进行规范化处理(Add&Norm)后得到最终的输出文本字词信息。
进一步,服务器将得到的输出结构信息以及输出文本字词信息进行融合并输入一个简单的全连接(Feed Forward)层,得到对应的输出,并将Feed Forward层的输入和输出相加并进行规范化处理(Add&Norm),以得到对应的文本字词预测结果。
进一步,服务器按照如上流程进行多次预测,直至完成多有文本字词的预测。
在本实施例中,模型完成文本字词的预测后,然后通过线性变换(Linear)处理以及逻辑回归(Soft max)后,生成新的文本内容并输出。
在本实施例中,预测模型可以是预先训练完成的模型,服务器可以从训练集数据中获取文本关键词,并将获取的文本关键词以及训练集数据输入初始测试模型,进行文本结构信息的提取以及文本内容的预测训练。
进一步,服务器根据训练得到的文本内容以及训练集数据,计算测试模型的损失值,并根据计算得到的损失值对测试模型不断更新,以得到训练好的测试模型,从而提升生成的文本内容的准确性。
在其中一个实施例中,上述方法还可以包括:将文本关键词、参考文本内容、文本结构信息以及新的文本内容中的至少一个上传至区块链,并存储至区块链的节点中。
其中,区块链是指分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Block chain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
具体地,区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本实施例中,服务器可以将文本关键词、参考文本内容、文本结构信息以及新的文本内容中的一个或者多个数据上传并存储于区块链的节点中,以保证数据的私密性和安全性。
上述实施例中,通过将文本关键词、参考文本内容、文本结构信息以及新的文本内容中至少一个上传至区块链并存储于区块链的节点中,从而可以保障存储至区块链节点中数据的私密性,可以提升数据的安全性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种基于人工智能的文本生成装置,包括:文本生成请求获取模块100、文本结构信息提取模块200和文本内容生成模块300,其中:
文本生成请求获取模块100,用于获取文本生成请求,文本生成请求携带有文本关键词以及参考文本内容。
文本结构信息提取模块200,用于从参考文本内容中提取出文本结构信息,文本结构信息用于控制待生成的文本内容的文本结构。
文本内容生成模块300,用于根据提取的文本结构信息以及文本关键词,生成新的文本内容。
在其中一个实施例中,文本结构信息提取模块200可以包括:
语法结构信息提取子模块,用于对参考文本内容进行语法结构的提取,得到参考文本内容的语法结构信息。
字词结构信息生成子模块,用于对参考文本内容进行拆分,得到参考文本内容中各文本位置的字词结构信息。
文本结构信息生成子模块,用于将语法结构信息和字词结构信息作为参考文本内容的文本结构信息。
在其中一个实施例中,字词结构信息生成子模块可以包括:
第一拆分单元,用于对参考文本内容进行文本词的拆分,得到参考文本内容中的各文本词、各文本词的词性信息以及各文本词在参考文本内容中的词位置信息。
第二拆分单元,用于对各文本词进行文本字的拆分,得到各文本字的文本字信息以及各文本字在文本词中的字位置信息。
字词结构信息生成单元,用于将各词性信息、词位置信息、文本字信息以及位置信息作为参考文本内容中各字词的字词结构信息。
在其中一个实施例中,文本内容生成模块300可以包括:
关键词词性信息确定子模块,用于根据文本关键词,确定文本关键词的词性信息。
待预测文本字词词性信息确定子模块,用于根据文本关键词的词性信息以及文本结构信息中各文本位置的字词结构信息,确定各待预测文本字词的词性信息。
预测子模块,用于根据文本关键词、各待预测文本字词的词性信息以及文本结构信息,进行文本字词预测,得到各预测文本字词。
文本内容生成子模块,用于根据各预测文本字词生成新的文本内容。
在其中一个实施例中,预测子模块可以包括:
预测文本字词生成单元,用于将文本关键词作为当前预测字词,并根据各待预测文本字词的词性信息以及文本结构信息,进行文本字词的预测,得到预测文本字词。
循环预测单元,用于将已得到的预测文本字词以及文本关键词作为当前预测字词,并根据剩余的各待预测文本字词的词性信息以及文本结构信息,继续进行文本字词的预测,直至完成所有待预测文本字词的预测。
在其中一个实施例中,上述装置还可以包括:
存储模块,用于将文本关键词、参考文本内容、文本结构信息以及新的文本内容中的至少一个上传至区块链,并存储至区块链的节点中。
关于基于人工智能的文本生成装置的具体限定可以参见上文中对于基于人工智能的文本生成方法的限定,在此不再赘述。上述基于人工智能的文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本关键词、参考文本内容、文本结构信息以及新的文本内容等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的文本生成方法。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取文本生成请求,文本生成请求携带有文本关键词以及参考文本内容;从参考文本内容中提取出文本结构信息,文本结构信息用于控制待生成的文本内容的文本结构;根据提取的文本结构信息以及文本关键词,生成新的文本内容。
在其中一个实施例中,处理器执行计算机程序时实现从参考文本内容中提取出文本结构信息,可以包括:对参考文本内容进行语法结构的提取,得到参考文本内容的语法结构信息;对参考文本内容进行拆分,得到参考文本内容中各文本位置的字词结构信息;将语法结构信息和字词结构信息作为参考文本内容的文本结构信息。
在其中一个实施例中,处理器执行计算机程序时实现对参考文本内容进行拆分,得到参考文本内容中各文本位置的字词结构信息,可以包括:对参考文本内容进行文本词的拆分,得到参考文本内容中的各文本词、各文本词的词性信息以及各文本词在参考文本内容中的词位置信息;对各文本词进行文本字的拆分,得到各文本字的文本字信息以及各文本字在文本词中的字位置信息;将各词性信息、词位置信息、文本字信息以及位置信息作为参考文本内容中各字词的字词结构信息。
在其中一个实施例中,处理器执行计算机程序时实现根据提取的文本结构信息以及文本关键词,生成新的文本内容,可以包括:根据文本关键词,确定文本关键词的词性信息;根据文本关键词的词性信息以及文本结构信息中各文本位置的字词结构信息,确定各待预测文本字词的词性信息;根据文本关键词、各待预测文本字词的词性信息以及文本结构信息,进行文本字词预测,得到各预测文本字词;根据各预测文本字词生成新的文本内容。
在其中一个实施例中,处理器执行计算机程序时实现根据文本关键词、各待预测文本字词的词性信息以及文本结构信息,进行文本字词预测,可以包括:将文本关键词作为当前预测字词,并根据各待预测文本字词的词性信息以及文本结构信息,进行文本字词的预测,得到预测文本字词;将已得到的预测文本字词以及文本关键词作为当前预测字词,并根据剩余的各待预测文本字词的词性信息以及文本结构信息,继续进行文本字词的预测,直至完成所有待预测文本字词的预测。
在其中一个实施例中,处理器执行计算机程序时还可以实现如下步骤:将文本关键词、参考文本内容、文本结构信息以及新的文本内容中的至少一个上传至区块链,并存储至区块链的节点中。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取文本生成请求,文本生成请求携带有文本关键词以及参考文本内容;从参考文本内容中提取出文本结构信息,文本结构信息用于控制待生成的文本内容的文本结构;根据提取的文本结构信息以及文本关键词,生成新的文本内容。
在其中一个实施例中,计算机程序被处理器执行时实现从参考文本内容中提取出文本结构信息,可以包括:对参考文本内容进行语法结构的提取,得到参考文本内容的语法结构信息;对参考文本内容进行拆分,得到参考文本内容中各文本位置的字词结构信息;将语法结构信息和字词结构信息作为参考文本内容的文本结构信息。
在其中一个实施例中,计算机程序被处理器执行时实现对参考文本内容进行拆分,得到参考文本内容中各文本位置的字词结构信息,可以包括:对参考文本内容进行文本词的拆分,得到参考文本内容中的各文本词、各文本词的词性信息以及各文本词在参考文本内容中的词位置信息;对各文本词进行文本字的拆分,得到各文本字的文本字信息以及各文本字在文本词中的字位置信息;将各词性信息、词位置信息、文本字信息以及位置信息作为参考文本内容中各字词的字词结构信息。
在其中一个实施例中,计算机程序被处理器执行时实现根据提取的文本结构信息以及文本关键词,生成新的文本内容,可以包括:根据文本关键词,确定文本关键词的词性信息;根据文本关键词的词性信息以及文本结构信息中各文本位置的字词结构信息,确定各待预测文本字词的词性信息;根据文本关键词、各待预测文本字词的词性信息以及文本结构信息,进行文本字词预测,得到各预测文本字词;根据各预测文本字词生成新的文本内容。
在其中一个实施例中,计算机程序被处理器执行时实现根据文本关键词、各待预测文本字词的词性信息以及文本结构信息,进行文本字词预测,可以包括:将文本关键词作为当前预测字词,并根据各待预测文本字词的词性信息以及文本结构信息,进行文本字词的预测,得到预测文本字词;将已得到的预测文本字词以及文本关键词作为当前预测字词,并根据剩余的各待预测文本字词的词性信息以及文本结构信息,继续进行文本字词的预测,直至完成所有待预测文本字词的预测。
在其中一个实施例中,计算机程序被处理器执行时还可以实现如下步骤:将文本关键词、参考文本内容、文本结构信息以及新的文本内容中的至少一个上传至区块链,并存储至区块链的节点中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于人工智能的文本生成方法,其特征在于,所述方法包括:
获取文本生成请求,所述文本生成请求携带有文本关键词以及参考文本内容;
从所述参考文本内容中提取出文本结构信息,所述文本结构信息用于控制待生成的文本内容的文本结构;
根据提取的所述文本结构信息以及所述文本关键词,生成新的文本内容。
2.根据权利要求1所述的方法,其特征在于,所述从所述参考文本内容中提取出文本结构信息,包括:
对所述参考文本内容进行语法结构的提取,得到所述参考文本内容的语法结构信息;
对所述参考文本内容进行拆分,得到所述参考文本内容中各文本位置的字词结构信息;
将所述语法结构信息和所述字词结构信息作为所述参考文本内容的文本结构信息。
3.根据权利要求2所述的方法,其特征在于,所述对所述参考文本内容进行拆分,得到所述参考文本内容中各文本位置的字词结构信息,包括:
对所述参考文本内容进行文本词的拆分,得到所述参考文本内容中的各文本词、各所述文本词的词性信息以及各所述文本词在所述参考文本内容中的词位置信息;
对各所述文本词进行文本字的拆分,得到各文本字的文本字信息以及各所述文本字在所述文本词中的字位置信息;
将各所述词性信息、所述词位置信息、所述文本字信息以及所述位置信息作为所述参考文本内容中各字词的字词结构信息。
4.根据权利要求1所述的方法,其特征在于,所述根据提取的所述文本结构信息以及所述文本关键词,生成新的文本内容,包括:
根据所述文本关键词,确定所述文本关键词的词性信息;
根据所述文本关键词的词性信息以及文本结构信息中各文本位置的字词结构信息,确定各待预测文本字词的词性信息;
根据所述文本关键词、各所述待预测文本字词的词性信息以及所述文本结构信息,进行文本字词预测,得到各预测文本字词;
根据各所述预测文本字词生成新的文本内容。
5.根据权利要求4所述的方法,其特征在于,所述根据所述文本关键词、各所述待预测文本字词的词性信息以及所述文本结构信息,进行文本字词预测,包括:
将所述文本关键词作为当前预测字词,并根据各所述待预测文本字词的词性信息以及所述文本结构信息,进行文本字词的预测,得到预测文本字词;
将已得到的预测文本字词以及所述文本关键词作为当前预测字词,并根据剩余的各所述待预测文本字词的词性信息以及所述文本结构信息,继续进行文本字词的预测,直至完成所有待预测文本字词的预测。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述文本关键词、所述参考文本内容、所述文本结构信息以及所述新的文本内容中的至少一个上传至区块链,并存储至区块链的节点中。
7.一种基于人工智能的文本生成装置,其特征在于,所述装置包括:
文本生成请求获取模块,用于获取文本生成请求,所述文本生成请求携带有文本关键词以及参考文本内容;
文本结构信息提取模块,用于从所述参考文本内容中提取出文本结构信息,所述文本结构信息用于控制待生成的文本内容的文本结构;
文本内容生成模块,用于根据提取的所述文本结构信息以及所述文本关键词,生成新的文本内容。
8.根据权利要求7所述的装置,其特征在于,所述文本结构信息提取模块,包括:
语法结构信息提取子模块,用于对所述参考文本内容进行语法结构的提取,得到所述参考文本内容的语法结构信息;
字词结构信息生成子模块,用于对所述参考文本内容进行拆分,得到所述参考文本内容中各文本位置的字词结构信息;
文本结构信息生成子模块,用于将所述语法结构信息和所述字词结构信息作为所述参考文本内容的文本结构信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202010548649.2A 2020-06-16 2020-06-16 基于人工智能的文本生成方法、装置、计算机设备和介质 Pending CN111709229A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010548649.2A CN111709229A (zh) 2020-06-16 2020-06-16 基于人工智能的文本生成方法、装置、计算机设备和介质
PCT/CN2020/124736 WO2021139344A1 (zh) 2020-06-16 2020-10-29 基于人工智能的文本生成方法、装置、计算机设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010548649.2A CN111709229A (zh) 2020-06-16 2020-06-16 基于人工智能的文本生成方法、装置、计算机设备和介质

Publications (1)

Publication Number Publication Date
CN111709229A true CN111709229A (zh) 2020-09-25

Family

ID=72540585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010548649.2A Pending CN111709229A (zh) 2020-06-16 2020-06-16 基于人工智能的文本生成方法、装置、计算机设备和介质

Country Status (2)

Country Link
CN (1) CN111709229A (zh)
WO (1) WO2021139344A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112668306A (zh) * 2020-12-22 2021-04-16 延边大学 一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统
WO2021139344A1 (zh) * 2020-06-16 2021-07-15 平安科技(深圳)有限公司 基于人工智能的文本生成方法、装置、计算机设备和介质
CN113779937A (zh) * 2021-09-27 2021-12-10 平安资产管理有限责任公司 基于人工智能的文本内容转换方法、装置、设备和介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104854588B (zh) * 2012-12-20 2019-06-04 皇家飞利浦有限公司 用于搜索标记的主要为非文本的项目的系统和方法
CN109446513B (zh) * 2018-09-18 2023-06-20 中国电子科技集团公司第二十八研究所 一种基于自然语言理解的文本中事件的抽取方法
CN110457718B (zh) * 2019-08-21 2020-11-24 腾讯科技(深圳)有限公司 一种文本生成方法、装置、计算机设备及存储介质
CN110738026B (zh) * 2019-10-23 2022-04-19 腾讯科技(深圳)有限公司 用于生成描述文本的方法和设备
CN111178053B (zh) * 2019-12-30 2023-07-28 电子科技大学 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN111709229A (zh) * 2020-06-16 2020-09-25 平安科技(深圳)有限公司 基于人工智能的文本生成方法、装置、计算机设备和介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021139344A1 (zh) * 2020-06-16 2021-07-15 平安科技(深圳)有限公司 基于人工智能的文本生成方法、装置、计算机设备和介质
CN112668306A (zh) * 2020-12-22 2021-04-16 延边大学 一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统
CN112668306B (zh) * 2020-12-22 2021-07-27 延边大学 一种基于语句甄别识别和强化学习动作设计的语言处理方法和系统
CN113779937A (zh) * 2021-09-27 2021-12-10 平安资产管理有限责任公司 基于人工智能的文本内容转换方法、装置、设备和介质

Also Published As

Publication number Publication date
WO2021139344A1 (zh) 2021-07-15

Similar Documents

Publication Publication Date Title
CN111859960B (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
CN111460807B (zh) 序列标注方法、装置、计算机设备和存储介质
CN111709229A (zh) 基于人工智能的文本生成方法、装置、计算机设备和介质
KR102116518B1 (ko) 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
CN111061847A (zh) 对话生成及语料扩充方法、装置、计算机设备和存储介质
CN111226222A (zh) 使用人工神经网络的基于深度上下文的语法错误校正
EP4131076A1 (en) Serialized data processing method and device, and text processing method and device
CN111859986A (zh) 基于多任务孪生网络的语义匹配方法、装置、设备和介质
CN109344242B (zh) 一种对话问答方法、装置、设备及存储介质
CN110866391A (zh) 标题生成方法、装置、计算机可读存储介质和计算机设备
GB2573998A (en) Device and method for natural language processing
CN112380837B (zh) 基于翻译模型的相似句子匹配方法、装置、设备及介质
CN111680494A (zh) 相似文本的生成方法及装置
CN112131888B (zh) 分析语义情感的方法、装置、设备及存储介质
CN108536735B (zh) 基于多通道自编码器的多模态词汇表示方法与系统
CN113362810B (zh) 语音处理模型的训练方法、装置、设备及存储介质
CN112307168A (zh) 基于人工智能的问诊会话处理方法、装置和计算机设备
KR20220164559A (ko) 희소 어텐션 메커니즘이 있는 어텐션 신경망
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN112732884A (zh) 目标回答语句生成方法、装置、计算机设备和存储介质
CN113886601A (zh) 电子文本事件抽取方法、装置、设备及存储介质
CN111931492A (zh) 数据扩充混合策略生成方法、装置和计算机设备
CN112699675B (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN111368564A (zh) 文本处理方法、装置、计算机可读存储介质和计算机设备
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination